读了一下 Google 关于 Blog Ranking 的 Patent,总结如下。
正面的指标:
- [0038] 订阅数
统计 blog 在各种 reader 中被订阅的数量。被订阅的越多,ranking 越高。但同时会使用一些方法处理“subscriptions spam”,诸如验证订制人和 IP 的唯一性。
- [0039] 搜索点击数
统计 blog 作为搜索结果时被点击的次数。点击次数越多,ranking 越高。
- [0040] 在其他 blogger 的 blogroll 里的出现次数
blogger 通常会使用 blogroll 来整理指到其他 blogger 的链接集合。统计所有 blogroll 中,指向某个 blog 的链接越多,ranking 越高。
- [0041] 来自高质量的 blogroll 的链接数
高质量的 blogroll 的链接大多都指向著名的或值得信任的 blog。
- [0042] 来自高质量的 blog 的 blogroll 的链接数
这里的假定是著名的或值得信任的 blogger 不会放指向 spam blog 的链接。
- [0043] 有Tag
blog 作者如果分析了 blog 内容,归类并打上了 tag,起码可以说明作者的态度比较认真。
- [0044] 来自邮件和聊天记录的链接数
如果在 Email 正文里或者聊天记录里出现了指向 blog 的链接,会加分。GEmail 和 Gtalk 被用在了这里。
- [0045] PageRank
PageRank 越高对应的 blog 也就越重要。考虑到blog的更新比较频繁,最新的 blog post 可能还没有PR。这时可以用对应的 blog 的 PR 来代替。
其中 [0040-0042],其实是类似于传统网页间 PageRank 计算的一套模式,只不过这里把它限制在了 blog 之间。
负面的指标:
- [0047] 更新频率异常
更新过于频繁或者非常有规律,会被认为是在 spam,ranking 会降低。这里提醒喜欢在每天的固定时间更新 blog 的朋友注意一下了。
- [0048] feed 内容和 blog 内容的不一致
spammer 有可能会为了提升自己的 ranking 而把有价值的内容放到 feed 里面,同时在 blog 内容里面放一些指向不相关内容的广告链接。为了惩罚这种情况,对于 feed 内容和 blog 内容不一致的情况,要降低 ranking。
- [0049] 出现重复内容
有些 spammer 为了让某些内容能够多次长时间的出现在 feed 里面,会重复发布同样的内容。这样的情况会被惩罚。
- [0050] 垃圾词过多
通过词频统计(bi-gram 或者 tri-gram 等),如果 blog 内容里垃圾词的比较过高,会降低 ranking。
- [0051] 多数 blog 长度相近
这个主要是针对使用机器自动生成 blog 的情况。
- [0052] 链接异常
当 blog 里的链接多为指向单一网页,或者单一的外站,会被认为是在 spam,ranking 会降低。
- [0053] 广告太多
如果一个 blog 页面内含有过多的广告,会降低 ranking。
- [0054] 广告出现在正文里
一般 blog 页面会包括三方面的内容:最近发表的 blog,blogroll 和 metadata。如果广告出现在正文里,会降低 ranking。不知道 adsense 的广告有没有特殊待遇?
"the ranking of Google search results" 是 google 的命脉,因此很少能看到官方的说明。原因倒也无可厚非:"competition and abuse",这两件事情确实哪一个都不容忽视!
不过近日,google 负责搜索质量的 VP, Udi Manber,透露了一些有意思的资料,"Introduction to Google Search Quality"。对 search 感兴趣的千万不要错过!我列举一下我感兴趣的。
- more than one thousand programmer/scientist years have gone directly into their development (that is to say "the ranking algorithms").
- divided into some teams
- The heart of the group is the team that works on core ranking
- Another team in our group is responsible for evaluating how well we're doing
- Another team is dedicated to new features and new user interfaces
- There is a whole team that concentrates on fighting webspam and other types of abuse
- There are other teams devoted to particular projects
- PageRank [1] is still in use today, but it is now a part of a much larger system. … made significant changes to the PageRank algorithm in January, 2008.
- some other parts
- language models (the ability to handle phrases, synonyms, diacritics, spelling mistakes, and so on)
- query models (it's not just the language, it's how people use it today)
- time models (some queries are best answered with a 30-minutes old page, and some are better answered with a page that stood the test of time)
- personalized models (not all people want the same thing).
- Google conducts evaluations typically in three manners, (1) automated evaluations every minute, (2) periodic evaluations of our overall quality and (3) evaluations of specific algorithmic improvements.
- In 2007, … more than 450 new improvements, about 9 per week on the average.
- .. work on projects where the sole purpose is to simplify the algorithms. Simple is good.
Udi Manber 是我最景仰的几位科学家之一。"Chief Algorithms Officer"这个职位,就是 Amazon 专门为表彰他的贡献而首创出来的。
推荐阅读:
- 20 (Rare) Questions for Google Search Guru Udi Manber
- Insight Into Google's Search Quality Efforts