最好走的路越走越难,最难走的路越走越容易

Follow guwendong on Web
  • Subscribe to Beyond Search via RSS
  • Join Resys Google Group
  • Follow @clickstone on Douban
  • Follow @clickstone on Twitter

Tag Archives: rank

Google 评价 blog 的指标

读了一下 Google 关于 Blog Ranking 的 Patent,总结如下。

正面的指标:

  1. [0038] 订阅数
    统计 blog 在各种 reader 中被订阅的数量。被订阅的越多,ranking 越高。但同时会使用一些方法处理“subscriptions spam”,诸如验证订制人和 IP 的唯一性。
  2. [0039] 搜索点击数
    统计 blog 作为搜索结果时被点击的次数。点击次数越多,ranking 越高。
  3. [0040] 在其他 blogger 的 blogroll 里的出现次数
    blogger 通常会使用 blogroll 来整理指到其他 blogger 的链接集合。统计所有 blogroll 中,指向某个 blog 的链接越多,ranking 越高。
  4. [0041] 来自高质量的 blogroll 的链接数
    高质量的 blogroll 的链接大多都指向著名的或值得信任的 blog。
  5. [0042] 来自高质量的 blog 的 blogroll 的链接数
    这里的假定是著名的或值得信任的 blogger 不会放指向 spam blog 的链接。
  6. [0043] 有Tag
    blog 作者如果分析了 blog 内容,归类并打上了 tag,起码可以说明作者的态度比较认真。
  7. [0044] 来自邮件和聊天记录的链接数
    如果在 Email 正文里或者聊天记录里出现了指向 blog 的链接,会加分。GEmail 和 Gtalk 被用在了这里。
  8. [0045] PageRank
    PageRank 越高对应的 blog 也就越重要。考虑到blog的更新比较频繁,最新的 blog post 可能还没有PR。这时可以用对应的 blog 的 PR 来代替。

其中 [0040-0042],其实是类似于传统网页间 PageRank 计算的一套模式,只不过这里把它限制在了 blog 之间。

负面的指标:

  1. [0047] 更新频率异常
    更新过于频繁或者非常有规律,会被认为是在 spam,ranking 会降低。这里提醒喜欢在每天的固定时间更新 blog 的朋友注意一下了。
  2. [0048] feed 内容和 blog 内容的不一致
    spammer 有可能会为了提升自己的 ranking 而把有价值的内容放到 feed 里面,同时在 blog 内容里面放一些指向不相关内容的广告链接。为了惩罚这种情况,对于 feed 内容和 blog 内容不一致的情况,要降低 ranking。
  3. [0049] 出现重复内容
    有些 spammer 为了让某些内容能够多次长时间的出现在 feed 里面,会重复发布同样的内容。这样的情况会被惩罚。
  4. [0050] 垃圾词过多
    通过词频统计(bi-gram 或者 tri-gram 等),如果 blog 内容里垃圾词的比较过高,会降低 ranking。
  5. [0051] 多数 blog 长度相近
    这个主要是针对使用机器自动生成 blog 的情况。
  6. [0052] 链接异常
    当 blog 里的链接多为指向单一网页,或者单一的外站,会被认为是在 spam,ranking 会降低。
  7. [0053] 广告太多
    如果一个 blog 页面内含有过多的广告,会降低 ranking。
  8. [0054] 广告出现在正文里
    一般 blog 页面会包括三方面的内容:最近发表的 blog,blogroll 和 metadata。如果广告出现在正文里,会降低 ranking。不知道 adsense 的广告有没有特殊待遇?
 

Google Search Quality 官方说明

"the ranking of Google search results" 是 google 的命脉,因此很少能看到官方的说明。原因倒也无可厚非:"competition and abuse",这两件事情确实哪一个都不容忽视!

不过近日,google 负责搜索质量的 VP, Udi Manber,透露了一些有意思的资料,"Introduction to Google Search Quality"。对 search 感兴趣的千万不要错过!我列举一下我感兴趣的。

  1. more than one thousand programmer/scientist years have gone directly into their development (that is to say "the ranking algorithms").
  2. divided into some teams
    • The heart of the group is the team that works on core ranking
    • Another team in our group is responsible for evaluating how well we're doing
    • Another team is dedicated to new features and new user interfaces
    • There is a whole team that concentrates on fighting webspam and other types of abuse
    • There are other teams devoted to particular projects
  3. PageRank [1] is still in use today, but it is now a part of a much larger system. … made significant changes to the PageRank algorithm in January, 2008.
  4. some other parts
    • language models (the ability to handle phrases, synonyms, diacritics, spelling mistakes, and so on)
    • query models (it's not just the language, it's how people use it today)
    • time models (some queries are best answered with a 30-minutes old page, and some are better answered with a page that stood the test of time)
    • personalized models (not all people want the same thing).
  5. Google conducts evaluations typically in three manners, (1) automated evaluations every minute, (2) periodic evaluations of our overall quality and (3) evaluations of specific algorithmic improvements.
  6. In 2007, … more than 450 new improvements, about 9 per week on the average.
  7. .. work on projects where the sole purpose is to simplify the algorithms. Simple is good.

Udi Manber 是我最景仰的几位科学家之一。"Chief Algorithms Officer"这个职位,就是 Amazon 专门为表彰他的贡献而首创出来的。

推荐阅读:

  1. 20 (Rare) Questions for Google Search Guru Udi Manber
  2. Insight Into Google's Search Quality Efforts

 

1. 持续关注 个性化推荐 技术;
2. 持续关注 Semantic Web 技术;
3. 评论与上两项相关的互联网业务与产品;

我相信技术的力量!
wendell.gu@GMail.com

Archives