"the ranking of Google search results" 是 google 的命脉,因此很少能看到官方的说明。原因倒也无可厚非:"competition and abuse",这两件事情确实哪一个都不容忽视!
不过近日,google 负责搜索质量的 VP, Udi Manber,透露了一些有意思的资料,"Introduction to Google Search Quality"。对 search 感兴趣的千万不要错过!我列举一下我感兴趣的。
- more than one thousand programmer/scientist years have gone directly into their development (that is to say "the ranking algorithms").
- divided into some teams
- The heart of the group is the team that works on core ranking
- Another team in our group is responsible for evaluating how well we're doing
- Another team is dedicated to new features and new user interfaces
- There is a whole team that concentrates on fighting webspam and other types of abuse
- There are other teams devoted to particular projects
- PageRank [1] is still in use today, but it is now a part of a much larger system. … made significant changes to the PageRank algorithm in January, 2008.
- some other parts
- language models (the ability to handle phrases, synonyms, diacritics, spelling mistakes, and so on)
- query models (it's not just the language, it's how people use it today)
- time models (some queries are best answered with a 30-minutes old page, and some are better answered with a page that stood the test of time)
- personalized models (not all people want the same thing).
- Google conducts evaluations typically in three manners, (1) automated evaluations every minute, (2) periodic evaluations of our overall quality and (3) evaluations of specific algorithmic improvements.
- In 2007, … more than 450 new improvements, about 9 per week on the average.
- .. work on projects where the sole purpose is to simplify the algorithms. Simple is good.
Udi Manber 是我最景仰的几位科学家之一。"Chief Algorithms Officer"这个职位,就是 Amazon 专门为表彰他的贡献而首创出来的。
推荐阅读:
- 20 (Rare) Questions for Google Search Guru Udi Manber
- Insight Into Google's Search Quality Efforts
Wikipedia 是个好东东!目前,Wikipedia 上大约有超过 2,000,000 个英文条目,已经成为一部地地道道的百科全书。但由于之前 GFW 作祟,要访问它必须得使用穿墙术,这大大降低了它在国内的影响力。最近沾了奥运会的光,Wikipedia 解封了。
我相信,大多数人都会有这样的印象,“Wikipedia 上的内容是高质量并且可以信赖的”。经常使用 google 的人尤其会这么认为,因为 Wikipedia 的内容经常会出现在 google search 结果的第一页内。随便试验几个例子就可以证明这一点,recommender system,semantic web,或者更 general 一些的,automobile,Olympic。国外有人做过一个实验,结论是,“96.6% of Wikipedia Pages Rank in Google's Top 10”。Wikipedia 的影响力之大,可见一斑。
但实际上,经常使用 Wikipedia 的人们发现, Wikiepedia 上的条目并不像我们想当然认为的那样尽善尽美,它也是鱼龙混杂的。而且要命的是,由于 Wikipedia 百科全书的性质,对于不熟悉的内容,读者很难区分哪些内容是高质量的,哪些又是滥竽充数的。Wikipedia 的管理者已经承认了这一点,并在试图解决这个问题。国外有学者把这个问题引入到了 research 领域,做了不少有意思的工作。
- Measure Wikipedia
- Information Quality Discussions in Wikipedia
- Assessing information quality of a community-based encyclopedia
- Wikipedia Article Quality Assessment and Ranking Tips for Users and Search Engine Engineers
刚刚结束的 WWW2008 会议里有一篇 short paper,《Size Matters: Word Count as a Measure of Quality on Wikipedia》。里面给出了一个令人吃惊的实验结果,在进行 Wikipedia 的文章质量评价时,仅仅只需要使用“Word Count”一个参数,就可以取得 96.31% 的准确率!这个结果,比许多使用复杂模型的算法,都要好!
可以看出来,作者写作这篇 paper 的态度是非常严谨的!但我个人还是认为,对于评价质量这个问题,article length 并不是一个严谨的指标,文章的实验结论似乎仅能说明,使用这个指标得到的结果与 wikipedia 现有数据拟合的更好而已。这篇文章更靠谱的结论应该是,“long articles are featured (good), and featured articles are long”。有这方面实际经验的朋友,欢迎讨论。
最近接到一个项目,是关于信息抽取方面的,仔细分析下来,还真的是挺难的。对于现实的应用,如何选取一个最有效的数学模型,这个是非常考验算法功力的事情。因此,这几天把自己闷在家里,网也不上了,Blog也不读了,潜心研究信息抽取(Information Extraction)方面的算法。这其中,又把隐马尔可夫算法(HMM)好好地啃了一下。google china blog 上面有一篇文章《数学之美 系列三 — 隐含马尔可夫模型在语言处理中的应用》,比较经典地讲解了隐马尔可夫算法的应用,是一篇很好的文章。之前,我曾经比较系统地研究过《数学之美》系列的前几篇,还把这几篇放到了我的“每日一贴”栏目中,算是对自己学习的一个记录。虽然把这个栏目的名字定为“每日一贴”,但其实频率远达不到每日一贴。这些 文字不是自己写的,所以更需要咀嚼之后,才能真正地为我所用。如果仅仅就是“贴”一下的话,那还真没这个必要了,浪费时间。因此希望加入“每日一贴”的文 章,都能够真正地对自己有所帮助。
简单陈列一下信息抽取的三大类方法。
- 基于规则的方法。这个方法解决特定的问题效果比较好,但同时它对被提取信息的要求也比较苛刻。此方法主要基于规则库进行信息抽取,因此,规则库的质量直接绝对了算法的召回率和准确率。通常情况下,尤其是应用在商业项目中,要想编制一个高质量的规则库是不经济的。项目起始不能将此方法作为核心,待有了足够的数据积累之后,通过制作训练模型和算法,可以对整个项目的质量有一定程度的提升。
- 隐马尔可夫方法。这是经典的信息抽取算法。但它要求信息源的内容之间是有顺序关联的,即,要求数据的排列是有逻辑关系的。对于内容之间相互独立的信息,它的效果不是很好。非常不幸,我这个项目的数据源这是如此。它的内容是分段的,对于这些段落中国人有习惯顺序,但这种习惯顺序并不能抽象化成逻辑关系,因此不适合使用应马尔可夫算法。
- 基于文本分类的方面。这种方法利用信息之间的独立假设,使用分类算法抽取信息,适用于处理出现次序相互独立信息的抽取问题。配合质量比较高的中文分词算法,信息抽取的精确率与召回率较高。我要做的项目准备以此方法为核心算法。