最好走的路越走越难,最难走的路越走越容易

Follow guwendong on Web
  • Subscribe to Beyond Search via RSS
  • Follow @clickstone on SinaWeibo
  • Join Resys Google Group
  • Follow @clickstone on Douban
  • Follow @clickstone on Twitter

Category Archives: 技术研究

Google Search Quality 官方说明

"the ranking of Google search results" 是 google 的命脉,因此很少能看到官方的说明。原因倒也无可厚非:"competition and abuse",这两件事情确实哪一个都不容忽视!

不过近日,google 负责搜索质量的 VP, Udi Manber,透露了一些有意思的资料,"Introduction to Google Search Quality"。对 search 感兴趣的千万不要错过!我列举一下我感兴趣的。

  1. more than one thousand programmer/scientist years have gone directly into their development (that is to say "the ranking algorithms").
  2. divided into some teams
    • The heart of the group is the team that works on core ranking
    • Another team in our group is responsible for evaluating how well we're doing
    • Another team is dedicated to new features and new user interfaces
    • There is a whole team that concentrates on fighting webspam and other types of abuse
    • There are other teams devoted to particular projects
  3. PageRank [1] is still in use today, but it is now a part of a much larger system. … made significant changes to the PageRank algorithm in January, 2008.
  4. some other parts
    • language models (the ability to handle phrases, synonyms, diacritics, spelling mistakes, and so on)
    • query models (it's not just the language, it's how people use it today)
    • time models (some queries are best answered with a 30-minutes old page, and some are better answered with a page that stood the test of time)
    • personalized models (not all people want the same thing).
  5. Google conducts evaluations typically in three manners, (1) automated evaluations every minute, (2) periodic evaluations of our overall quality and (3) evaluations of specific algorithmic improvements.
  6. In 2007, … more than 450 new improvements, about 9 per week on the average.
  7. .. work on projects where the sole purpose is to simplify the algorithms. Simple is good.

Udi Manber 是我最景仰的几位科学家之一。"Chief Algorithms Officer"这个职位,就是 Amazon 专门为表彰他的贡献而首创出来的。

推荐阅读:

  1. 20 (Rare) Questions for Google Search Guru Udi Manber
  2. Insight Into Google's Search Quality Efforts

 

Word Count as a Measure of Quality on Wikipedia

Wikipedia 是个好东东!目前,Wikipedia 上大约有超过 2,000,000 个英文条目,已经成为一部地地道道的百科全书。但由于之前 GFW 作祟,要访问它必须得使用穿墙术,这大大降低了它在国内的影响力。最近沾了奥运会的光,Wikipedia 解封了。
我相信,大多数人都会有这样的印象,“Wikipedia 上的内容是高质量并且可以信赖的”。经常使用 google 的人尤其会这么认为,因为 Wikipedia 的内容经常会出现在 google search 结果的第一页内。随便试验几个例子就可以证明这一点,recommender systemsemantic web,或者更 general 一些的,automobileOlympic。国外有人做过一个实验,结论是,“96.6% of Wikipedia Pages Rank in Google's Top 10”。Wikipedia 的影响力之大,可见一斑。

但实际上,经常使用 Wikipedia 的人们发现, Wikiepedia 上的条目并不像我们想当然认为的那样尽善尽美,它也是鱼龙混杂的。而且要命的是,由于 Wikipedia 百科全书的性质,对于不熟悉的内容,读者很难区分哪些内容是高质量的,哪些又是滥竽充数的。Wikipedia 的管理者已经承认了这一点,并在试图解决这个问题。国外有学者把这个问题引入到了 research 领域,做了不少有意思的工作。

  1. Measure Wikipedia
  2. Information Quality Discussions in Wikipedia
  3. Assessing information quality of a community-based encyclopedia
  4. Wikipedia Article Quality Assessment and Ranking Tips for Users and Search Engine Engineers

刚刚结束的 WWW2008 会议里有一篇 short paper,《Size Matters: Word Count as a Measure of Quality on Wikipedia》。里面给出了一个令人吃惊的实验结果,在进行 Wikipedia 的文章质量评价时,仅仅只需要使用“Word Count”一个参数,就可以取得 96.31% 的准确率!这个结果,比许多使用复杂模型的算法,都要好!
可以看出来,作者写作这篇 paper 的态度是非常严谨的!但我个人还是认为,对于评价质量这个问题,article length 并不是一个严谨的指标,文章的实验结论似乎仅能说明,使用这个指标得到的结果与 wikipedia 现有数据拟合的更好而已。这篇文章更靠谱的结论应该是,“long articles are featured (good), and featured articles are long”。有这方面实际经验的朋友,欢迎讨论。

 

研究小记:信息抽取

最近接到一个项目,是关于信息抽取方面的,仔细分析下来,还真的是挺难的。对于现实的应用,如何选取一个最有效的数学模型,这个是非常考验算法功力的事情。因此,这几天把自己闷在家里,网也不上了,Blog也不读了,潜心研究信息抽取(Information Extraction)方面的算法。这其中,又把隐马尔可夫算法(HMM)好好地啃了一下。google china blog 上面有一篇文章《数学之美 系列三 — 隐含马尔可夫模型在语言处理中的应用》,比较经典地讲解了隐马尔可夫算法的应用,是一篇很好的文章。之前,我曾经比较系统地研究过《数学之美》系列的前几篇,还把这几篇放到了我的“每日一贴”栏目中,算是对自己学习的一个记录。虽然把这个栏目的名字定为“每日一贴”,但其实频率远达不到每日一贴。这些 文字不是自己写的,所以更需要咀嚼之后,才能真正地为我所用。如果仅仅就是“贴”一下的话,那还真没这个必要了,浪费时间。因此希望加入“每日一贴”的文 章,都能够真正地对自己有所帮助。

简单陈列一下信息抽取的三大类方法。

  1. 基于规则的方法。这个方法解决特定的问题效果比较好,但同时它对被提取信息的要求也比较苛刻。此方法主要基于规则库进行信息抽取,因此,规则库的质量直接绝对了算法的召回率和准确率。通常情况下,尤其是应用在商业项目中,要想编制一个高质量的规则库是不经济的。项目起始不能将此方法作为核心,待有了足够的数据积累之后,通过制作训练模型和算法,可以对整个项目的质量有一定程度的提升。
  2. 隐马尔可夫方法。这是经典的信息抽取算法。但它要求信息源的内容之间是有顺序关联的,即,要求数据的排列是有逻辑关系的。对于内容之间相互独立的信息,它的效果不是很好。非常不幸,我这个项目的数据源这是如此。它的内容是分段的,对于这些段落中国人有习惯顺序,但这种习惯顺序并不能抽象化成逻辑关系,因此不适合使用应马尔可夫算法。
  3. 基于文本分类的方面。这种方法利用信息之间的独立假设,使用分类算法抽取信息,适用于处理出现次序相互独立信息的抽取问题。配合质量比较高的中文分词算法,信息抽取的精确率与召回率较高。我要做的项目准备以此方法为核心算法。
 
猛戳这里

简网指阅 联合创始人 & CTO
ResysChina 发起人
1. 持续关注 个性化推荐 技术;
2. 持续关注 Semantic Web 技术;
3. 评论与上两项相关的互联网业务与产品;

我相信技术的力量!
wendell.gu@GMail.com

Archives