最好走的路越走越难,最难走的路越走越容易

Follow guwendong on Web
  • Subscribe to Beyond Search via RSS
  • Join Resys Google Group
  • Follow @clickstone on Douban
  • Follow @clickstone on Twitter

Word Count as a Measure of Quality on Wikipedia

本文可以任意转载,转载时请务必以超链接形式标明文章 原始出处版权信息

Wikipedia 是个好东东!目前,Wikipedia 上大约有超过 2,000,000 个英文条目,已经成为一部地地道道的百科全书。但由于之前 GFW 作祟,要访问它必须得使用穿墙术,这大大降低了它在国内的影响力。最近沾了奥运会的光,Wikipedia 解封了。
我相信,大多数人都会有这样的印象,“Wikipedia 上的内容是高质量并且可以信赖的”。经常使用 google 的人尤其会这么认为,因为 Wikipedia 的内容经常会出现在 google search 结果的第一页内。随便试验几个例子就可以证明这一点,recommender systemsemantic web,或者更 general 一些的,automobileOlympic。国外有人做过一个实验,结论是,“96.6% of Wikipedia Pages Rank in Google's Top 10”。Wikipedia 的影响力之大,可见一斑。

但实际上,经常使用 Wikipedia 的人们发现, Wikiepedia 上的条目并不像我们想当然认为的那样尽善尽美,它也是鱼龙混杂的。而且要命的是,由于 Wikipedia 百科全书的性质,对于不熟悉的内容,读者很难区分哪些内容是高质量的,哪些又是滥竽充数的。Wikipedia 的管理者已经承认了这一点,并在试图解决这个问题。国外有学者把这个问题引入到了 research 领域,做了不少有意思的工作。

  1. Measure Wikipedia
  2. Information Quality Discussions in Wikipedia
  3. Assessing information quality of a community-based encyclopedia
  4. Wikipedia Article Quality Assessment and Ranking Tips for Users and Search Engine Engineers

刚刚结束的 WWW2008 会议里有一篇 short paper,《Size Matters: Word Count as a Measure of Quality on Wikipedia》。里面给出了一个令人吃惊的实验结果,在进行 Wikipedia 的文章质量评价时,仅仅只需要使用“Word Count”一个参数,就可以取得 96.31% 的准确率!这个结果,比许多使用复杂模型的算法,都要好!
可以看出来,作者写作这篇 paper 的态度是非常严谨的!但我个人还是认为,对于评价质量这个问题,article length 并不是一个严谨的指标,文章的实验结论似乎仅能说明,使用这个指标得到的结果与 wikipedia 现有数据拟合的更好而已。这篇文章更靠谱的结论应该是,“long articles are featured (good), and featured articles are long”。有这方面实际经验的朋友,欢迎讨论。

相关文章:

Leave a Reply

You can use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

1. 持续关注 个性化推荐 技术;
2. 持续关注 Semantic Web 技术;
3. 评论与上两项相关的互联网业务与产品;

我相信技术的力量!
wendell.gu@GMail.com

Archives