最好走的路越走越难,最难走的路越走越容易

Follow guwendong on Web
  • Subscribe to Beyond Search via RSS
  • Join Resys Google Group
  • Follow @clickstone on Douban
  • Follow @clickstone on Twitter

Tag Archives: ir

求助

第一次通过 blog 求助,希望好心的朋友帮忙!

Google 开放出来的英文 ngram 数据,对我的工作很有帮助。但我通过一些途径联系 LDC 购买,始终得不到回复。阅读我 blog 的朋友,如果有能提供帮助的,烦请联系我,谢谢!

另外,Google Alert 的结果提供了 Feed 输出的方式,可以直接在 Google Reader 里面订阅,非常好用。
 

 

研究小记:信息抽取

最近接到一个项目,是关于信息抽取方面的,仔细分析下来,还真的是挺难的。对于现实的应用,如何选取一个最有效的数学模型,这个是非常考验算法功力的事情。因此,这几天把自己闷在家里,网也不上了,Blog也不读了,潜心研究信息抽取(Information Extraction)方面的算法。这其中,又把隐马尔可夫算法(HMM)好好地啃了一下。google china blog 上面有一篇文章《数学之美 系列三 — 隐含马尔可夫模型在语言处理中的应用》,比较经典地讲解了隐马尔可夫算法的应用,是一篇很好的文章。之前,我曾经比较系统地研究过《数学之美》系列的前几篇,还把这几篇放到了我的“每日一贴”栏目中,算是对自己学习的一个记录。虽然把这个栏目的名字定为“每日一贴”,但其实频率远达不到每日一贴。这些 文字不是自己写的,所以更需要咀嚼之后,才能真正地为我所用。如果仅仅就是“贴”一下的话,那还真没这个必要了,浪费时间。因此希望加入“每日一贴”的文 章,都能够真正地对自己有所帮助。

简单陈列一下信息抽取的三大类方法。

  1. 基于规则的方法。这个方法解决特定的问题效果比较好,但同时它对被提取信息的要求也比较苛刻。此方法主要基于规则库进行信息抽取,因此,规则库的质量直接绝对了算法的召回率和准确率。通常情况下,尤其是应用在商业项目中,要想编制一个高质量的规则库是不经济的。项目起始不能将此方法作为核心,待有了足够的数据积累之后,通过制作训练模型和算法,可以对整个项目的质量有一定程度的提升。
  2. 隐马尔可夫方法。这是经典的信息抽取算法。但它要求信息源的内容之间是有顺序关联的,即,要求数据的排列是有逻辑关系的。对于内容之间相互独立的信息,它的效果不是很好。非常不幸,我这个项目的数据源这是如此。它的内容是分段的,对于这些段落中国人有习惯顺序,但这种习惯顺序并不能抽象化成逻辑关系,因此不适合使用应马尔可夫算法。
  3. 基于文本分类的方面。这种方法利用信息之间的独立假设,使用分类算法抽取信息,适用于处理出现次序相互独立信息的抽取问题。配合质量比较高的中文分词算法,信息抽取的精确率与召回率较高。我要做的项目准备以此方法为核心算法。
 

1. 持续关注 个性化推荐 技术;
2. 持续关注 Semantic Web 技术;
3. 评论与上两项相关的互联网业务与产品;

我相信技术的力量!
wendell.gu@GMail.com

Archives