第一次通过 blog 求助,希望好心的朋友帮忙!
Google 开放出来的英文 ngram 数据,对我的工作很有帮助。但我通过一些途径联系 LDC 购买,始终得不到回复。阅读我 blog 的朋友,如果有能提供帮助的,烦请联系我,谢谢!
另外,Google Alert 的结果提供了 Feed 输出的方式,可以直接在 Google Reader 里面订阅,非常好用。
第一次通过 blog 求助,希望好心的朋友帮忙!
Google 开放出来的英文 ngram 数据,对我的工作很有帮助。但我通过一些途径联系 LDC 购买,始终得不到回复。阅读我 blog 的朋友,如果有能提供帮助的,烦请联系我,谢谢!
另外,Google Alert 的结果提供了 Feed 输出的方式,可以直接在 Google Reader 里面订阅,非常好用。
最近接到一个项目,是关于信息抽取方面的,仔细分析下来,还真的是挺难的。对于现实的应用,如何选取一个最有效的数学模型,这个是非常考验算法功力的事情。因此,这几天把自己闷在家里,网也不上了,Blog也不读了,潜心研究信息抽取(Information Extraction)方面的算法。这其中,又把隐马尔可夫算法(HMM)好好地啃了一下。google china blog 上面有一篇文章《数学之美 系列三 — 隐含马尔可夫模型在语言处理中的应用》,比较经典地讲解了隐马尔可夫算法的应用,是一篇很好的文章。之前,我曾经比较系统地研究过《数学之美》系列的前几篇,还把这几篇放到了我的“每日一贴”栏目中,算是对自己学习的一个记录。虽然把这个栏目的名字定为“每日一贴”,但其实频率远达不到每日一贴。这些 文字不是自己写的,所以更需要咀嚼之后,才能真正地为我所用。如果仅仅就是“贴”一下的话,那还真没这个必要了,浪费时间。因此希望加入“每日一贴”的文 章,都能够真正地对自己有所帮助。
简单陈列一下信息抽取的三大类方法。