最好走的路越走越难,最难走的路越走越容易

Follow guwendong on Web
  • Subscribe to Beyond Search via RSS
  • Follow @clickstone on SinaWeibo
  • Join Resys Google Group
  • Follow @clickstone on Douban
  • Follow @clickstone on Twitter

Tag Archives: strands

Strands Awards 3:SentiMetrix & Pluribo

接 Strands Awards 2

SentiMetrix 是 Strands Awards 的第四名,4 人 team, 他们的 idea 是要打造一套意见分析引擎(opinion analysis engine),通过在互联网上收集用户对某个产品或者某项服务的评论,使用其拥用专利的 SentiGrade™ 技术,对用户评论内容进行观点分析(sentiment analysis),并最终给出一个具备参考价值的综合评价。SentiGrade™ 技术的核心是分析“可以表达意见的词汇”(opinion expressing words),包括,形容词、名词、某些副词组合、特定句式中的动词、以及副词动词词组。

” … we focused on parts of speech that we called “opinion expressing words”. This class was broad enough not just to include adjectives, but also nouns (e.g. “The scoundrel!”) and certain adverbial combinations.  … the occurrences of verbs (“He emphasized that ….”), adverb-verb phrases (e.g. “He strongly reiterated that…..”), … there is a strong correlation between how such terms are used in a document and how readers’ intensity of sentiment on the topic is formed.  ”

SentiMetrix 的 demo 需要申请才能看得到,比较麻烦。我这里再介绍一个作同样事情的公司,Pluribo。得知 Pluribo,是在 RWW 上看到了他们的 PR ,一下子就被吸引住了。当时 Pluribo 网站不知何故居然被 GFWed,我籍出穿墙术才得以成功试用。不过费劲是值得的,我个人把 Pluribo 视为 08 年最具技术含量的创新服务!

试用 Pluribo 的服务非常简单,他提供了一个 google custom search,外加一个  Firefox extension。目前,Pluribo 的 extension 只能在 Amazon 上工作,而且仅限于电子产品和小说类书籍。但是,效果非常棒!
我最近准备出手 Nikon D80,Pluribo 给出的 summary 是,“ Reviewers extol the sharp lens, big display, and flash. Get your wallet ready.”。简单、明了、有效率,大大强化了我的购买决定。

上图中底部 Pluribo 黄色标志所在的深灰色信息条,即为 Pluribo 针对 Nikon D80 给出的 instant summary。

这个柱状图为 Pluribo 给出的 Nikon D80 主要参数的打分与相机类产品平均打分的对比情况。

这个仪表盘为 Pluribo 就“display”一项给出的评价,其抽出的例句相当有说服力。

更具体的分析结果,参见这里

Pluribo 也拥有相关的专利技术,具体看起来,应该和 SentiMetrix 的 SentiGrade™ 大同小异。核心分为 3 块,“Feature-based sentiment analysis”,“Intelligent synthesis”,和“Lucid text generation”。

“Feature-based sentiment analysis is the process of scanning text about a topic and extracting a distinct sentiment score for each topic attribute. … scan text and look for feature phrases occurring in close proximity with sentiment phrases. … have a good top-down ontology of the features for a given domain and a comprehensive lexicon of the typical feature and sentiment phrases in that domain. … using a basket of bottom-up statistical techniques, including word frequency, proximity in WordNet, and Bayesian phrase clustering.”

我对“Lucid text generation”技术非常感兴趣。Sentiment Analysis 技术本身是对传统文本摘要技术的一种扩展应用。文本摘要通常的方法是从文章中抽取核心子句,拼接成摘要,比如我个人比较关注的 LexRank。但 Pluribo 使用“Lucid text generation”技术,能够自动生成语法上非常通顺的句子,这个就非常厉害了。我个人尚不能确定“Lucid text generation”具体是如何运作的,但鉴于其目前仅能工作于电子和小说两类产品,推测其可能是由人工整理的 summary pattern,再根据具体情况进行套用。

整体来讲,Sentiment Analysis 是一项非常有应用价值的技术。在国内互联网领域,电子商务相对来说做得还是比较好的,B2C 有当当和卓越,C2C 有淘宝和新进上线的有啊,市场基础有,也够红火。豆瓣以独立书评服务起家,但到目前为止,其在此方面的应用也还仅停留在“有用/没用”的状况。类似 SentiMetrix 和 Pluribo 这样的独立第三方评论服务,应该还大有 可为。而且关键的一点,SentiMetrix 已经给出了可行的收入模式。

对 Sentiment Analysis 感兴趣的朋友,推荐看一下这个!据风之谷介绍,其作者 Bing Liu 为微软 Product Search 的顾问,难怪可以写得如此精彩。

 

Strands Awards 2:Iletken

接 Strands Awards 1

Strands Awards 的第三名是 Iletken。Iletken 这个词来自于土耳其语,读起来有些拗口,意思大概是“有传播性的”之类的。他们的 idea 是基于社会化网络的个性化相关内容推荐。这个 idea 非常 hot,personalization 和 social networks,两个都是目前很热门的领域。Iletken 会综合分析内容相关度、传统协同过滤方法以及社会化方面的因素,开发一个针对 news 和 RSS feeds 的混合式推荐引擎。

Iletken 最吸引我的地方,正是他们对于 social 因素的使用。他们首先会划分用户兴趣种类;然后在每个兴趣种类范围内,建立一个有权重的用户接近度网络(Weighted social proximity graphs);兴趣种类不同,网络不同;最后,他们使用下面这样一个公式,计算每个用户的整体相关度。其中,Content 代表内容相关度,CF 代表传统的协同过滤方法,最后一个 Social 则是社会化因素。

得到此相关度网络之后,能做的事情就多了。Iletken 提到了两个,智能群组广告与意见领袖,如右图里红色虚线圈中的部分。豆瓣最近在小组页面里加入了 google adsense,引起了豆友们的热议。我个人对豆瓣加广告这事儿还是非常支持的,NullPointer 说得好,广告是“social media 的 media 属性所决定的赢利模式”。做 media 的,终究绕不过去,那就让广告更智能一些吧。Iletken 提出的按兴趣群组进行智能广告投放,就是一个好思路。至于意见领袖,大家应该听得多了,但在中文互联网圈子里面,这似乎更像个贬义词。Iletken 估计也注意到了类似的问题,因此提出了“Trust is Value”的概念。但如何量化 Trust 呢,还需要细化研究一下。

Iletken 提出的按照不同兴趣组织好友网络,这个思路和我一直的想法很像,在 social networks 里面,必须把好友按照不同兴趣自动组织在一起,才能从根本上解决信息过载与推荐准确性的问题。我在豆瓣上发起过一个讨论,有兴趣的朋友请到这里

另外,Iletken 居然提出了一个“Chinese Song Problem”,不知道是不是 team 里有人喜欢中文。PPT 里还提到了一个“Social Noise”的概念,我没太搞清楚,如果哪位朋友了解详情,还请指点了。

 

Strands Awards 1

MyStrands.com 刚刚公布了他们设立的 Strands Awards结果。经过激烈 PK 之后入围的五位候选者,通过在 RecSys08 上作 presentation,由评委打分,排定了名次。

第一名,Gravity R&D,他们的 idea 是提供一套个性化TV娱乐节目解决方案,核心概括为 4 点:

  1. 即时频道推荐以及个性化导视;
  2. 电影和点播内容的即时推荐;
  3. 根据用户喜好和收视习惯进行自动录像;
  4. 多用户操控。

也难怪 Gravity R&D 这次可以拔得头筹, 在 Recommender System 算法领域他们可是狠角色。他们是一个 4 人开发小组,因为共同参与 Netflix Prize 而聚在了一起。我印象里,打很早开始,他们就一直盘踞在 Netflix Prize 的前 5 名之内。

第二名,Reccoon,他们的 idea 是 Activity-based Recommendations,核心思路是,根据用户当前所在地点,当前时间,以及其他输入,为用户作出推荐。举个例子,我周六中午12点,在朝阳门附近打开 Reccoon,最直接的,他可以推荐给我周围的餐馆。进一步假设我是 Reccoon 的长期用户,他已经知道我经常在周末去吃自助餐,他就可以把好伦哥推荐给我。再进一步,如果他还知道我爱吃日本料理,他就可以优先建议世贸天阶有一家金钱豹。
这个 idea 我个人接触过好多次了,也就具体问题和一些朋友见面聊过。类似的需求肯定是有,也越来越引起大家的重视。Google 负责 Personalized Search 的工程师 Bryan Horling 就认为,Location data 是个性化计算的三个主要数据来源之一。

“… personalization coming from three data sources, localization data (IP address or information in the history that indicates location), short-term history (specific information from immediately preceding searches), and long-term history (broad category interests and preferences summarized from months of history)… "

后面还有 3 个,IletkenSentiMetrixCommendo,且听下回分解,哈哈。
我个人更感兴趣的是 IletkenSentiMetrixCommendo 也厉害得很,目前在 Netflix Prize Leaderboard 上排名第 2!

废话一句:校内如果用买 kaixin.com 域名的钱办一个类似的活动,对它自己,以及国内互联网圈子,有价值得多!

 
猛戳这里

简网指阅 联合创始人 & CTO
ResysChina 发起人
1. 持续关注 个性化推荐 技术;
2. 持续关注 Semantic Web 技术;
3. 评论与上两项相关的互联网业务与产品;

我相信技术的力量!
wendell.gu@GMail.com

Archives