最好走的路越走越难,最难走的路越走越容易

Follow guwendong on Web
  • Subscribe to Beyond Search via RSS
  • Follow @clickstone on SinaWeibo
  • Join Resys Google Group
  • Follow @clickstone on Douban
  • Follow @clickstone on Twitter

Tag Archives: resysapps

Jinni:电影基因工程

我应该可以算是个电影迷。

整个高中阶段,我有一个习惯。每逢周日的下午,我都会跑到离家不远的一个投影厅,花 3 块钱,美美地看三部电影。那时侯是香港电影的黄金岁月,周润发+吴宇森的枪战片,徐克+李连杰的武侠片,王家卫+梁朝伟的艺术片,成龙的动作喜剧片,王祖贤的鬼片,周星驰的无厘头片,整个大银幕星光闪耀,异彩纷呈。当然,还有王晶的赌片和三级片,呵呵。我一个人窝在角落的靠背椅子里,享受着电影世界带给我的感官体验或者是心灵震撼。那是我青春岁月里,非常美妙地一段记忆。

那时侯的美国电影并不比港片好太多。会在我们那个城市的投影厅里排映的,我印象里差不多就是施瓦辛格的肌肉片,金凯瑞的搞笑片,还有猛鬼街之类的恐怖片。有一次,我看到了这么一部片子,大意是说,有一台 Computer,忘记了怎么着发生了什么事情,突然就有了自己的意识。男主角暗恋女主角,经常在 Computer 上给女主角写情书。慢慢地,Computer 也爱上了女主角,开始给男主角搞坏,成为了男主角的情敌。影片情节有趣,女主角靓丽,尤其是那美妙的音乐,给我留下了难以磨灭的印象。但是,这部片子叫做什么名字,我却没有记住。

这之后,我时常会神经质地想起这部片子。然后就跑到碟店里面去问店主,问的大致内容就是“Computer/Love/Music”之类的,但始终未果。

后来,我有机会负责一个电影搜索引擎的开发。我给自己定了一个要求,在我做的这个搜索引擎里面,输入“Computer Love Music”,一定要出来这部电影。我的规划是作三期,第一期完成基础架构,实现基本的基于关键字的搜索。第二期就是这种,我将其定义为偏重于行业特征的搜索。可惜的是,我并没有全部做完。第一期完成了之后,我就被一家更靠谱的互联网创业公司给忽悠过来了。

不过可喜的是,现在,我所谓的第二期,别人已经做出了实际的产品。这个就是 Jinni.com

我在 Jinni 上搜索“Computer Love Music”,没有我要的结果。我接着搜索“Computer Love”,非常棒,一眼就看到了我心中久违的那个美女。

 jinni

Jinni 使用了一种称为“Movie Genome”的技术。翻译成中文差不多就是,基于“电影基因”的搜索,这个听起来实在有够拉风!

Taste in movies is complex and unique. … you'd like a movie just because it's a Drama or stars Vince Vaughn. That's why our team of movie and TV experts created the Movie Genome, … to map more aspects of movies … so that all different viewers can match their personal tastes and moods, and find what they really want to watch next.

The starting point of the Movie Genome is manual tagging by our team of film professionals. Each title has around fifty genes, among thousands of possibilities. Then, using advanced machine-learning technology, Jinni's system learns from the manual tagging to begin automated tagging.

我还剩下 4 个 Invites,有兴趣的朋友可以告诉我你的 email,我给你发邀请,先到先得。

我上面说的那部电影,年代有点儿久远了,你可以不看,但电影中的音乐一定要听一听,特别是 Culture Club 的这首《Love Is Love》!

 

Strands Awards 3:SentiMetrix & Pluribo

接 Strands Awards 2

SentiMetrix 是 Strands Awards 的第四名,4 人 team, 他们的 idea 是要打造一套意见分析引擎(opinion analysis engine),通过在互联网上收集用户对某个产品或者某项服务的评论,使用其拥用专利的 SentiGrade™ 技术,对用户评论内容进行观点分析(sentiment analysis),并最终给出一个具备参考价值的综合评价。SentiGrade™ 技术的核心是分析“可以表达意见的词汇”(opinion expressing words),包括,形容词、名词、某些副词组合、特定句式中的动词、以及副词动词词组。

” … we focused on parts of speech that we called “opinion expressing words”. This class was broad enough not just to include adjectives, but also nouns (e.g. “The scoundrel!”) and certain adverbial combinations.  … the occurrences of verbs (“He emphasized that ….”), adverb-verb phrases (e.g. “He strongly reiterated that…..”), … there is a strong correlation between how such terms are used in a document and how readers’ intensity of sentiment on the topic is formed.  ”

SentiMetrix 的 demo 需要申请才能看得到,比较麻烦。我这里再介绍一个作同样事情的公司,Pluribo。得知 Pluribo,是在 RWW 上看到了他们的 PR ,一下子就被吸引住了。当时 Pluribo 网站不知何故居然被 GFWed,我籍出穿墙术才得以成功试用。不过费劲是值得的,我个人把 Pluribo 视为 08 年最具技术含量的创新服务!

试用 Pluribo 的服务非常简单,他提供了一个 google custom search,外加一个  Firefox extension。目前,Pluribo 的 extension 只能在 Amazon 上工作,而且仅限于电子产品和小说类书籍。但是,效果非常棒!
我最近准备出手 Nikon D80,Pluribo 给出的 summary 是,“ Reviewers extol the sharp lens, big display, and flash. Get your wallet ready.”。简单、明了、有效率,大大强化了我的购买决定。

上图中底部 Pluribo 黄色标志所在的深灰色信息条,即为 Pluribo 针对 Nikon D80 给出的 instant summary。

这个柱状图为 Pluribo 给出的 Nikon D80 主要参数的打分与相机类产品平均打分的对比情况。

这个仪表盘为 Pluribo 就“display”一项给出的评价,其抽出的例句相当有说服力。

更具体的分析结果,参见这里

Pluribo 也拥有相关的专利技术,具体看起来,应该和 SentiMetrix 的 SentiGrade™ 大同小异。核心分为 3 块,“Feature-based sentiment analysis”,“Intelligent synthesis”,和“Lucid text generation”。

“Feature-based sentiment analysis is the process of scanning text about a topic and extracting a distinct sentiment score for each topic attribute. … scan text and look for feature phrases occurring in close proximity with sentiment phrases. … have a good top-down ontology of the features for a given domain and a comprehensive lexicon of the typical feature and sentiment phrases in that domain. … using a basket of bottom-up statistical techniques, including word frequency, proximity in WordNet, and Bayesian phrase clustering.”

我对“Lucid text generation”技术非常感兴趣。Sentiment Analysis 技术本身是对传统文本摘要技术的一种扩展应用。文本摘要通常的方法是从文章中抽取核心子句,拼接成摘要,比如我个人比较关注的 LexRank。但 Pluribo 使用“Lucid text generation”技术,能够自动生成语法上非常通顺的句子,这个就非常厉害了。我个人尚不能确定“Lucid text generation”具体是如何运作的,但鉴于其目前仅能工作于电子和小说两类产品,推测其可能是由人工整理的 summary pattern,再根据具体情况进行套用。

整体来讲,Sentiment Analysis 是一项非常有应用价值的技术。在国内互联网领域,电子商务相对来说做得还是比较好的,B2C 有当当和卓越,C2C 有淘宝和新进上线的有啊,市场基础有,也够红火。豆瓣以独立书评服务起家,但到目前为止,其在此方面的应用也还仅停留在“有用/没用”的状况。类似 SentiMetrix 和 Pluribo 这样的独立第三方评论服务,应该还大有 可为。而且关键的一点,SentiMetrix 已经给出了可行的收入模式。

对 Sentiment Analysis 感兴趣的朋友,推荐看一下这个!据风之谷介绍,其作者 Bing Liu 为微软 Product Search 的顾问,难怪可以写得如此精彩。

 

Strands Awards 2:Iletken

接 Strands Awards 1

Strands Awards 的第三名是 Iletken。Iletken 这个词来自于土耳其语,读起来有些拗口,意思大概是“有传播性的”之类的。他们的 idea 是基于社会化网络的个性化相关内容推荐。这个 idea 非常 hot,personalization 和 social networks,两个都是目前很热门的领域。Iletken 会综合分析内容相关度、传统协同过滤方法以及社会化方面的因素,开发一个针对 news 和 RSS feeds 的混合式推荐引擎。

Iletken 最吸引我的地方,正是他们对于 social 因素的使用。他们首先会划分用户兴趣种类;然后在每个兴趣种类范围内,建立一个有权重的用户接近度网络(Weighted social proximity graphs);兴趣种类不同,网络不同;最后,他们使用下面这样一个公式,计算每个用户的整体相关度。其中,Content 代表内容相关度,CF 代表传统的协同过滤方法,最后一个 Social 则是社会化因素。

得到此相关度网络之后,能做的事情就多了。Iletken 提到了两个,智能群组广告与意见领袖,如右图里红色虚线圈中的部分。豆瓣最近在小组页面里加入了 google adsense,引起了豆友们的热议。我个人对豆瓣加广告这事儿还是非常支持的,NullPointer 说得好,广告是“social media 的 media 属性所决定的赢利模式”。做 media 的,终究绕不过去,那就让广告更智能一些吧。Iletken 提出的按兴趣群组进行智能广告投放,就是一个好思路。至于意见领袖,大家应该听得多了,但在中文互联网圈子里面,这似乎更像个贬义词。Iletken 估计也注意到了类似的问题,因此提出了“Trust is Value”的概念。但如何量化 Trust 呢,还需要细化研究一下。

Iletken 提出的按照不同兴趣组织好友网络,这个思路和我一直的想法很像,在 social networks 里面,必须把好友按照不同兴趣自动组织在一起,才能从根本上解决信息过载与推荐准确性的问题。我在豆瓣上发起过一个讨论,有兴趣的朋友请到这里

另外,Iletken 居然提出了一个“Chinese Song Problem”,不知道是不是 team 里有人喜欢中文。PPT 里还提到了一个“Social Noise”的概念,我没太搞清楚,如果哪位朋友了解详情,还请指点了。

 
猛戳这里

简网指阅 联合创始人 & CTO
ResysChina 发起人
1. 持续关注 个性化推荐 技术;
2. 持续关注 Semantic Web 技术;
3. 评论与上两项相关的互联网业务与产品;

我相信技术的力量!
wendell.gu@GMail.com

Archives