最好走的路越走越难,最难走的路越走越容易

Follow guwendong on Web
  • Subscribe to Beyond Search via RSS
  • Join Resys Google Group
  • Follow @clickstone on Douban
  • Follow @clickstone on Twitter

Tag Archives: douban

迟来的感谢:Resys 豆瓣活动

感谢开放的豆瓣团队,感谢阿北和胖子,感谢阿稳同学为这次活动付出的巨大努力!
感谢大家对 Resys 活动的支持,2010 咱们继续折腾!
本文原发 2010年第2期《程序员》杂志,略有修改。也愿 CSDN 的质量节节高升。

年关之际,不仅天气冷,互联网更冷,不过这些都无法熄灭思想的火花。2009年12月19日,国内推荐技术社区 Resys Group(https://groups.google.com/group/resys)的第三次线下活动,在豆瓣网的鼎力支持之下顺利举办。 

Resys,取名自 Recommender System 的简写,社区的宗旨是搭建一个专注于推荐技术领域的讨论平台。截止目前,Resys Group 发展势头喜人,受到了国内推荐技术爱好者们的热情响应,线上讨论很是热烈,线下活动也已经成功进行了三次。 

本次活动由豆瓣网提供场地、点心饮料以及纪念品支持。豆瓣网在国内互联网行业美誉度很高,这是一家以帮助用户发现未知事物为己任的公司,他们在为用户的生活带来诸多乐趣的同时,也已经让自己变得足够有趣。“豆瓣猜”作为其标志性应用,一直以来倍受关注,在 Google 上搜索 “豆瓣猜”,有超过两百万条信息,热度可见一斑。

本次活动上,豆瓣网团队首次公开分享了他们运营 “豆瓣猜”的经验,系统介绍了他们在推荐领域的实践探索,可以说是对豆瓣网的一个不同于以往角度的新颖解读。据介绍,豆瓣网的创始人阿北与算法负责人王守崑是多年的好友。在豆瓣网内部最初的定位,书籍、电影、音乐等这些应用是钉子,推荐引擎是锤子,阿北带队找钉子,王守崑负责造锤子,配合得相当合拍。后来,豆瓣网逐渐成长为了一座舞台,推荐技术也伴随着赢得了更大的施展空间。

这次活动总共有三个主题,第一个是豆瓣网王守崑的《豆瓣在推荐系统领域的实践和思考》,第二个是迅捷英翔孙超与刘凯义的《推荐也是一种产品》,第三个是百度张栋博士的《大规模机器学习算法在互联网上的应用》。

第一个主题,主讲人王守崑总结了豆瓣网在推荐应用领域的探索,包括三个方面的内容。
首先,什么样的产品适合推荐?依据在图书、电影、音乐、文章、RSS源、社会网络等领域应用推荐技术的多年经验,王守崑先从定性的角度提出是“具有媒体性的产品 (Media Product)”,即选择多样、口味(taste)很重要、单位成本不重要,同时能够广泛传播 (Information Cascade)的产品;接着在对真实的数据集进行定量分析后,进一步得出,应该是条目增长相对稳定、能够快速获得用户反馈,数据稀疏性与条目多样性、时效性比较平衡的产品,才是适合推荐的产品。
其次,王守崑分享了豆瓣网的推荐引擎如何应对高成长性的挑战,即通过算法优化与近似算法设计,来寻求推荐质量与计算资源消耗之间的平衡。
最后,针对当前推荐系统面临的问题,王守崑把推荐系统分为 Prediction,Forecasting,Recommendation 三个阶段,并探讨了一种下一代推荐引擎的构想——基于用户行为模型的、有记忆的、可进化的系统。在演讲期间,主讲人也提出了一些开放性问题留给与会者思考,比如推荐能否拥有独立的产品形态?

总结陈词,王守崑把在算法领域的长期实践提炼成一句话:“Algorithms should facilitate rather than replace social process”,点睛之笔,简洁有力,闪耀着智慧的光芒。

第二个主题,是由迅捷英翔公司的孙超与刘凯义带来的《Recommendation Algorithm is a product》。他们从日常工作实践出发,抛出了一个问题:在一个成熟的商业系统里,
1)可推荐的商品(比如彩铃)数量多、种类繁、差异大(比如二人转与交响乐);
2)用户数目众多且兴趣各异,不同的用户对不同的商品有着不同的偏好;
3)每种推荐算法所擅长解决问题的角度是不同的,比如协同过滤易出惊喜,内容推荐善于举一反三,基因推荐更加人性化。
那么,推荐引擎作为连接起用户与商品的枢纽,是否可以具备自学习的智能导航能力,依据系统反馈来自动为每一个用户优化算法配置呢?

诚恳地讲,这是一个非常有探讨价值的话题。以电影推荐为例,它是推荐技术发源的领域之一,相关的实际应用也最为深入。比如,IMDB 以基于打分的协同过滤技术为主,Jinni 将电影基因体系作为推荐引擎核心,Nanocrowd 通过分析影评的相关度来作推荐,LivingSocial: Movies 是 Facebook 上一款基于社会网络的电影推荐应用,最后还有号称要打败所有电影推荐引擎的 Clerkdogs,他们完全使用人工推荐电影。这些电影推荐引擎专注于不同的推荐维度,各有所长,国外已经有研究机构基于此开展工作,试图探索如何把不同的推荐方法更有效地组合起来。

主题三为《Parallel Algorithms For Mining Large Scale Data》,主讲人张栋博士在大规模机器学习领域经验丰富,一开场就脉络清晰地理出了机器学习领域的发展路线,从神经网络(Neural network)到支持向量机(SVM)到图模型(Graphical Model),再到条件随机场(CRF)并最后回归到深度信任网络(DBNs),各流派之间不断竞争螺旋上升,整个过程高屋建瓴并且故事性十足。接下来的主要话题,包括围绕天涯问答的算法原理,基于社会网络的精准广告,以及 MPI 与 MapReduce 两种并行计算框架的实际案例对比,都让与会者获益匪浅。

从张栋博士的报告中可以看到,顶级互联网公司对大规模计算极其重视,他们将传统的算法进行改造,使其能够适应互联网上的庞大数据量。目前业界云计算概念火热,抛开滥竽充数者,大规模数据计算能力绝对是评价云计算的硬指标之一。 Google 公司的研究总监 Peter Norvig 先生有句名言,“Worry about the data first before you worry about the algorithm”,即是在说大规模数据对于解决问题非常重要。xlvector 同学的感概,很让与会者共鸣,“评价一个(Research)工程师的指标不应该仅是懂多少种算法,还要看处理过多大规模的数据”。

本次活动的与会者,有正在从事数据挖掘相关工作的工程师,有致力于在推荐系统方面有所作为的创业人员,有对这个方向感兴趣的投资人,另外还有不少高校里专注于此方向的研究人员。各个主题的间隙是自由讨论的时间,与会者们进行了自由开放的交流。相对来讲,第一个与第三个主题更加直观和吸引人一些,毕竟大家可以从中窥得成功的经验。但是,Resys Group 同样也真诚地欢迎第二组演讲人这样的做法,提出探讨式的开放性主题,提供数据,交流体会,无权威结论,这样更加能够引发听者的思考与辩论。互联网上不会存在永远的领先者,自由、开放与分享是互联网的本质,顺应这个潮流终究可以超越。逆势而为者,死路一条。

本次活动各个主题的 PPT 文件,均可以从 http://www.slideshare.net/clickstone/tag/resys 下载。其中王守崑的报告尤其受欢迎,并在 twitter 上引发了大量转推,PPT 上传到 slideshare 网站的当天,即因为关注度高而进入了网站的首页推荐。

2010年,即将到来的 Resys Group 第四次线下活动,荣幸邀请到IBM CRL推荐技术研究团队作专场演讲,主题各个精彩,欢迎有兴趣的朋友保持关注。

 

玩聚SR和豆瓣新九点

如果有一篇文章,在来源(作者、发布的网站)你不确认的情况下,如何判断其是否可读呢?

选择只能是:标题+摘要。这个没招儿,那么多文章,必须有一个快速筛选的方法。标题是最一目了然的地方,这也是为什么那么多标题党的原因。摘要通常有两个方法,发布者给出,或者是自己快速扫一眼。人确实太NB了,随便扫一眼,就够计算机折腾一壶了。那计算机有办法模拟人来理解文章吗?语义分析。这个我不展开说了。
当文章看多了之后,我们会积累下来什么经验呢?

  1. 某作者小A写的文章比较靠谱。这个信任的作者。
  2. 某网站小E摘选的文章比较靠谱。这个其实信任的是编辑。

因此总结下来,评价一篇文章可读性的因素主要是 3 个:

  1. 内容是否是我感兴趣的。
  2. 我是否信任这个作者。
  3. 我是否信任某个第三方的评价。

一个好的阅读工具,应该能够有效地帮助我们发掘和强化这三个因素。

Social Media 之所以流行,恰恰是因为它针对上面三个因素引入了一些新的特性。Social Media 有一个基本假设,即群体智慧,意思是说,参与到 social 中的群体越多,media 所反应出来的智慧越高超。

  1. Tag,针对第一个因素。提高了内容判断的效率和准确性。作者小A的标题是有主观性的,而 Tag 是广大读者打的,更趋于客观。
  2. Blog,针对第二个因素。作者小A以一种更加容易辨识的主体出现,读者对小A的认识更立体化,并且可以产生交互,容易记忆。
  3. Digg/Share/推荐,针对第三个因素。这里是最体现群体智慧的地方,三个臭皮匠能顶一个诸葛亮。大家都说好,那么它真好的可能性,应该会比某网站小E说好的可能性要大。
  4. SNS,更强化了上面的第三个因素。如果是你的好朋友推荐的,那么你觉得好的可能行就更大了。

据此,我个人简单分析一下最近国内热门的几个 Social Media 应用。

玩聚SR。一句话点评:个人认为是玩聚旗下感觉最对路的应用。

上图中底部的“分享者”一栏,目前看来用处不大,因为放眼望去这些分享者大多我不认识,不但不能增强阅读的信任感,反而是一种干扰:这些我不认识的人推荐出来的东西我要看吗?还不如像 digg 那样,只显示 digg 数字,放大数字带来的心理暗示:这么多人推荐,我也看看吧!
玩聚SR的页面,我个人感觉有些乱,会头晕。从用户体验角度看,可有可无的,最好不要。这个分享者列表,不如拿掉,在网页快照里面显示就好了。

豆瓣新九点。一句话点评:我是曾经的豆瓣一套的坚定拥护者,这次新九点终于把其融合了进来,很好。

上图中底部的“5人推荐”一栏,是个失败的设计。我看豆瓣的文章,首先看是谁推荐的,如果找到一个我非常认同的人,那么我必看,反而推荐人数并不是决定因素了。而豆瓣没有有效地利用这一点,导致和其他的阅读工具缺乏区别化。

用户访问某个网站,是有心理预期的。
玩聚SR,我没想在上面找到多少我认识的人,而大部分分享者我都不认识的事实,也正强化了这个心理预期。因此分享者列表作用小,推荐数作用大。
豆瓣,是我熟悉的网站,这上面有我熟识的朋友。用户带着这样的惯性从豆瓣来到九点,朋友作用大,数字作用小。
定位你最希望服务的用户,设计产品。不该用的用了,该用的确却没用,可惜了。

推荐继续阅读 NullPointer 的两篇 blog:

  1. 从豆瓣的推荐功能说起——SNS网站的内向和外向
  2. 接着说豆瓣的推荐功能——社会化推荐的动力和阻力
 

豆瓣改版

豆瓣最近比较热闹,首先是用户突破 100 万,接着就是豆瓣改版。而且,豆瓣改版这事儿折腾得还挺猛。作为一个非典型豆瓣用户,绝对意义上改版的好或差,我没法子妄加评论,只不过,实在不希望看到国内互联网常有的口水战污染到豆瓣里来。就我个人来讲,我没贡献过多少有价值的内容给豆瓣,对原来的导航条也没那么深的依赖,因此,我还会继续使用豆瓣。

豆瓣的改版有两点我认同。
1、新的导航条相当有意义。
当豆瓣用户突破 100 万时,大多数人都忽略了一个小细节——胖子纠正说,“准确的说法叫做豆瓣注册用户突破一百万”。是啊,要知道豆瓣还有大几百万或者上千万的潜水用户呢!改版前,豆瓣好些个特棒的功能都散布在各个功能页面,老豆友们用的是顺溜,可潜水用户却没法子全面了解豆瓣的好。豆瓣也要发展啊!现在这样,把以前藏起来的宝贝拿出来,放在显眼的地方,让大家都看得见,才有可能吸引更多的潜水用户变成注册用户。豆瓣一贯都在认真地为豆友们服务,改版的这点儿小私心,我是很可以理解的。
2、将友邻调整到第一个相当正确。
正像阿北发布改版消息时说的,我也认为“广播”大大提升了友邻的价值。正是在广播上线后,我突然发现我每天都要上上豆瓣了,不为别的,就为看看友邻们又推荐了哪些内容,或者又发现了什么好书、好电影或是好音乐。对我而言,之前总感觉豆瓣似乎缺乏那么一点儿黏性。我时不时总会有那么一段儿时间,想不起来上豆瓣。分析一下,大致可能是以下原因:对书不是很感兴趣,看过的都是俗不可耐的,:-),所以豆瓣的书评不太能吸引我;特别喜欢看电影,但说实话,现在有个网站里面的电影资料可能更丰富,而且评论也不差,豆瓣的电影频道也不是我想当然的首选;音乐我倒是天天听,但听来听去,耐我听的总还是那些,比如齐秦。至于小组/论坛之类的,我从0.0到1.0再到2.0,始终都不感冒,只有mop倒是上过不短的一段儿时间,后来也发现没什么意思了,也许是老了。豆瓣广播促使我发生的这个变化,让我很是高兴了一下!今后,友邻作为人肉过滤器的巨大价值,以及9点一套的个性化阅读,将是吸引我每天来豆瓣看看的坚定动力。

豆瓣的两个苗头我认同。
1、强化每个用户的个性化内容。
豆瓣改版后,首页里的“最受欢迎的”,变成了现在的“你可能关心的”,这个一定要赞一下。倒不是具体的这个变动本身多么令人兴奋,是因为,看到豆瓣坚持不懈地在个性化技术方面进行着探索和实验,让我钦佩不已!在国内,经常可以听到“技术无用论”的调调。我也承认,技术不是万能的,但技术绝对不应该如此被低估。在 Windows 技术诞生前,没人能想到原来我们可以这么简单地使用计算机;在 Internet 技术诞生前,没人能想到原来我们可以这么方便地共享信息;在 Google 诞生之前,没人能想到原来我们可以这么高效地获取知识!不仅仅是在计算机领域,历史已经证明,每一次技术变革,一定伴随着产业的升级,伴随着一个巨大的全新的市场机遇的来临。驾驭不了技术的浪潮,就注定你永远只能随波逐流。我相信技术的力量,我坚信个性化技术是未来最重要的最具创新力的技术领域之一,豆瓣在这个领域的实践,不光对他们自己,对整个中国互联网界,都必将有着重要的意义。
2、强化 SNS 的地位,或是转向 SNS 发展。
刚在自己之前的 blog 里瞎嚷嚷了几句,“社会化网络,需要走到线下,需要落到实体上!”。没两天就看到了麦田说

我在网上看到很多讨论社区或web2.0的文章,或长篇大论,或只言片语,但这些文章的作者都信心十足地谈论什么“引爆流行”,什么SNS。坦率的说,我认为这样的讨论和思考,比较肤浅,基本上是连问题都不知道在哪,就给出了“正确答案”。尤其是一些谈“商业模式”,谈“和线下结合”,谈“垂直行业”的文章,每次我看到,总想问问文字后面的那个人:你们知道什么是问题吗?

在这个问题上,被人鄙视了我倒也无所谓,毕竟在社区运营上我不专业,到不了麦田那样作理论研究的高度。我只说我作为使用者的理解。数了数自己在豆瓣上为数不多的几个友邻,还真是绝大多数都实际碰过面,或者至少在Gtalk/MSN上聊过,完全不了解的极少。不知道大家如何看,反正对我来说,加一堆我不了解的人到友邻里,我是认为没太大必要。对于社区,我还有另外一个想法。社区也许应该像钱柜KTV那样运营:大厅最重要的作用就是摆放站方统一提供的食物,让大家知道这里好东西不少;进包间关上门就是我们一小撮儿人独立的空间了,在这里唱歌、打牌、杀人游戏,完全悠游自在,不会互相干扰。这种模式最重要的问题就是我该如何找到适合我的包间呢?这时候,产品/运营都起不了决定作用,就得靠技术——个性化技术。

另外有两点我提点儿意见。
1、让个性化来得更猛烈些吧!
阿北说老的”一行菜单,两次滚屏”,已经是个不可能的任务。但我觉得未必。我不知道其他豆友在豆瓣上最经常的使用路径是怎样的,反正我个人现在基本上是:从友邻到九点;看评论基本上是第一屏再加上友邻推荐案的;突然关注某本书、某部电影的时候,基本直接使用搜索。这样看来,我只需要“友邻”和“去九点”两个菜单,再周到些,考虑上为豆瓣推广新功能预留一个菜单,3个菜单,完全可以满足我的使用要求。还是之前那样,“一行菜单”,足矣!对潜水用户,使用改版后这样的导航条;对注册用户,进行路径分析,提供个性化导航!想一想,我几乎从未点击过的音乐菜单,你放在那里干吗,当摆设啊,完全可以拿掉,等我有要求了,访问频繁之后,你再自动为我加上。这是个性化发挥效应多好的地方啊!别人我不妄想,豆瓣应该把个性化进行到底,渗入到骨子里!
2、广播这个功能的设计,除了现在对于“我的广播”我可以选择“我想把下面这些放到我的广播里”之外,是否可以增加一个功能,让我选择“我想从友邻那里接收下面这些广播”。

最后,发自肺腑地,我要说,“还是把站标放到右边吧”!

无论如何,不断前进的豆瓣,才是更具价值的豆瓣!

 

1. 持续关注 个性化推荐 技术;
2. 持续关注 Semantic Web 技术;
3. 评论与上两项相关的互联网业务与产品;

我相信技术的力量!
wendell.gu@GMail.com

Archives