最好走的路越走越难,最难走的路越走越容易

Follow guwendong on Web
  • Subscribe to Beyond Search via RSS
  • Follow @clickstone on SinaWeibo
  • Join Resys Google Group
  • Follow @clickstone on Douban
  • Follow @clickstone on Twitter

Tag Archives: resys

「个性化」时代

2011年初我发表了一篇文章《搜索已死,推荐上位》, 结果证明实际情况蛮配合的,2011年可以说是个性化推荐爆发的一年。我订阅了推荐引擎/个性化推荐等几个微博关键字,眼睁睁地看着相关的微博内容蹭蹭地往上涨,懂的不懂的不懂装懂的打酱油的都在提个性化,甚至连僵尸帐号都在掺和。春节订票大家被折腾得不行了,有朋友表示,“12306,你妈妈叫你做个性化推荐!”。这一年,小事儿咱不表,看看几家大佬的表态。

  1. 迟来的产品升级 百度终上个性化推荐的新台阶』 百度CEO李彦宏将此次转变称为百度首页“迄今为止最重大的改变、最重要的创新”。其中的一大创新之处是百度对“推荐引擎技术”的应用,即基于用户行为、 兴趣建模,通过算法和数据分析,准确识别用户需求,向用户智能推荐想要的信息、服务或应用,从而提高用户转化率及强化用户黏性。
  2. 周鸿祎:360导航UV超hao123 未来布局垂直搜索』 周鸿祎表示,360浏览器和导航网站在中国的流量已经很大,但不会模仿百度做传统搜索,目前360已经在根据用户使用习惯推荐个性化内容,这可能代表了未来搜索的方向,另外360将在垂直搜索领域做一些尝试,将充分发挥浏览器覆盖面大的优势,在垂直搜索上给用户提供更多不同的体验。
  3. 搜狗首推探索引擎注重用户个性化需求』 搜狗积极开发的新一代“探索引擎”的目标,是要给寻找信息的网民完全不同的上网体验:例如,当用户打开浏览器阅读一篇新闻的时候,探索引擎会在页面下方自动推送其他网站相关的报道和评论;当用户在互联网上浏览商品信息的时候,新一代搜索引擎就会在页面下方自动向其推送其他网站上该商品的价格、优惠券以及商 品评论。也就是说,新一代搜索引擎能够“猜”到用户想要什么,并且及时向用户推送他所需要的信息。
  4. 数据在淘宝』淘宝会针对消费者提供一些个性化的推荐,未来的淘宝可能会比现在的淘宝发生非常大的变化,未来的淘宝会变得非常个性化,就是会有消费者更感兴趣的产品,如果卖家都能够对这些个性化的产品做足够多的准备,如果没有个性化能力的话那很有可能失去竞争力。
  5. 豆瓣首页改为豆瓣猜 基于个性化算法提供内容』 阿北:“豆瓣猜2005年就有了,这是我们一直在积累的事情。但是新的豆瓣猜才刚刚面世,它的形态、使用和内容都会有各种问题。我们会在新的一年里逐步改善这个首页,也会慢慢把更多类型的内容放进来。豆瓣猜的终极目标是这样的:每天你打开豆瓣,满眼看到的都是各类你会感兴趣的新东西。我们迫不及待地想和你一起让这个画面成为现实。”
  6. 另外,祝贺百分点科技的好朋友们获首轮融资

个性化推荐,已然无处不在

认识我的朋友们应该都知道,2011一年我都在折腾「指阅」,成绩不敢说有多大,但起码上路了。指阅 2012年会有比较大的升级,希望能把产品各方面的体验都有一个提升,欢迎大家试用

天涯海阁的 watsonxu 最近发了一篇文章,国内个性化阅读服务汇总,文章最后留了几个问题:

如何有效获取用户的兴趣:用户的阅读兴趣往往很泛,泛意味着这种兴趣获取的难度的成本会更高,如何基于现有的社会化服务或者阅读过程更好的获取用户兴趣是一个需要研究的话题。
如何更有效的推荐阅读内容:推荐阅读内容的难度可能大于电影、音乐和图书,因为电影、音乐和图书都有相对固定的维度,而根据阅读内容来挖掘用户的兴趣可能难度会更大。
当然最大的挑战在于:个性化阅读其实基于一个前提就是能够推荐用户感兴趣的内容,而实际的过程中如果不能给每个用户推荐感兴趣的内容(或者说这个会有个过程),那如何形成用户的粘性?另外个人的一个困惑是个性化阅读的需求真的有那么强么?

说说我的看法。

基于社交网络的数据来进行用户兴趣的建模,这个已经是目前几乎必选的方式之一了。关注个性化推荐领域的朋友应该都知道,冷启动问题是一个困扰这个领域已久的老大难问题。通过社交帐号授权获取用户在社交网络上积累下来的数据,是解决冷启动问题的有效有段。这里有一些简单的数据示例。当然,这些数据并不见得可以代表你的所有兴趣,但却是个不错的起点。除了分析兴趣点,你还可以分析用户的「社交影响力」[1] [2]。我之前基于微博数据做过一个小实验,针对「IT互联网」[1] 和「创业与投资」[2] 这两个领域,计算得到了微博帐号的影响力排名。这方面最著名的要数 Klout,国内有一个不错的创业团队在做类似的事情 μ+。这种影响力分析结果对进行微博营销蛮有参考价值,但它是一种相对粗放和更偏向于全局的热点分析,对个性化的帮助有限。这方面,更有效的是 Facebook 提出的 EdgeRank,这里面融入了个人的「口味」,衡量的是好友圈子内的影响力。

如 watsonxu 所言,做个性化阅读的产品难度挺大的。Quora 上有一个问题,是讲个性化阅读产品面临的困难的,答案很棒,我简单给总结了一下:

  1. 人的兴趣很广泛,而且多变。你为什么会对某个主题感兴趣或者不感兴趣,这里面的原因很复杂,如何用算法模拟出来是个很大的挑战。
  2. 每天新产生的资讯非常之多。像 Amazon、Netflix 之类的推荐引擎,它们面对的候选条目集合是相对稳定的,这个比较好理解,它们每周也会增加一些新产品,但和资讯数目相比,差距甚远。
  3. 大部分资讯的生命周期非常之短。你现在推荐阿凡达,效果也许不会比两年前差多少,但推荐资讯就不行了,推荐一篇几天前的文章,很可能就要挨骂了。在如此短的时间窗口里为每位读者做出智能推荐,这对系统的要求非常之高。
  4. 资讯聚合通常都要面临大量重复内容的问题,这在国内尤为严重,这会极大伤害个性化资讯应用的用户体验。而且国内还有另外一个问题,就是原创的高质量内容相对匮乏,推荐引擎巧妇也难为无米之炊。
  5. 与微博之类的个人信息发布工具相比,这类工具缺乏互动。每次你发布一条微博,你的 Followers 就可以看到,而大部分的个性化阅读工具,我们只是默默地使用它,不具备病毒传播特性而无法迅速爆发。
  6. 缺少“社区”的感觉,因为大家看到的东西各不一样。这有点像为什么很多人喜欢在电影院观看电影,而不是在家里,即使在家里看可能会更舒适。大家需要那种与其他人一起在做同一件事情的存在感。

详细的技术拆解,可以去看看郑昀的这两篇文章 [1] [2],基本上我对这两篇文章的评价是,“从此这个领域再无技术秘密可言”。

阅读是人的基本需求,个性化阅读是这个基本需求的 2.0 版。套用个性化推荐「三个合适」的表述,个性化阅读要解决的问题是,在合适的情境下以合适的形式为用户带来合适的内容。 因此,“个性化阅读的需求有多强?”是个伪命题,个性化阅读与阅读本身没有矛盾,它的目标是让阅读这事更简单,谢文老师曾经以看女排新闻为场景给过一个形象的例子。现在大家对个性化阅读存疑,是因为相对于大量非个性化的资讯类产品,还没有哪一款个性化产品显示出了与众不同的能力,尤其是与 Twitter、Facebook 这类以社会化见长的产品相比,个性化产品并没有高明太多。这很像当年围绕智能手机的讨论,之前很多人在说手机不就是打个电话发个短信嘛。。。直到 iPhone,重新发明了手机,从此没人再怀疑。目前个性化阅读这个领域,Flipboard 和 Zite 是好榜样,但其实也只是刚开了个头,大家都还在摸索,需要有人用实实在在的产品体验,来重新定义「阅读」。这个市场不是不爆,是王者未到。

之前做简网的时候,我们主要在研究两个网站,一个是 Zite(估计没人用过它的 Web 版吧),还有一个是 Evri(它和指阅前后一天 iPad 版上线),后面又陆陆续续出现了一些和我们核心功能类似的产品,比如:Mashable Follow、Trap.it、Google+ Spark 等,都是以「主题」为起点谋求信息消费的个性化。现在总结,我只能说,相对于国内互联网的现实情况,我们当时的选择太超前了。从去年移动互联网升温,社会化/个性化阅读逐渐被大众所接受,对有志于这个领域的同道来说,好年代其实才刚刚开始,让我们一起努力!

这篇文章标题里面的「个性化」是加着引号的。卖一个关子,我在酝酿一篇和《搜索已死,推荐上位》类似的标题党之作,名字想好了,叫做《重新定义「个性化」》。不过大家别期望太高啊,有可能有,也可能没有。。。


招人是我目前工作的头等要务,码了这么多字,大家原谅我必须要贴一个小广告啊!

我们有一个简单的信念:互联网的未来必定是个性化的。如果你有那么一点儿小理想化,希望能够帮助用户更好地消费信息,那么现在加入我们一起,是最好的时机。
职位信息请看这里:http://www.zhiyue.me/team.html

 

Resys China 创刊号

《Resys China》,是依托于 Resys Group 并专注于推荐系统领域的一份电子杂志。

下面是创刊号的内容目录。

  1. 业界新闻
  2. 学术动态
    • Workshop on Social Recommender Systems
    • Collaborative Filtering Over Time
  3. 精品推荐
    • YouTube’s Quest to Suggest More
    • Recommendation Systems: Increasing Profit by Long Tail
    • 推荐系统五大问题
  4. 系列连载
    • Greg Linden,Early Amazon:The First Week
  5. 精彩应用
    • 开源推荐框架 DUINE 概览
  6. Resys 精华帖
    • 大家觉得推荐系统和长尾的关系是什么
    • 基于 SNS/Lifestream 的推荐
  7. 轻松一下

感谢 yoyogary wang阿稳同学在内容编辑方面的大力协助,感谢百分点科技在 PDF 文件制作方面的鼎力支持。
现在网络阅读越来越倾向于浅阅读,希望这份人工精编的内容能够给大家带来一些思考和收获。
PDF 版本从这里下载:Resys China 创刊号

 

迟来的感谢:Resys 豆瓣活动

感谢开放的豆瓣团队,感谢阿北和胖子,感谢阿稳同学为这次活动付出的巨大努力!
感谢大家对 Resys 活动的支持,2010 咱们继续折腾!
本文原发 2010年第2期《程序员》杂志,略有修改。也愿 CSDN 的质量节节高升。

年关之际,不仅天气冷,互联网更冷,不过这些都无法熄灭思想的火花。2009年12月19日,国内推荐技术社区 Resys Group(https://groups.google.com/group/resys)的第三次线下活动,在豆瓣网的鼎力支持之下顺利举办。 

Resys,取名自 Recommender System 的简写,社区的宗旨是搭建一个专注于推荐技术领域的讨论平台。截止目前,Resys Group 发展势头喜人,受到了国内推荐技术爱好者们的热情响应,线上讨论很是热烈,线下活动也已经成功进行了三次。 

本次活动由豆瓣网提供场地、点心饮料以及纪念品支持。豆瓣网在国内互联网行业美誉度很高,这是一家以帮助用户发现未知事物为己任的公司,他们在为用户的生活带来诸多乐趣的同时,也已经让自己变得足够有趣。“豆瓣猜”作为其标志性应用,一直以来倍受关注,在 Google 上搜索 “豆瓣猜”,有超过两百万条信息,热度可见一斑。

本次活动上,豆瓣网团队首次公开分享了他们运营 “豆瓣猜”的经验,系统介绍了他们在推荐领域的实践探索,可以说是对豆瓣网的一个不同于以往角度的新颖解读。据介绍,豆瓣网的创始人阿北与算法负责人王守崑是多年的好友。在豆瓣网内部最初的定位,书籍、电影、音乐等这些应用是钉子,推荐引擎是锤子,阿北带队找钉子,王守崑负责造锤子,配合得相当合拍。后来,豆瓣网逐渐成长为了一座舞台,推荐技术也伴随着赢得了更大的施展空间。

这次活动总共有三个主题,第一个是豆瓣网王守崑的《豆瓣在推荐系统领域的实践和思考》,第二个是迅捷英翔孙超与刘凯义的《推荐也是一种产品》,第三个是百度张栋博士的《大规模机器学习算法在互联网上的应用》。

第一个主题,主讲人王守崑总结了豆瓣网在推荐应用领域的探索,包括三个方面的内容。
首先,什么样的产品适合推荐?依据在图书、电影、音乐、文章、RSS源、社会网络等领域应用推荐技术的多年经验,王守崑先从定性的角度提出是“具有媒体性的产品 (Media Product)”,即选择多样、口味(taste)很重要、单位成本不重要,同时能够广泛传播 (Information Cascade)的产品;接着在对真实的数据集进行定量分析后,进一步得出,应该是条目增长相对稳定、能够快速获得用户反馈,数据稀疏性与条目多样性、时效性比较平衡的产品,才是适合推荐的产品。
其次,王守崑分享了豆瓣网的推荐引擎如何应对高成长性的挑战,即通过算法优化与近似算法设计,来寻求推荐质量与计算资源消耗之间的平衡。
最后,针对当前推荐系统面临的问题,王守崑把推荐系统分为 Prediction,Forecasting,Recommendation 三个阶段,并探讨了一种下一代推荐引擎的构想——基于用户行为模型的、有记忆的、可进化的系统。在演讲期间,主讲人也提出了一些开放性问题留给与会者思考,比如推荐能否拥有独立的产品形态?

总结陈词,王守崑把在算法领域的长期实践提炼成一句话:“Algorithms should facilitate rather than replace social process”,点睛之笔,简洁有力,闪耀着智慧的光芒。

第二个主题,是由迅捷英翔公司的孙超与刘凯义带来的《Recommendation Algorithm is a product》。他们从日常工作实践出发,抛出了一个问题:在一个成熟的商业系统里,
1)可推荐的商品(比如彩铃)数量多、种类繁、差异大(比如二人转与交响乐);
2)用户数目众多且兴趣各异,不同的用户对不同的商品有着不同的偏好;
3)每种推荐算法所擅长解决问题的角度是不同的,比如协同过滤易出惊喜,内容推荐善于举一反三,基因推荐更加人性化。
那么,推荐引擎作为连接起用户与商品的枢纽,是否可以具备自学习的智能导航能力,依据系统反馈来自动为每一个用户优化算法配置呢?

诚恳地讲,这是一个非常有探讨价值的话题。以电影推荐为例,它是推荐技术发源的领域之一,相关的实际应用也最为深入。比如,IMDB 以基于打分的协同过滤技术为主,Jinni 将电影基因体系作为推荐引擎核心,Nanocrowd 通过分析影评的相关度来作推荐,LivingSocial: Movies 是 Facebook 上一款基于社会网络的电影推荐应用,最后还有号称要打败所有电影推荐引擎的 Clerkdogs,他们完全使用人工推荐电影。这些电影推荐引擎专注于不同的推荐维度,各有所长,国外已经有研究机构基于此开展工作,试图探索如何把不同的推荐方法更有效地组合起来。

主题三为《Parallel Algorithms For Mining Large Scale Data》,主讲人张栋博士在大规模机器学习领域经验丰富,一开场就脉络清晰地理出了机器学习领域的发展路线,从神经网络(Neural network)到支持向量机(SVM)到图模型(Graphical Model),再到条件随机场(CRF)并最后回归到深度信任网络(DBNs),各流派之间不断竞争螺旋上升,整个过程高屋建瓴并且故事性十足。接下来的主要话题,包括围绕天涯问答的算法原理,基于社会网络的精准广告,以及 MPI 与 MapReduce 两种并行计算框架的实际案例对比,都让与会者获益匪浅。

从张栋博士的报告中可以看到,顶级互联网公司对大规模计算极其重视,他们将传统的算法进行改造,使其能够适应互联网上的庞大数据量。目前业界云计算概念火热,抛开滥竽充数者,大规模数据计算能力绝对是评价云计算的硬指标之一。 Google 公司的研究总监 Peter Norvig 先生有句名言,“Worry about the data first before you worry about the algorithm”,即是在说大规模数据对于解决问题非常重要。xlvector 同学的感概,很让与会者共鸣,“评价一个(Research)工程师的指标不应该仅是懂多少种算法,还要看处理过多大规模的数据”。

本次活动的与会者,有正在从事数据挖掘相关工作的工程师,有致力于在推荐系统方面有所作为的创业人员,有对这个方向感兴趣的投资人,另外还有不少高校里专注于此方向的研究人员。各个主题的间隙是自由讨论的时间,与会者们进行了自由开放的交流。相对来讲,第一个与第三个主题更加直观和吸引人一些,毕竟大家可以从中窥得成功的经验。但是,Resys Group 同样也真诚地欢迎第二组演讲人这样的做法,提出探讨式的开放性主题,提供数据,交流体会,无权威结论,这样更加能够引发听者的思考与辩论。互联网上不会存在永远的领先者,自由、开放与分享是互联网的本质,顺应这个潮流终究可以超越。逆势而为者,死路一条。

本次活动各个主题的 PPT 文件,均可以从 http://www.slideshare.net/clickstone/tag/resys 下载。其中王守崑的报告尤其受欢迎,并在 twitter 上引发了大量转推,PPT 上传到 slideshare 网站的当天,即因为关注度高而进入了网站的首页推荐。

2010年,即将到来的 Resys Group 第四次线下活动,荣幸邀请到IBM CRL推荐技术研究团队作专场演讲,主题各个精彩,欢迎有兴趣的朋友保持关注。

 
猛戳这里

简网指阅 联合创始人 & CTO
ResysChina 发起人
1. 持续关注 个性化推荐 技术;
2. 持续关注 Semantic Web 技术;
3. 评论与上两项相关的互联网业务与产品;

我相信技术的力量!
wendell.gu@GMail.com

Archives