豆瓣上有一个有意思的 topic,“你最厌恶的三本书是?”。我猜发起这个讨论的豆友可能是想看看,和他/她厌恶同样书的人还会厌恶其他一些什么书,以此为鉴、以防万一,免得自己被这些书恶心到。我觉得,这事儿要是豆瓣帮我们做了就好了!
和大多数的个性化推荐站点一样,豆瓣可以“猜我会喜欢”:《活着》、《不能承受的生命之轻》或者《达·芬奇密码》;可以告诉我“喜欢费马大定理的人也喜欢”:《数学:确定性的丧失》、《希尔伯特——数学世界的亚历山大》和《哥德尔、艾舍尔、巴赫——集异璧之大成》。但是豆瓣不能告诉我,我对《三重门》和《梦里花落知多少》毫无兴趣!豆瓣现在还不会猜我们“不喜欢什么”。
但是,LibraryThing.com 可以。大概是2006年5、6月份的时候,LibraryThing.com 推出了这个服务:UnSeggester。这个功能使用起来非常简单,你只需要输入你拥有或者读过的一本书,LibraryThing 就会列出来有哪些书它不推荐你阅读。大家可以试试这个,《the da vinci code》。个性化不推荐,很有意思。
LibraryThing.com 创办于2005年8月,核心服务为个人网络书架与基于书籍的社会化网络。LibraryThing 使用 Z39.50 协议自动从书商及图书馆那里获取书籍数据,用户还可以上传/导入符合 MARC 或者 Dublin Core 格式的书籍数据。(注:MARC 和 Dublin Core 都是与 Semantic Web 相关的规范,Semantic Web 实在是个好东西啊。)用户建立了属于自己的书架,对书进行 tag 等操作之后,LibraryThing 就会向你推荐你可能感兴趣的书籍,并且社会化网络功能也会起作用:使用“Members with your books”这个功能,LibraryThing 会告诉你 50 个和你拥有相似书籍的用户;当你浏览别人的书架时,LibraryThing 会告诉你他与你共同拥有哪些书籍。通过这些找朋友的方法,你可以方便地在 LibraryThing 上建立起你的书友网络。通常到这里,大多数此类网站的产品线也许就停止了,但 LibraryThing 没有,他更进了一步。LibraryThing 在社会化网络的运营方面,有其独特的招数——Swap Books。是的,图书交换 !通过图书交换这种形式,LibraryThing 把虚拟的网络关系,实体化到了现实社会里!这步如果可以做好,那就相当厉害了!
说几句题外话,SNS/OpenSNS 最近很热。我个人将 SNS 分为两类路径,一类是从线下到线上,比如校友录,都是现实的同学;另外一类就是从线上到线下,比如 LinkedIn,经常会发线下聚会的邀请。我一直觉得,阳春白雪式的纯粹社会化虚拟网络实在是太虚了。可以看看,国内诸如驴友、车友、镭友这样的线下俱乐部都还是蛮红火的,而基于所谓的六度空间理论的 SNS 站点却始终不温不火。社会化网络,需要走到线下,需要落到实体上!大约在2004年,带着一帮师弟师妹们给导师做项目的时候,我曾经忽悠大家一起做一个面向在校大学生的 SNS 应用,就是计划以书籍交换为手段,建立起真实的面对面的线下关系及互动。中国人普遍爱书。书,是最容易产生共鸣,建立信任,促进长久联系的载体。若是通过类似这种方式,解决了多数大学生交际面狭窄的现状,一定大有可为。当时我甚至连可行的营收模式都考虑好了。后来,苦于自己忽悠能力有限,天使投资没找到,师弟师妹们看不到真金白银也不愿意全心投入,自己无奈下只好作罢了。那次经历,让我深刻地切实地体会到了团队的重要!
一时感慨,呵呵!咱们回来接着说 LibraryThing.com。LibraryThing 的发展速度还是相当迅猛的。2006年8月,当 LibraryThing 一岁的时候,已经拥有了超过 73,000 名注册用户以及 超过510 万册书籍。而截止到目前的最新数据是,298,000 名注册用户以及超过 2000 万册书籍。2006年5月,AbeBooks.com 收购了 LibraryThing 40% 的股份,价钱不详。 LibraryThing 的营收模式主要有两种:1、书籍发行商的广告/推广收入;2、个人收费用户。LibraryThing 的免费用户可以添加 200 册书,付费用户不限数量,两种收费标准,每年 10$ 或者是 25$ 终身。不知道豆瓣有没有考虑过向个人用户收费?在豆瓣上花少许的钱,得到更好的服务,这个我愿意!豆瓣可以用一件 T-Shirt 或是一个背包来吸引付费用户,你看 LibraryThing 就有。
MovieLens 是历史最悠久的推荐系统。它由美国 Minnesota 大学计算机科学与工程学院的 GroupLens 项目组创办,是一个非商业性质的、以研究为目的的实验性站点。MovieLens 主要使用 Collaborative Filtering 和 Association Rules 相结合的技术,向用户推荐他们感兴趣的电影。当然,这说起来简单,后台的算法肯定还是相当复杂的。
MovieLens 使用打分的方法获取用户对电影的偏好数据。在正式使用其服务前,需要用户对至少 15 部电影进行打分。当然,你对越多的电影打分,系统给你的推荐结果就会更趋于准确。题外话,douban 也是这种模式,在系统开始做出推荐之前,用户需要至少给 9 部电影打分。9 < 15,看来 douban 的算法似乎要先进一些,呵呵。MovieLens 的电影数据还是有些久远的,最开始让你打分的电影基本上是上世纪八九十年代的,因此,你得有足够的耐心找出你看过的,或者上 IMDB 查查剧情。
MovieLens 还可以针对一个 Group 进行推荐。MovieLens 的 Group 挺有意思,全都是动物,包括熊啊、鹰啊、猩猩、老虎、狮子什么的。我被分到了“Bear Group”。在组推荐模式下,MovieLens 会综合考虑每个组员的兴趣特征,最终给出一个合并后的推荐结果。对于“Bear Group”,MovieLens 认为最 cool 的电影是 Lord of Rings、Matrix 和 Star Wars,全部是我的最爱!
伴随着 Web 2.0 的兴起,MovieLens 也在努力进步着。2006 年,MovieLens 引入了 social tagging / collaborative tagging 的特性,开始进行基于 tag 的推荐尝试。
再说说 MovieLens 的创办者 —— GroupLens 项目组。这个项目组绝对是全世界推荐系统领域最具影响力的学术研究团体,他们为推荐系统的发展做出了许多卓越的贡献。
他们公布出来的 MovieLens 数据集,包括 6040 个用户针对 3900 部电影所进行的将近 1,000,000 条打分数据,是被使用最为广泛的实验资料,并且已经成为评价推荐算法的基准数据集。不过,和去年 Netflix 公布出来的数据集(480,189 个用户,17,770 部电影,100,480,507 条评分记录)相比,MovieLens 数据集少了 2 个数量级。它的位置相信会逐渐被 Netflix 数据所替代,这是时代进步的必然结果。
另外,作为名校的研究团队,GroupLens 项目组自然是发表了不少精彩的 paper。尤其是其中《GroupLens: An Open Architecture for Collaborative Filtering of Netnews (1994) 》这篇 paper,绝对称得上是推荐系统领域最具影响力的经典 paper 之一。
如果你想了解推荐系统的发展历程,那么你一定要到 MovieLens 上注册一个用户,使用使用,体验一下。
突然发现,转移到 guwendong.com 已经两个月了,而自己却一篇 Blog 都没写。坚持,确实是一种难能可贵的品性啊!这里不得不佩服一下 dbanotes ,可以保持那么高频率的 Blog 写作。籍着 Feedsky 博客大赛的由头,督促一下自己,开始这个“个性化站点介绍”的系列 Blog 。毋庸置疑,个性化/推荐技术,已经越来越受到关注,使用个性化/推荐技术的站点也越来越多。希望这个系列 Blog,可以对大家有些用处。

开篇决定留给
Findory.com。不知道国内有多少人使用过或是知道 Findory.com?但相信关注我 Blog 的朋友,应该早都知道这个消息了,“
Findory 要走了”!是的,你没看错,Findory.com 确实是将要
停止服务了。而这也是我把 Findory.com 选作开篇的原因之一。
Findory.com 是一个内容聚合网站,但与传统的一勺烩式的聚合不同,它专注于为用户提供个性化的阅读体验。Findory.com 的后台是一套基于 Collaborative Filtering 技术的推荐引擎,它通过分析用户在 Findory.com 站点上的点击记录,学习用户的兴趣,找出相似的其他用户,并据此向用户做出新内容的推荐。Findory.com 创办于2004年2月,最先提供了 news 推荐服务。随着不断发展,其推荐的内容,逐渐扩展到了 Blog,vedio 和 podcasts,后来甚至还提供了个性化搜索服务。Findory.com 对用户隐私的尊重,给我留下了很深刻的印象,用户可以不进行任何的注册,就能够享受到具有一定 personalized 程度的推荐服务。
Findory.com 的创始人 Greg Linden 是华盛顿大学计算机学院的一名博士生,毕业后于 1997 年加入了 Amazon.com。在那里,他与工程师团队一起,开发出了 Amazon.com 的个性化服务系统。迄今为止,Amazon.com 的推荐系统一直被认为是最领先的推荐系统,Greg Linden 也因此在业界赢得了声誉。其开创的 Collaborative Recommendations Using Item-to-Item Similarity Mappings 算法,也已经成为了业界最被广泛使用的推荐算法之一。
在 Findory.com 运营的高峰时期,也曾受到了比较广泛的关注。Wall Street Journal、ReadWriteWeb 和 PC World 等等,都有过分析和报导。在 PC World 的那篇文章里,作者 Ryan Singel 将 Findory 和 Google News 进行了直接对比,并给出了他的结论,“[Google's] recommendation engine seems less intelligent and transparent than Findory’s”,“Findory’s recommendation system works rather nicely.”。虽然这是 Ryan 的一家之言,但我也同样认为,在2007年以前,这是对 Findory.com 的正确评价!进入2007年以后,伴随着 Greg Linden 停止新 Features 的开发,以及 Google 越来越重视 Personalized,Google News 确实已经变得越来越好。但不管怎样,从总体来讲,无论商业上还是技术上,Findory.com 与 Greg Linden 的口碑都很好!
不愧为一个技术牛人,Greg Linden 成功维持 Findory.com 低成本平稳运营了 4 年:6 台低端服务器,使用单核的 AMD CPU,1G RAM,普通的 IDE 硬盘;清一色的开源软件,包括 linux 操作系统(不过 Greg Linden 倒是说,选择 Fedora Linux 是个错误),Apache,MySql,Perl 和 Berkeley DB。做 Web 后台开发的技术人员可以看看这 3 篇文章 [1] [2] [3],挺有意思。
Greg Linden 于2007年1月14日首次公告了将停止 Findory.com 的运营。2007年11月1日,Findory.com 上终于放出了关站的通知。但不知何故,Findory.com 至今仍然还在提供服务。Greg Linden 在关站声明页面的 Update 里说,“The shut down of Findory has been postponed. The website will remain active past November 1, 2007. More information when I can.”。 希望“More Information”是好消息!
在 Findory.com 可能离我们远去之前,希望能有更多的人记住或是知道这个 Personalized Content 领域里的先行者。也祝愿 Greg Linden 可以开创新的辉煌。
进一步阅读:Starting Findory。