最好走的路越走越难,最难走的路越走越容易

Follow guwendong on Web
  • Subscribe to Beyond Search via RSS
  • Join Resys Google Group
  • Follow @clickstone on Douban
  • Follow @clickstone on Twitter

Tag Archives: rss

个性化站点:AideRSS.com

xxxx,Google Docs!!!费劲写完的东西,点击了一下“Edit HTML”,报了一个服务器错误之后,我的内容就再也找不回来了!!!而且居然还 xxx 对脱机使用做了限制,连从本地 cache 里找回来的机会都不给!!!刚有人质疑了,“那个“不做恶”的承诺,已经是一个风中的承诺?”,居然现在又连大家最信赖的稳定性都出了问题。700$/股 的 google?
互联网上没有永远稳定的服务,请自行保护好自己的劳动成果,切记切记!!!


AideRSS.com 是2007年7月24日新近推出的一个 web2.0 站点。从域名就可以知道,AideRSS 做的是与 RSS Feed 相关的业务。其实就目前来讲,AideRSS 还并不是一个个性化站点,仅提供了 blog 评估/过滤的服务。但我相信,AideRSS 一定会向个性化服务方向发展,而且绝不会让大家等太久。

关于 RSS 处理的话题,我在之前的 blog 里也说了不少,比如 [1], [2]。之所以甘愿将这篇 blog 稍微跑题一下,也要再说说 RSS,实在是因为,通过 RSS 订阅阅读 blog,已经成为我每天必定要做的功课。我实在期盼着在 blog 阅读领域,能有创新性的应用出来。由于担心会错过可能的精彩文章,我常常因为一两篇好的 blog,而一时冲动订阅了整个 Feed。大量的 Feed 订阅,导致产生了大量的未阅读文章,看着 GReader(faint,又是 google,google 不会把我的 feed 订阅也弄丢吧) 里那些类似于 100+ 的数字,我常常会无可奈何地“mark all as read”。对于像我这样的 Feed 受众,实在是太需要有一个服务来帮助我一下了!

AideRSS 正在进行这方面的创新。AideRSS 的使用非常简单,用户提交 Feed 地址,AideRSS 自动抓取其中的 blog,进行评估。AideRSS 的核心技术为 PostRank 值的计算。AideRSS 会自动统计一篇 blog 在 DiggDel.icio.usBloglinesTechnoratiIcerocket 以及 Google Blog Search 这些第三方网站上的收藏数、收录数与留言数等,计算一个综合的 PostRank 得分。PostRank 得分越高,表示 AideRSS 认为这篇 blog 的可读性越高。由于综合使用了多家第三方知名网站的数据,因此 PostRank 具有一定的可参考性。AideRSS 按照 PostRank 得分,将 blog 进行了等级划分,包括 Good Post、Great Post 和 Best Post。并且,AideRSS 还将这些不同等级的结果,重新烧制了 Feed,用户可以直接订阅这个 Feed,非常方便。目前微遗憾的是,虽然 AideRSS 对中文的支持已经很好了,但由于所选取的第三方网站都是以英文为主要服务语言,因此,对国内中文 blog 进行 PostRank 计算,大多数得分都不高。我本来非常喜欢 AideRSS 输出的 widget 的设计,但由于我的 blog 得分太低,实在不好意思放上来,呵呵。

前面,我之所以那么确信 AideRSS 一定会向个性化服务方向发展,是因为 AideRSS 的团队。我一直在阅读 Ilya Grigorik 的 blog,Ilya 是 AideRSS 的首席架构师,是 PostRank 的主创人,另外还是一个勤奋的 blogger。在他的 blog 里,有不少关于个性化技术方面的内容,比如这篇“Dissecting the Netflix Dataset”,这篇“SVD Recommendation System in Ruby”和这篇“SVM Text Classification”,等等。从这些 blog 里,可以清晰地看到,AideRSS 正在进行个性化技术方面的尝试,也许不久就会放出成果。在 Web 技术方面,AideRSS 是典型的 Web2.0 架构,Ruby On Rails(ROR)+ MySQL。自然,Ilya 的 blog 里也少不了 Ruby/MySQL/Web 技术方面的精彩文章。如果你喜欢 Ruby,碰巧又对个性化技术感兴趣的话,那么我推荐你一定要订阅 Ilya Grigorik的 blog 跟踪阅读。

如果你有着 RSS 阅读强迫症,订阅了 N 多的 Feed,并且以英文 blog 为主,那么强烈建议你试用一下 AideRSS。

 

从话题广告说开去

本来就是想写写话题广告的事情,写着写着就跑题了,所以干脆把名字给改了——从话题广告说开去。老掉牙的标题形式了,哈哈。

写这篇 blog,是缘于 6.23 参加了 Feedsky 的聚会。在 Feedsky 的会议室里,吃也吃了,喝也喝了,聊也聊了,玩也玩了,所以怎么着也得写点儿啥,对人对己都是个交待。说实话,我不能算是 Feedsky 的高级用户,我最看重的就是 Feedsky 能给我一个永久不变的 Feed 地址,这样,即使不管我的 blog 搬家到那里,我的读者都不会受到影响。我去参加这个聚会是有私心的,我特想撺捣 Feedsky 把 Feed 推荐或者 blog 推荐给做起来。

现在大家都在讲信息过载的事情,可在我看来,这是相对的。一方面,互联网上每天都在产生着海量的信息;但另一方面,你所能接触到的你真正关心的信息可能又是相当匮乏的。拿我来说,Google Reader 里订了不少的 Feed,但其中的某些是由于一两篇不错的文章,而一时冲动订阅了整个 Feed。一些 Feed 我现在甚至都想不明白当初为什么要订阅它了。大量的 Feed 产生了大量的未阅读文章,看着那些类似于 100+ 的数字,我常常会无可奈何地“mark all as read”。但是,就我所关心的领域,个性化推荐/Web Mining,我每天google it、百度一下,甚至连 Alert 都用上了,可还是仅能找到寥寥无几的一些新鲜内容。真是苦闷啊~~~

Feedsky 应该能在这个方面给用户提供帮助。它掌握着大量的 Feed 信息,Feed 有个先天的优点就是,它里面的内容都是最纯正的正文!基于 Feed 做文本分析,省去了数据清理、正文提取两个烦人的环节,可以直奔主题!太爽了啊!个人认为,相比于话题广告,这绝对是一件对 blog 产业真正有益的事情!豆瓣9点也在试图解决这个问题,但现在我看来感觉问题可能有两个:1、用户提交的 Feed 数量太少;2、需要引入文本分析技术了。豆瓣最让我佩服的,就是在即使很粗放的产品设计里,也总能够抓住最有效的特征,而且往往还是非常创新的。我始终认为9点里面“必看”、“有时看”的模式,是找到了一条做 blog 推荐的捷径,不过豆瓣目前似乎还没有非常有效的把这些数据利用起来。总之一句话,豆瓣太有才了!o(∩_∩)o…哈哈

前面是题外话,正式开始说话题广告。我晕~~~,题外话比主题还长!

在我看来,blog 是其作者的写照,或者是某一方面的写照。比如通过我的 blog,读者大致可以知道,我是个崇尚技术的人,我对推荐系统很有兴趣。经由写作、阅读、评论,在作者和读者之间产生了交互,这样过一段时间,彼此间就建立起了一种关系。在这种关系中,blog 作者为主、读者为辅,而维护这种关系稳定性的一个重要因素,就是 blog 的“信用”——这种“信用”决定着读者的去留。作者用心去写好文章,可以不断加强 blog 的信用,黏住读者。

话题广告的出现,很大可能会降低你的信用,搞不好绝对得不偿失。首先它会影响你 blog 的品质,写的少没什么钱拿,写多了 blog 自然就成了垃圾;其次它还考验你的人格,说真话吧怕影响收入(在国内目前的市场环境下,你说广告主的东西不好后果大家估计都能想到),说假话吧良心上又过不去,被人发现就更恶心了;最后收益还不一定合适,如果恰好是你熟悉的产品,不费什么力气评论两句那还行,但如果是个你根本不了解的产品,你还得花时间研究试用,这个时间成本也是蛮高的。

当然了,话题广告也绝不是一无是处!任何新生事物从出现到成熟,都需要经历一段儿曲折发展的历程,途中免不了会蹦出几个我这样的唱唱反调。但说句实在话,话题广告要成功,一定绕不过这两点:

  1. 模式要创新。Feedsky 得多动脑子,不同的产品得有不同的广告策略,纯粹是简单的 blog 软文模式,肯定走不通。
  2. blog 作者要自律。这点就更难了,有钱能使鬼推磨!以我为例,尽管我在这里冠冕堂皇,但如果 donews 肯给我1w¥,我就能详细给大家介绍一下 donews 优异的稳定性和优雅的用户体验。Feedsky 得建立一种信用评估机制,帮助用户甄别付费评论的可供参考性。

话题广告是把双刃剑,希望 Feedsky 可以好好用,用好它!

 

Only alpha:Feed Filter Service

前些日子,有一次和金色葡萄讨论了 blog 阅读的问题,他给出了一个非常简单有效的 Feed 评分方法,一个基于 google reader trends 的方法。下面这段引自金色金色葡萄给我发的 Gmail。

用 Reading trends 中的 starred 除以 Subscription trends中的Items/Day,分别得到每一个 blog 的评分。比如生活帮-LifeBang的评分是 9/0.8=11.25,而你的 beyond search 的评分是 4/0.3=3.3,属于一个相当高的评分了,不过因为是刚刚订阅的,有一定的”新加入优势”。

这个方法我个人认为其实有个小瑕疵。比如从金色葡萄公布的结果来看,keso 的得分就不是很高,究其原因,是因为 keso 的 starred 数很少。这其实是比较正常的,对于整体来讲很重要的东西,人们通常不再就其中的个体作特殊标注了。这应该也是金色葡萄 对 keso 的文章 starred 比较少的原因。

当然,对于个人使用的一个评分方法,这也够用了。但其实这种 Rank 式的方法应该是可以发扬光大的,尤其是围绕每一个 post,仔细研究的话,应该有不少参数可以用来作数据分析。比如这个 PostRank。豆瓣的“九点”应该就可以按照这个思路作下去,“必看”的就不需要再对单独的 post 进行评分了,对于“关注”或者“偶尔看”的 blog,就应该作一些评分方面的工作,以免不感兴趣的 post 干扰用户的阅读。

我之前也曾经写过一篇 blog,《Only alpha: RSS 文章推荐》,简单说了说我的看法。Only alpha 栏目,是记录我对一些互联网产品的想法,基本都还很不成熟。

Matt 曾经写过一篇文章《Taming the RSS beast》,提出了他认为解决 Feed overload 的四个方法:

  • The author decides,作者决定,例如 keso 的 “top 10 post of 2006”。
  • The community decides,社区决定,例如 Top Today link on Digg
  • The reader’s friends decides,这个我还没找到实际的例子,豆瓣应该作作这个,google reader 的“shared items”也许也会朝这个方向发展。
  • The feed reader decides,阅读器决定,这个应该好多人都在努力。

简单的分析一下这四种方法。anthor decides 方法用处不大,作者当然希望越多人看到自己越多的文章最好。Digg 是 community decides 一个很好也是很成功的例子,但这种方法通常代表的是一个 Group 整体的观点,在一定程度上缺乏个性化。friends decides 肯定大有可为,也是我个人最为看好的方向,他的基本原理和推荐类似,“人以群分”,朋友的推荐通常是最有效的,但要走的路还很长。feed reader decides 是最可行的自动化方法,长时间的使用 reader,可以让它充分了解你的阅读习惯。

国外现在已经出现了专注于作 feed filter 的 service,比如 BlastfeedFeedRinse。有人置疑为什么要把 feed filter 和 feed reader 分开来作?Blastfeed 的 Patrick 给出了他的解释,我个人感觉非常有说服力和远见!

“One other direction we want to take Blastfeed to would be to use it as a platform to manage all kinds of media generating/powering RSS. For instance, TV / VOD providers could send their programs in RSS, and users could actually set a channel for such specific topic of interest. Whenever a TV / VOD content described in the RSS feeds matches the users requirements it could trigger a notification to an application that would record the film for later viewing, etc. Combination with other media assets (Podcasts, videocast, news and blogs feeds, company feeds, etc.) can then be envisaged as well.”

我个人正在关注这三个服务:TailrankTouchStoneBlastfeed

 

1. 持续关注 个性化推荐 技术;
2. 持续关注 Semantic Web 技术;
3. 评论与上两项相关的互联网业务与产品;

我相信技术的力量!
wendell.gu@GMail.com

Archives