最好走的路越走越难,最难走的路越走越容易

Follow guwendong on Web
  • Subscribe to Beyond Search via RSS
  • Join Resys Google Group
  • Follow @clickstone on Douban
  • Follow @clickstone on Twitter

Social Media Algorithm: StumbleUpon

本文可以任意转载,转载时请务必以超链接形式标明文章 原始出处版权信息

StumbleUpon 是目前互联网上最老牌也最成功的个性化推荐服务。它创办于 2002 年初,目标很简单,“help people discover interesting or informative web content that they wouldn’t have thought to search for.”这里面直接突出了“search”和“discover”的区别,这点我非常同意,当你明确自己需要什么的时候,search 有用,但当你漫无目的的游逛的时候,你需要的是 discover。最近正好看到一篇不错的文章,也是在说这个问题,“Finding, Locating, Discovering”。

在 StumbleUpon 身上有一段儿传奇的经历。2007年5月,eBay 花了 75 个 million 的美刀把 StumbleUpon 收入囊中,而且据说当时 Google 对它也很有兴趣。但在归入 eBay 旗下之后,StumbleUpon 并没有取得预期的更大的发展,反而星光暗淡停滞不前了。其实这倒也没什么,要知道绝大多数类似的收购案例都是差不多的结局。但令人意外的是,差不多一年半以后,StumbleUpon 的两位创始人 Garrett Camp 与 Geoff Smith 又把它从 eBay 手里买了回来!算是拯救自己的孩子于水火了。无独有偶,据报道,eBay 刚刚把它2005年收购的 Skype 又给卖了出去。eBay 不好好搞自己的拍卖,当起了高科技二道贩子,让人无语啊。

好了,言归正传,说说 StumbleUpon 的算法吧。毋庸置疑,算法绝对是 StumbleUpon 的 top secret,外人是不可能知道确切情况的。所以我这里给出的,只是某位高人经过不断实验得到的推测。

具体的推理过程大家可以看那篇 blog,我这里直接给出结果:用来衡量一篇文章在 StumbleUpon 系统内得分的公式。假设 stumbler a 提交了一篇文章 d,d 属于 domain D。

这里面最重要的一个参数,就是 A -“stumbler audience”。stumbler 指的就是使用 StumbleUpon 的用户,所以顾名思义,stumbler audience 大概说的就是一个 stumbler 在 StumbleUpon 系统内的权重,它由下面三个主要因素构成,

  • Number of fans
  • Number of thumbs up and down you have given
  • Stumble thumb bonus – increase to score based on number of thumbs received on a page.

这个公式的大意可以理解为,文章 d 的权重,等于最初的提交者贡献的得分,加上后续 stumble up 用户贡献的得分,再减去后续 stumble down 用户带来的负面影响。
公式具体的解释如下,
1)第一个加号之前的部分,表示 a 的权重,除以 a 在 domain D 内总共提交的文章数。
2)第一个求和部分,表示后续的 stumble up 用户做出的总体贡献。alpha 是 stumble up 操作的调和参数。gamma 表示“organic bonus”,是一个预设值,是对使用了 StumbleUpon Toolbar 的额外加分。delta 表示“nonfriend”惩罚因子,用来减弱无/少 friends 用户的影响力。
3)第二个求和部分与前面这个类似,表示后续的 stumble down 用户对总体得分造成的影响。
5)N,比较奇怪,高人文章里说是一个随机数,不过我没太搞明白为什么要加这么一个参数。

不知道是高人的英文写作水平有问题,还是我的英文阅读能力不行,反正高人的这篇文章看起来非常晦涩,如果我这里的理解有什么问题的话,大家一定帮忙指出来。

延伸阅读:Social Media排序算法的四种模式,旁观者 – 郑昀

最后插一句,汪峰的新专辑《信仰在空中飘摇》,非常之好听,强烈推荐!

相关文章:

Leave a Reply

You can use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

1. 持续关注 个性化推荐 技术;
2. 持续关注 Semantic Web 技术;
3. 评论与上两项相关的互联网业务与产品;

我相信技术的力量!
wendell.gu@GMail.com

Archives