最好走的路越走越难,最难走的路越走越容易

Follow guwendong on Web
  • Subscribe to Beyond Search via RSS
  • Follow @clickstone on SinaWeibo
  • Join Resys Google Group
  • Follow @clickstone on Douban
  • Follow @clickstone on Twitter

Category Archives: 技术研究

Hulu:广告也可以很有爱

上个月,Hulu CEO Jason Kilar 做了一场非常精彩的报告,分享了 Hulu 的成长经历、营收数据以及对于视频行业未来发展的一些看法。Hulu 的成功绝对称得上是一个奇迹,尤其是从商业角度来考量,他用相当于 Youtube 10% 的流量,赢得了 40% 的市场份额。

报告视频中,你可以听到 Jason 对 Hulu 北京团队的称赞!我曾经有幸拜访过他们位于清华科技园的办公室,这是一个低调得令人发指的团队,然而做的事情却着实有趣。在 Hulu 工作是彻头彻尾的互联网模式,商业团队在美国,技术团队在北京,目标一致全球协作,绝非XX中国之类可以比拟的。

Hulu 可以称得上是追求商业与技术相融合的典范。当其他人还在对个性化技术犹豫不决的时候,他们几乎已经完成了最佳实践。Hulu 将个性化技术应用到了产品的许多角落,于细节之处彰显实力,是进行山寨式微创新的绝佳研究对象。

上图是经典的“如果你喜欢…那么你可能还喜欢…”的推荐场景,这个功能尽管常见,但很有讲究。推荐应该放哪儿,什么展现形式以及什么时机显示?想一想,这些问题你会怎么解决?Hulu 团队的答案是 A/B Test,让数据来指导产品决策。再看细节,“Bookmarked” 是一个很契合场景的小功能,是一个用心的设计。这个场景 Hulu 做到的效果是:看到这个推荐的用户中,有10%的用户点击观看或者收藏了推荐的影片。但其实整个场景里面我最想说的,是右上角的“Does this recommendation interest you?”这一点。我一直有一个看法:对于推荐产品,用户反馈的作用怎么强调都不为过,虽然用户确实是懒的,做推荐产品也确实要讲究隐性反馈,但这绝不代表你不能要求用户做出选择。既要能够收集到有价值的反馈,又要使得用户感受到产品对他的尊重,如何平衡这个矛盾,是需要具备相当智慧的。如果你正在招聘推荐相关的产品经理,这个事情很值得问一问。

用户不喜欢广告,这件事情相信谁都明白。Jason 给出了一个数据,“内容厂商每挣一美元,其中就有 41 美分来自广告”,因此,一切抛开广告谈视频产业未来的做法都是浮云,结论就是——绕不开广告,就让它变得更加美好。Hulu 的 mission 分为两部分:第一部分是“To help people find and enjoy the world’s premium content; when, where and how they want it.”;第二部分是“As we pursue our mission, we aspire to create a service that users, advertisers and content owners unabashedly love.”。基本上第一部分无论从内容覆盖度上还是受众覆盖度上,都没有做到;显然大家都看得出来,第二部分才是真正的 mission,^_^。第二部分也的确是整个产品里面 Hulu 最下功夫的地方:1)广告的品质很高,这应该得益于主打品牌广告的策略;2)围绕广告给予用户很多选择,上图中红圈显示的仅是一例;3)基于用户的选择与反馈,使用个性化技术驱动广告与用户的喜好越来越相关。就目前公开的数据来看,在用户满意度、广告有效性以及自身收入这三个方面,Hulu 都确实取得了相当不错的成绩。作为一个有追求的程序男青年,我曾经很纠结:从技术角度需要理想化,从商业领域需要直截了当,难道除了更高更快更强地搜索假药之外,技术就不能够有效变现了吗?Hulu 让我释然了。

其他有意思的事情还有不少。比如,1)他们对于推荐模块使用了 Ajax 处理,只有当用户把页面拖到相应位置的时候,才会动态加载推荐数据,这样可以更精确地考量推荐算法的效果。2)在同一个功能区,他们会均衡投放广告与推荐影片的比例,背后的逻辑是,用户看到更多感兴趣的影片->停留的时间更长->看到广告的整体数量增多,这可以转化为一个相当理性的数据模型,照着收益最大化持续优化就好了。3)他们通过分析已注册用户观看过视频的历史数据,来对未注册用户建立预测模型。看下图这个例子,从全局统计数字来看,观看左边这部影片的用户中,63%是女性,37%是男性,通常的做法,会给这部影片搭配一段针对女性的广告,那么,那37%的男人们就杯具了。而 Hulu 讲究的是搭配有针对性的广告,对于已注册用户,Hulu 是知道性别数据的;对于不知道性别的未注册用户,Hulu 通过分析其浏览记录来预测其性别,比如同时还看过右侧那一坨影片的,就有极大可能是女性。这些数学模型其实都不难,但想在合适的地方让它们派上用场,这个还是需要一些功力的。

前两天我发了一条微博,“对数据的理解和问题的建模是第一位的,用多么高级的算法根本不是重点”。这是我个人的一些感触,我相信大部分场景应该也是适合的。但推荐深入作进去,绝对是个考验算法实力的事情。和一个靠谱的团队在一起,事半功倍!

评价一个团队,我个人有一个不太成熟的判断标准,就是看其中有没有辍学生,这点最起码能说明一个问题:正在做的事情是否足够性感,让人愿意抛开束缚全情投入。很巧的是,Hulu 北京团队里面就有这样一位从北大退学的博士生,非常给力。他们正在招聘,有兴趣的可以到这里看看,或者可以直接联系:郑华@Twitter

这里还有一些好玩儿的照片

本文首发 ResysChina:http://www.resyschina.com/2010/12/hulu-team.html

 

Social Media Algorithm: StumbleUpon

StumbleUpon 是目前互联网上最老牌也最成功的个性化推荐服务。它创办于 2002 年初,目标很简单,“help people discover interesting or informative web content that they wouldn’t have thought to search for.”这里面直接突出了“search”和“discover”的区别,这点我非常同意,当你明确自己需要什么的时候,search 有用,但当你漫无目的的游逛的时候,你需要的是 discover。最近正好看到一篇不错的文章,也是在说这个问题,“Finding, Locating, Discovering”。

在 StumbleUpon 身上有一段儿传奇的经历。2007年5月,eBay 花了 75 个 million 的美刀把 StumbleUpon 收入囊中,而且据说当时 Google 对它也很有兴趣。但在归入 eBay 旗下之后,StumbleUpon 并没有取得预期的更大的发展,反而星光暗淡停滞不前了。其实这倒也没什么,要知道绝大多数类似的收购案例都是差不多的结局。但令人意外的是,差不多一年半以后,StumbleUpon 的两位创始人 Garrett Camp 与 Geoff Smith 又把它从 eBay 手里买了回来!算是拯救自己的孩子于水火了。无独有偶,据报道,eBay 刚刚把它2005年收购的 Skype 又给卖了出去。eBay 不好好搞自己的拍卖,当起了高科技二道贩子,让人无语啊。

好了,言归正传,说说 StumbleUpon 的算法吧。毋庸置疑,算法绝对是 StumbleUpon 的 top secret,外人是不可能知道确切情况的。所以我这里给出的,只是某位高人经过不断实验得到的推测。

具体的推理过程大家可以看那篇 blog,我这里直接给出结果:用来衡量一篇文章在 StumbleUpon 系统内得分的公式。假设 stumbler a 提交了一篇文章 d,d 属于 domain D。

这里面最重要的一个参数,就是 A -“stumbler audience”。stumbler 指的就是使用 StumbleUpon 的用户,所以顾名思义,stumbler audience 大概说的就是一个 stumbler 在 StumbleUpon 系统内的权重,它由下面三个主要因素构成,

  • Number of fans
  • Number of thumbs up and down you have given
  • Stumble thumb bonus – increase to score based on number of thumbs received on a page.

这个公式的大意可以理解为,文章 d 的权重,等于最初的提交者贡献的得分,加上后续 stumble up 用户贡献的得分,再减去后续 stumble down 用户带来的负面影响。
公式具体的解释如下,
1)第一个加号之前的部分,表示 a 的权重,除以 a 在 domain D 内总共提交的文章数。
2)第一个求和部分,表示后续的 stumble up 用户做出的总体贡献。alpha 是 stumble up 操作的调和参数。gamma 表示“organic bonus”,是一个预设值,是对使用了 StumbleUpon Toolbar 的额外加分。delta 表示“nonfriend”惩罚因子,用来减弱无/少 friends 用户的影响力。
3)第二个求和部分与前面这个类似,表示后续的 stumble down 用户对总体得分造成的影响。
5)N,比较奇怪,高人文章里说是一个随机数,不过我没太搞明白为什么要加这么一个参数。

不知道是高人的英文写作水平有问题,还是我的英文阅读能力不行,反正高人的这篇文章看起来非常晦涩,如果我这里的理解有什么问题的话,大家一定帮忙指出来。

延伸阅读:Social Media排序算法的四种模式,旁观者 – 郑昀

最后插一句,汪峰的新专辑《信仰在空中飘摇》,非常之好听,强烈推荐!

 

Social Media Algorithm: Hacker News

我发现 Hacker News 是因为 reddit 的缘故。Hacker News 所属的 Y Combinator 是 reddit 的种子投资公司,后来 reddit 卖给了 Condé Nast,两个团队都赚了一票。

Y Combinator 只关注于最早期的创业团队,在创业团队的起步阶段介入并提供相应的帮助。Y Combinator 会定期举行 Funding Application 的活动,接受创业团队提交的项目资料。项目如果评审通过的话,Y Combinator 会提供一种“$5000 + $5000n”模式的投资,其中 n 指的是愿意参与此项目投资的 Y Combinator 合伙人的人数。比如,如果有 2 个合伙人愿意投资,那么最终的投资额度是 $15000;如果有 3 个的话就是 $20000。作为回报,Y Combinator 将占有创业团队 2% 到 10% 的股份,通常是 6%。钱虽然不多,但在现今创业公司大量使用 open source,AWS 或者 GAE 的情况下,这些钱也确实够展开工作了。

据说 Y Combinator 已经累计投资了 80 多个创业项目,除 reddit 之外,我还算熟悉的另外一个是 Scribd ——“YouTube for Documents”。Y Combinator 最初总共为 Scribd 提供了 $12000 的投资。Scribd 在 2007 年 5 月正式上线,随即就是飞速地增长,上线一个月之后就完成了 $3.5 million 的 A 轮融资,2008 年 12 月又完成了 $9 million 的 B 轮融资,发展得很是不错。一个有意思的事情,Scribd 有一个超级 NB 的用户,Barack Obama,对,现任美国总统!

在 Y Combinator 的合伙人中,我个人比较关注的是 Paul Graham。他写过一篇流传很广的文章,How to Start a Startup。Paul 在 Anti Spam 方面颇有造诣,以前我在研究相关问题时,从他这里学到了很多东西。Paul 是 Lisp 的大牛,另外还是 Arc 语言的设计者,Hacker News 应该就是用 Arc 语言开发的。Paul 始终称自己是一名 programmer,相比于当前乌泱乌泱的架构师,很是洒脱。

下面言归正传,看看 Hacker News 使用了怎么样的算法。

hacker news

Hacker News 所使用的公式非常简单,

    (p – 1) / (t + 2)^1.5

其中,
1)p 表示文章得到的投票数,之所以要使用 (p – 1),应该是想去掉文章提交者的那一票。
2)(t + 2)^1.5, 这个是时间因子。t 表示当前时间与文章提交时间间隔的小时数。但为什么要加 2 之后再取 1.5 的幂,似乎就没什么道理可言了,也许是个 trial-and-error 的结果吧。

总体来讲,Hacker News 的公式不像 reddit 设计的那么巧妙。但是与 reddit 相比,Hacker News 的用户群比较集中,提交的文章更 Focus,质量也相对更高一些,因此实际的效果并不差。其实某些时候,解决问题就是这样,够用就好。

 

ResysChina 发起人
1. 持续关注 个性化推荐 技术;
2. 持续关注 Semantic Web 技术;
3. 评论与上两项相关的互联网业务与产品;

我相信技术的力量!
wendell.gu@GMail.com

Archives