<?xml version="1.0" encoding="UTF-8"?>
<rss version="0.92">
<channel>
	<title>Beyond Search</title>
	<link>http://www.guwendong.com</link>
	<description>最好走的路越走越难，最难走的路越走越容易</description>
	<lastBuildDate>Fri, 30 Jul 2010 06:20:14 +0000</lastBuildDate>
	<docs>http://backend.userland.com/rss092</docs>
	<language>en</language>
	
	<item>
		<title>让网络，更简单！</title>
		<description><![CDATA[
个性化，是解决信息过载问题的终极途径，但绝不是终南捷径，这条道路上的第一站应该是：信息过滤器。
 2009 年，美国电影与中国电影的总产量超过了 1000 部，刨去滥竽充数混水摸鱼的，怎么也还得有两三百部要挑一挑。在《疯狂的赛车》上映之前，一个电影达人朋友向我大肆鼓吹，我去看了，结果发现也就那么回事儿。大家是不是也经常遇到类似的状况？我想答案一定是肯定的。要给出高满意度的有效推荐，是很复杂的一件事情，这你懂的。但如果我们换一个角度，朋友告诉我，《谍海风云》是一颗雷，你千万不要踩，我通常就绝对不会再自找没趣了，这很有效。
 因此，我非常同意 Clay Shirky 的提法，“不是信息太多了，是过滤失效了”。
 互联网从根本上改变了信息流动的方式，使得围绕信息展开的互动更加具有效率。它从本质上是鼓励分享的，也就必然会引发信息生产的暴增。可以有很多角度解读互联网的发展历程，但依信息获取延展开的这条线路上，诞生了诸多伟大的公司，绝对不容忽视。起初是以 Yahoo 为代表的导航及门户，然后发展到以 Google 为代表的搜索引擎，再到目前最火热的以 Twitter 与 Facebook 为代表的社会化网络，互联网不断地在拓宽我们接触信息的视野，改变我们获取信息的方式。信息选择权向用户方转移，信息传递链条更趋直接，是这条线路的精髓。
 有一种观点认为，Twitter 引领的“关注/Follow”模型，帮助用户撇开了多余的羁绊，将核心直抵感兴趣的信息。这种设置，将信息选择权交给了用户，用户能看到哪些信息，完全取决于他关注了哪些人，或者抽象些讲就是，关注了哪些信息源。但是，这种方式也有明显的不足，新用户需要从一穷二白开始，手工的一个个筛选出他需要关注的对象，这个过程很杯具。即使对老用户而言，要扩展到一个新的兴趣领域，或者是寻找新的关注对象，也是相当费时费力的。
 在 Twitter 之前，RSS 也曾经被赋予厚望。Google Reader 确实做得很好了，但我作为一个重度用户，每天打开那个始终标着 1000+ 的列表，飞快地扫过标题，试图以最小的代价拣出那些我有兴趣阅读的条目，同时又忐忑不安地担心会漏掉点儿什么。这很崩溃，这绝对不是消费信息的正确体验。
 无论是 Twitter 的关注，还是 RSS 的订阅，一个共同的问题是信息组织的粒度太过粗旷。我虽然是个足球迷，但我是在李大眼停写中国足球之后，才订阅了他的博客和微博，如果他日后再又絮叨起中国足球这项名字虽然叫足球但却完全和足球没有一毛钱关系的令人闹心的运动，我立刻就会退掉他。
 截止目前，搜索引擎是获取信息最直接的工具，然而它仅是数据层面的一种组织，用 Tim Berners-Lee 的定义来讲就是“it links documents”，用户要，它才给，并且还无法知道给的“是什么”。下一代的信息处理引擎，必须具备理解语义的能力，“It&#8217;s not the documents &#8212; It&#8217;s the things”！这里的 things，针对的就是信息层面。我是基因方法的拥护者，比如 Pandora 的音乐基因工程，比如 Jinni 的电影基因工程。信息同样是具有基因的，核心基因是，“主题——在讲什么”。基因方法有诸多好处，像稳定性、可衍生性以及良好的可解释性，但我最看重的，它是一种令人激动的探险，尝试着让机器以模拟人类的方式去理解信息。这非常有挑战。
 根本需要，是兴趣。我不感兴趣的，就不要来纠缠我。我们希望有这样一种方式：你只需要表明自己的兴趣，然后通过群体智慧与机器运算，让信息找到你。


 让网络，更简单！我们还很小，我们还很简陋，我们才刚上路。

请朋友们猛给反馈：wendell.gu # gmail.com
如果愿意写 [...]]]></description>
		<link>http://www.guwendong.com/post/2010/cutt.html</link>
			</item>
	<item>
		<title>Google Matrix</title>
		<description><![CDATA[Google 退出中国事件发生之后，来自木遥同学的一篇文字，让我不能同意更多！其中有这么一段，
这个「国家（指 Google）」是网络世界中的第一个霸权，它可以控制数据和知识的流通，影响人类的所见所闻乃至精神世界的每个方面；它握有大量个人隐私信息，并且具有无可撼动的垄断地位；它在许多场合起到的已经是近乎可以类比于公权力的作用。而另一方面，它只是一家私有公司，没有任何方式可以从外部对它合法的控制力进行监督和制约。它当然也许确实会始终尽量不干预搜索排名，小心翼翼地维护互联网的自由和公正，但这只是它自己的道义承诺而已，而我们甚至想不出什么办法来验证这一点。
木遥的整篇文字非常中肯，但若单独摘引这一段，则是典型的“断章取义”。同一段文字，放在木遥的全文里看与单独看此段，差不多会造成两种理解，作语义的同学想必对此有深刻体会，这就是 Context（上下文）的作用。
在 Personalization 方面，亦是如此 —— Context 非常重要！
 春节前，kuber 在 Resys Group 里发起了一个讨论，“基于SNS/Lifestream的推荐”，提到了 Google 近期的一些动作。其实长久以来，在个性化领域，Google 一直在下一盘很大的棋！看看他的布局吧。


Personalized new tab page
 这个是2009年1月 Google Toolbar 推出的一个 feature，当你打开 Firefox 时，不再只是看到一个空白 tab 页，Google 会根据你的浏览历史，为你定制一个个性化 tab，包含你最常用的一些站点或页面。这个已经是新一代浏览器的标配了。

Interested-based Ads
 传统的 Adsense 广告，是根据与网页内容的相关度进行展示的，与浏览者本身的兴趣无关。2009年3月 Google 推出了这种基于用户兴趣的广告，浏览者看到的不再仅是与内容相关的广告，而是与其本身兴趣相符的广告。至于用户兴趣哪里来的？抛开搜索记录不说，遍布互联网的 Analytics 和 Adsense 脚本本身，就能干不少事情了。

Personalized keyword-suggestions
 尽管这个搜索提示功能没少给谷歌找麻烦，但 Google 显然认为这个东东对用户是有益的，尤其是对登录之后的搜索用户。当用户登录了 Google 帐号，并启用了 Web History 功能之后，搜索提示会把你最近频繁使用的几个关键字显示给你，这对搜索到一半被打断回头又想继续的用户来说体验很好。当然了，谷歌用户自然是无缘使用的。

Google Reader by Personalized Ranking
 个性化的信息阅读，是用户长久以来的心声，久觅未果不少人甚至已经开始自己动手实现。2009年10月，Google [...]]]></description>
		<link>http://www.guwendong.com/post/2010/google_matrix.html</link>
			</item>
	<item>
		<title>又闻夜半翻墙声</title>
		<description><![CDATA[《西厢记》是我国家喻户晓的古典戏剧名著，其主人公张生有一首著名的爱情诗：
月色溶溶夜，花阴寂寂春；
如何临皓魄，不见月中人？
张生夜半翻墙与莺莺小姐幽会，冲破封建礼教的禁锢追求自由恋爱，已成了千古佳话。
幸福与自由要靠我们每个人自己的行动。
要不，等到未来，后代会嘲笑我们这些没用的家伙，就象我们说别人“你怎么不反抗？”
参考资料：

http://xiaogaozi.blogspot.com/2010/03/ubuntu.html
http://blog.youxu.info/2010/03/14/west-chamber/
http://blog.devep.net/virushuo/2010/03/15/post_71.html


© guwendong for Beyond Search, 2010.
本文网址：http://www.guwendong.com/post/2010/xi_xiang_plan.html
tags: fuckgfw &#124; 参与讨论
]]></description>
		<link>http://www.guwendong.com/post/2010/xi_xiang_plan.html</link>
			</item>
	<item>
		<title>Early Amazon: The first week</title>
		<description><![CDATA[原文链接：http://glinden.blogspot.com/2006/01/early-amazon-first-week.html
 原文作者 Greg Linden 毕业于华盛顿大学计算机学院，1997 年加入 Amazon，领导开发了享誉业界的 Amazon 推荐引擎。
 著名的 Item-based 推荐算法的提出者之一；Findory.com 创始人。
 其 Blog &#8211; Geeking with Greg 是个性化推荐领域最有影响力的博客（没有之一）。 

 1997 年初的亚马逊公司，邋遢、混沌、但令人兴奋。

 亚马逊公司位于美国西雅图市，办公室在第二大道的哥伦比亚大厦里，这是一座砖体结构的建筑物，已经有些年头了，离派克市场不远。从办公室的窗户望出去感觉 还不错，有一个本地的美沙酮诊所，还有一个贩卖怪诞假发的商店。你甚至隐约可以看见一些脱衣舞俱乐部，它们就藏在几个街区远的地方。插播八卦：派克市场有一个著名的 Athenian 餐厅，传世经典爱情影片《西雅图夜未眠》中，汤大哥就是在这里泡梅甜心的。
 当然了，我现在还只是一个眨巴着大眼睛的刚刚研究生毕业的菜鸟，还不敢奢望有这样一个靠窗的工位。
 我的工位在厨房。在亚马逊公司，空间从来都是一种奢侈，那个时候自然也是这样。报到的那天，我被领到我的办公室——一张安装在厨房角落里的牌桌，上面放着一台 PC。
 在厨房办公还是着实有些乐趣的。在亚马逊，我几乎什么人都不认识，大多数同事都沉浸在无聊的窃窃私语之中。不过，他们倒经常会到离我不远的柜台上去取茶和咖啡。我弄了一个糖果瓶——嗯，免费的——尽力和他们搞关系，以求套出些什么来。
 我的第一项任务是开始学习代码库。打开一个 shell 窗口，调出 emacs，然后开始阅读代码。我花了一些天来跟踪针对不同 URL 的分发器，研究 ol&#8217; obidos ——一个用来支持 Amazon 网站运转的大型 CGI 程序——是怎样漂亮地处理不同的请求，主页，书籍详情页，搜索，购物车，以及订单流转。至今，大多数亚马逊 URL 里面还包含着“/exec/obidos”。插播八卦：不用为不知道 Obidos 为何物而犯囧，哥只是个传说。这里是正解。

这个系列其实我早就想动手翻译了，一直拖着到现在才终于开工。与此类似的，还有一个 Doug Edwards 和 Ron Garret 撰写的 Early [...]]]></description>
		<link>http://www.guwendong.com/post/2010/early_amazon_1.html</link>
			</item>
	<item>
		<title>Resys China 创刊号</title>
		<description><![CDATA[《Resys China》，是依托于 Resys Group 并专注于推荐系统领域的一份电子杂志。
下面是创刊号的内容目录。

业界新闻
学术动态

Workshop on Social Recommender Systems
Collaborative Filtering Over Time

精品推荐

YouTube&#8217;s Quest to Suggest More
Recommendation Systems: Increasing Profit by Long Tail
推荐系统五大问题

系列连载

Greg Linden，Early Amazon：The First Week

精彩应用

开源推荐框架 DUINE 概览

Resys 精华帖

大家觉得推荐系统和长尾的关系是什么
基于 SNS/Lifestream 的推荐

轻松一下

感谢 yoyo、gary wang及阿稳同学在内容编辑方面的大力协助，感谢百分点科技在 PDF 文件制作方面的鼎力支持。
现在网络阅读越来越倾向于浅阅读，希望这份人工精编的内容能够给大家带来一些思考和收获。
PDF 版本从这里下载：Resys China 创刊号
Resys China 创刊号
View more documents from gu wendong.


© guwendong for Beyond Search, 2010.
本文网址：http://www.guwendong.com/post/2010/resys_china.html
tags: resys, resyschina &#124; 参与讨论
]]></description>
		<link>http://www.guwendong.com/post/2010/resys_china.html</link>
			</item>
	<item>
		<title>迟来的感谢：Resys 豆瓣活动</title>
		<description><![CDATA[感谢开放的豆瓣团队，感谢阿北和胖子，感谢阿稳同学为这次活动付出的巨大努力！
 感谢大家对 Resys 活动的支持，2010 咱们继续折腾！
 本文原发 2010年第2期《程序员》杂志，略有修改。也愿 CSDN 的质量节节高升。

 年关之际，不仅天气冷，互联网更冷，不过这些都无法熄灭思想的火花。2009年12月19日，国内推荐技术社区 Resys Group（https://groups.google.com/group/resys）的第三次线下活动，在豆瓣网的鼎力支持之下顺利举办。&#160;
Resys，取名自 Recommender System 的简写，社区的宗旨是搭建一个专注于推荐技术领域的讨论平台。截止目前，Resys Group 发展势头喜人，受到了国内推荐技术爱好者们的热情响应，线上讨论很是热烈，线下活动也已经成功进行了三次。&#160;
 本次活动由豆瓣网提供场地、点心饮料以及纪念品支持。豆瓣网在国内互联网行业美誉度很高，这是一家以帮助用户发现未知事物为己任的公司，他们在为用户的生活带来诸多乐趣的同时，也已经让自己变得足够有趣。“豆瓣猜”作为其标志性应用，一直以来倍受关注，在 Google 上搜索 “豆瓣猜”，有超过两百万条信息，热度可见一斑。
 本次活动上，豆瓣网团队首次公开分享了他们运营 “豆瓣猜”的经验，系统介绍了他们在推荐领域的实践探索，可以说是对豆瓣网的一个不同于以往角度的新颖解读。据介绍，豆瓣网的创始人阿北与算法负责人王守崑是多年的好友。在豆瓣网内部最初的定位，书籍、电影、音乐等这些应用是钉子，推荐引擎是锤子，阿北带队找钉子，王守崑负责造锤子，配合得相当合拍。后来，豆瓣网逐渐成长为了一座舞台，推荐技术也伴随着赢得了更大的施展空间。
 这次活动总共有三个主题，第一个是豆瓣网王守崑的《豆瓣在推荐系统领域的实践和思考》，第二个是迅捷英翔孙超与刘凯义的《推荐也是一种产品》，第三个是百度张栋博士的《大规模机器学习算法在互联网上的应用》。
 第一个主题，主讲人王守崑总结了豆瓣网在推荐应用领域的探索，包括三个方面的内容。
 首先，什么样的产品适合推荐？依据在图书、电影、音乐、文章、RSS源、社会网络等领域应用推荐技术的多年经验，王守崑先从定性的角度提出是“具有媒体性的产品 (Media Product)”，即选择多样、口味(taste)很重要、单位成本不重要，同时能够广泛传播 (Information Cascade)的产品；接着在对真实的数据集进行定量分析后，进一步得出，应该是条目增长相对稳定、能够快速获得用户反馈，数据稀疏性与条目多样性、时效性比较平衡的产品，才是适合推荐的产品。
 其次，王守崑分享了豆瓣网的推荐引擎如何应对高成长性的挑战，即通过算法优化与近似算法设计，来寻求推荐质量与计算资源消耗之间的平衡。
 最后，针对当前推荐系统面临的问题，王守崑把推荐系统分为 Prediction，Forecasting，Recommendation 三个阶段，并探讨了一种下一代推荐引擎的构想——基于用户行为模型的、有记忆的、可进化的系统。在演讲期间，主讲人也提出了一些开放性问题留给与会者思考，比如推荐能否拥有独立的产品形态？
 总结陈词，王守崑把在算法领域的长期实践提炼成一句话：“Algorithms should facilitate rather than replace social process”，点睛之笔，简洁有力，闪耀着智慧的光芒。
 第二个主题，是由迅捷英翔公司的孙超与刘凯义带来的《Recommendation Algorithm is a product》。他们从日常工作实践出发，抛出了一个问题：在一个成熟的商业系统里，
 1）可推荐的商品（比如彩铃）数量多、种类繁、差异大（比如二人转与交响乐）；
 2）用户数目众多且兴趣各异，不同的用户对不同的商品有着不同的偏好；
 3）每种推荐算法所擅长解决问题的角度是不同的，比如协同过滤易出惊喜，内容推荐善于举一反三，基因推荐更加人性化。
 那么，推荐引擎作为连接起用户与商品的枢纽，是否可以具备自学习的智能导航能力，依据系统反馈来自动为每一个用户优化算法配置呢？
 诚恳地讲，这是一个非常有探讨价值的话题。以电影推荐为例，它是推荐技术发源的领域之一，相关的实际应用也最为深入。比如，IMDB 以基于打分的协同过滤技术为主，Jinni 将电影基因体系作为推荐引擎核心，Nanocrowd 通过分析影评的相关度来作推荐，LivingSocial: [...]]]></description>
		<link>http://www.guwendong.com/post/2010/resys_douban.html</link>
			</item>
	<item>
		<title>朋友们，来相会！</title>
		<description><![CDATA[各位同学们，我又在折腾了！ 
 2010年1月13日，在 Google 总部宣布退出中国的同一天，我使用了 2 年多的 guwendong.cn 域名，也被定点清除出中国了。这事儿我就不多说了，Google 看样子是要反悔了，不过我决心已定。对于 CNNIC 在那里瞎折腾，我等屁民无能为力。但，我有选择的权利。
某推很有意思：CNNIC，你让哥滚，哥滚了；你又让哥回来，哥滚远了。
 在国内使用 cn 域名架独立博客，绝对是彻头彻尾的杯具，切记，切忌！
我在 godaddy 注册了新域名 guwendong.com，在 Linode 买了 VPS。无需备案，还能翻墙。
自由的滋味非常甜美，不过 “Freedom is&#160;NOT free”！
原来我在 Feedsky 的地址还会继续维护，但没准儿不久的将来，Feedsky 也可能会变杯具。而且，即使 Feedsky 没问题，架不住我这个新地址没准儿哪天也会因某个名单而被墙掉。我已经有了足够的心理准备，即使被墙，也绝不会再回墙内。
下面列出我的一些永久地址，欢迎大家围观。

Blog:&#160;http://guwendong.com
Feed:&#160;http://feeds.feedburner.com/guwendong
Twitter:&#160;http://twitter.com/clickstone
Facebook: http://www.facebook.com/clickstone
Douban:&#160;http://www.douban.com/people/wdgu/



© guwendong for Beyond Search, 2010.
本文网址：http://www.guwendong.com/post/2010/guwendong_com.html
tags: blah &#124; 参与讨论
]]></description>
		<link>http://www.guwendong.com/post/2010/guwendong_com.html</link>
			</item>
	<item>
		<title>购物车推荐</title>
		<description><![CDATA[
忘记在哪里看到了这么一个说法，“在结算的时候如果有太多交叉销售的选择的话，可能会让客户迷惑，反而放弃订单”。这句话涉及到电子商务领域的一个重要问题，如此定性的结论显然是不太负责任的，比如何为“太多”。遂在 twitter 上发问。＠imrchen 回复说，
只要有“太多&#8221;選擇，消費者就會卻步，不論這些選擇是怎麼來的。Barry Schwartz 的 The Paradox of Choice 就很強調 Less is More 這件事。
那么，对待交叉销售问题，业界到底是怎么做的呢？让我们一探究竟。
我选了两本书进行实验：《末日之书》，这个来自豆瓣友邻推荐；《时间旅行者的妻子》，这个是因为我很想看同名电影。
第一站，当当
1）进入购物车之前

搜索书名，居然没有输入提示！
意见：太 out 了，这个应该算是标配了吧。
点击搜索结果里面的对应条目，弹出新窗口进入详细信息页面。
意见：虽然弹出新窗口基本上已经是中国网民最喜闻乐见的体验了，但我认为也不能乱用。我已经找到了我要的东西了，你还留着这个结果页面搞球啊，我还得费劲把它关了。当然了，我这里是基于使用精确搜索的场景得出上面的结论。使用模糊搜索的场景，保留结果列表页是说得过去的，但我觉得还是需要分析下搜索数据，看哪种比例高。当当购书整体走下来，最突出的问题就是弹出的新窗口太多了。
在书籍详细信息页面里，点击“购买”，又弹出了一个新窗口进入购物车。好吧，我忍了。

2）购物车内

上图是当当的购物车推荐区域，标题是“根据您挑选的商品，当当为您推荐”。

位置，横在页面上部。
意见：放在这里应该是觉得它比较重要，但在设计上与下面的“已购商品”产生对比，被弱化了很多。
每个推荐商品，显示名称/市场价/当当价，共 3 项信息。
名称有显示不完整的，鼠标放在链接上会提示完整名。
意见：不能够直接显示完整商品名，感觉不太好。
推测当当应该是认为，市场价/当当价对比，是用户购书关注的一大指标。
推荐条目总共 8 条。
问题：数目是怎么确定的？


上图是当当的已购商品区域。

位置，无论视觉上，还是设计上，这个区域都是中心。
显示商品名/单品积分/市场价/当当价/优惠/数量/共节省/共获积分/总金额，共 9 项信息。
灰掉了“积分/市场价”，应该是想强调一下“当当价”。
问题：如果认为灰掉的两项不重要，是否有更好的处理？
变换颜色强调了“共节省/积分”，特别突出的是“总金额”。
提示并进行了“图书促销区”活动的导航。
可以修改商品数量，以及删除商品。


上图是特惠区的促销信息。

位置在页面最下面，一般很难看到。我个人持保留意见，放在此时此地能有用吗？

3）个人看法

要赞一下当当的推荐算法团队，有功力，购物车推荐的相关性不错，多样性也照顾到了。
要搞清楚一个重要问题，基于当当目前的情况，购物车的首要目标是什么：刺激交叉销售，提高单个订单的总金额？还是尽量减少对结算的干扰，以保证订单地完成率？
不了解设计初衷，但感觉购物车推荐部分的产品设计还有提升空间。套个专业术语，信息架构没整明白。

第二站，卓越亚马逊
1）进入购物车之前

搜索书名，Bingo，有输入提示！看来 Amazon 代表了先进生产力啊。
点击搜索结果里面的对应条目，当前页转入详细信息页面。
问题：是否能够说明在卓越亚马逊这里，使用精确搜索的用户是占大多数的？
在书籍详细信息页面里，点击“购买”，当前页转入购物车。好吧，我承认我是 Amazon 的拥趸。

2）购物车内

根据最近加入购物车的一个商品，在购买操作维度给出的推荐。总共 6 条。



根据最近加入购物车的一个商品，在浏览操作维度给出的推荐。总共 3 条。

根据购物车内的其它商品，在购买操作维度给出的推荐。总共 3 条。
上面三个图片是 Amazon 购物车推荐的三个区域，标题是我们喜闻乐见的“买了&#8230; 还买了&#8230;”的经典句式。

Amazon 清晰地传递了它的理念：购物车的核心目标是，使用交叉销售帮助用户完成更多地购买。
购物车推荐区域基本上进行了满屏显示，无论视觉上，设计上，还是事实上，这里都是中心。
每个推荐商品，显示图片/名称/卓越价/打星/评论数，共 5 项信息。商品名称全部完整显示。
相比文字，图片能够更加有效地传递信息。
三个推荐区域的条目数分别是 6/3/3，总共 12 条。


上图是已购商品区域。

位置，在页面的右上部的独立区域。通过区别于其他的色块设计，使其也足够突出。
显示商品名/作者/包装/卓越价/数量/总金额，共 6 项信息。
突出了商品的卓越价及订单总价。
不能直接修改商品数据，也不能直接删除商品。
有一句看似很多余的提示语，“购物车中的商品价格与该商品页面显示的最新价格一致”。

3）个人看法

卓越亚马逊显然用的是 Amazon 总部的推荐技术，效果毋庸置疑。
细节上仍有待注意，推荐区域稍嫌散乱，且时常可以见到商品图片无法显示的情况。

关于购物推荐
用户购买一件商品，有两个阶段：首先是要知道有这么一个东西；然后评价一下是否需要购买，做出决定。
当当的推荐完成了第一个阶段，能够把相关性比较好的东西自动推给用户，但基本上到此就停住了，在帮助用户作决定这个阶段几乎没有作为。
细节处见真章。可以看到 Amazon 对推荐这件事情的理解的确更加到位。通过给出“打星”与“评论数”，为用户做出决定提供了一些参考。但请注意，我说的不是卓越亚马逊，他抄都没抄明白，Amazon 在同样的地方，还另外给出了书籍的作者，而卓越似乎是自作主张地去掉了。要知道，作者可是用户决定购买一本书的重要因素！
结论
内容写着写着就有点儿发散了。
转回头来，开篇的那句话，其实说的是“Shopping Cart Abandonment Rate”，它是电子商务领域的一个核心问题。它非常重要，因为可以抛开其他所有因素，只需要单纯把这个比例降低，销售收入就能够增加。但也正因为如此，一般的电子商务网站对待购物车都是格外的小心翼翼。这个事情的做法上，没有绝对的正误，一定要数据说话。
但评定标准绝对只有一条。搞清楚我之前提到的那个问题：

刺激交叉销售，提高单个订单的总金额；
尽量减少对结算的干扰，以保证订单地完成率。

哪一个能够提升最终的销售收入，哪一个就是你当前的最佳选择。
Update: 开篇的那句话来自 Tangos 的“支付结算页面造成客户流失的常见问题”这篇文章。非常抱歉，我误解了 [...]]]></description>
		<link>http://www.guwendong.com/post/2009/shopping_cart.html</link>
			</item>
	<item>
		<title>啤酒和尿布的故事</title>
		<description><![CDATA[因 Resys Group 里的这个讨论而起，又有朋友找我问起了啤酒和尿布的故事～
Long long ago，有这么一个故事。
在一家超市里，有一个有趣的现象：尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话，而是发生在美国沃尔玛连锁店超市的真实案例，并一直为商家所津津乐道。原来，美国的妇女们经常会嘱咐她们的丈夫下班以后要为孩子买尿布，而丈夫在买完尿布之后又要顺手买回自己爱喝的啤酒。
第一次听到这个故事，是在研一的数据挖掘课程上。当时导师讲完之后，我感觉这是个非常神奇的事情。
这之前我最崇拜的是一位名叫泰勒的大哥，此人左手一个小本，右手一支铅笔，脖子上挂着个秒表，没日没夜地，站在那里观察啊，观察啊，观察啊……观察什么啊？挖煤。对，确实是挖煤。就是这个办法，他凭借一己之力，开创了对工业界，尤其是对日本工业界影响深远的时间动作研究，被后人尊称为工业工程之父。
仰望着泰勒，我想，我要是也用泰勒大师的办法，是不是也能搞一个购物动作研究，成为超级市场之父呢？我为自己的灵光乍现而欢呼雀跃，I fucking couldn&#8217;t be happier！可转念又一想，那我得写秃多少支铅笔，按坏多少个秒表啊。我没有风险投资，这事儿干不了。
下课回到宿舍，我是埋头狂啃了几天关联规则算法。在自认为得道成仙之后，我便开始四处招摇，逢人便问。
我：你认识“啤酒兄”吗？
～摇头～
我：哦，不认识。
我：那你认识“尿布兄”吗？
～继续摇头～
我：什么，这个也不认识！
我：那算了，你还是回火星去吧。
时间长了，问得多了，我才弄明白，原来“啤酒兄”和“尿布兄”才是真正的火星人，在时间回旋里面，一时半会儿到不了地球，很不靠谱。
现在这事儿靠谱了，都有人专门为这两位仁兄著书立传了。等地球人都认识了他们，数据挖掘从业者的春天就真来了。
其实当年在课上，导师已经和我们说了，这个故事多半是有一些些杜撰的成分在里面的，并且这个故事其实是有多个版本的。但数据挖掘技术需要发展，需要进入业界，需要产业化，就必须有一个简单易懂的故事。就好像一提到进行诚实教育，大家自然就会想到“狼来了”，它通俗、易懂、好接受、容易记忆。故事不一定真实，但结论足够说明问题。
我有一位朋友，01 年本科毕业去了 IBM。在他给 IBM 的求职信上，有一段话让我印象深刻。原话记不住了，大约是这样：
“我喜欢写程序。
当我的同学们在浩渺的星际争霸战场上鏖战，或者围坐在饭岛爱老师身边激昂人生的时候，我却孤独地在 MFC 中深入浅出，每一行优雅的代码，都仿佛美丽的音符一般，让我深陷其中无法自拔。
学习就像太空冒险，越是深入，越能体会到他的博大精深。”
让我们共勉。

© guwendong for Beyond Search, 2009.
本文网址：http://www.guwendong.com/post/2009/beer_and_nappies.html
tags: association-rule, resys &#124; 参与讨论
]]></description>
		<link>http://www.guwendong.com/post/2009/beer_and_nappies.html</link>
			</item>
	<item>
		<title>转载：推薦系統與長尾</title>
		<description><![CDATA[非常令人高兴，我抛出了砖，引到了玉。Roger 早在 2007 年，就针对推荐系统与长尾的关系，发表了下面这篇精彩的文章。他的 blog 在 blogspot 上，由于众所周知的原因不太容易访问了。为了方便大家阅读，经 Roger 本人同意，转载在此。
我这里稍稍抱怨一下 Roger，不能总是拿 Daily Murmur 打发我们啊，下面这样的好文章实在应该多写一些啊。最后再说一句，Roger 的 twitter 帐号是 @imrchen。


推薦系統與長尾
原文作者：Roger
原文地址：http://blurkerlab.blogspot.com/2007/10/blog-post_12.html
我們已經談過推薦系統的架構和技術分類，接著我們來觀察推薦系統的目標和成果，是否如研究者或經營者所預期的那麼美好。推薦系統的研究在學界雖然不是紅得發紫，但是一直受到相當程度的關注， Netflix Prize 的話題一開，更受人注目。在如何建構一個「更好的」推薦系統這個題目上，過去產、學二界攜手的成果，是有目共睹的。
但是我們對於推薦系對銷售究竟有什麼影響，它是如何影響消費者的行為，是否真的達到原先建設推薦系統的目的，則是所知甚少，沒有足夠多的研究可以證實我們的觀點（不管這個觀點的內容是什麼）。
第一種觀點：推薦系統促成長尾
過去對於推薦系統成效，有兩種截然不同的看法，第一種觀點，可能也是目前較佔上風的觀點，認為推薦系統強化了長尾（Long Tail）的實現，讓銷售方和購買方都得到更多選擇與便利。比如說 The Long Tail 的作者，就直接了當在書中宣稱我們從資訊時代進入「推薦」時代─We are leaving the Information Age and entering the Recommendation Age（讀者可參考「長尾」在英國出版宣傳時作的 Exclusive Extract ，請看第 24 頁）。
這兒有一個學院派的例子，MIT Sloan Management Review 在2006年夏天出版了一篇由三位名校（MIT/Purdue/Carnegie Mellon）教授共同執筆的 From Niches to Riches: The Anatomy of the Long [...]]]></description>
		<link>http://www.guwendong.com/post/2009/longtail_roger.html</link>
			</item>
</channel>
</rss>
