<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Beyond Search &#187; 技术研究</title>
	<atom:link href="http://www.guwendong.com/post/category/techs/feed" rel="self" type="application/rss+xml" />
	<link>http://www.guwendong.com</link>
	<description>最好走的路越走越难，最难走的路越走越容易</description>
	<lastBuildDate>Tue, 31 Jan 2012 05:30:38 +0000</lastBuildDate>
	
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>Hulu：广告也可以很有爱</title>
		<link>http://www.guwendong.com/post/2010/hulu-team.html</link>
		<comments>http://www.guwendong.com/post/2010/hulu-team.html#comments</comments>
		<pubDate>Tue, 07 Dec 2010 14:04:58 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[技术研究]]></category>
		<category><![CDATA[ad]]></category>
		<category><![CDATA[hulu]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/?p=382</guid>
		<description><![CDATA[
上个月，Hulu CEO Jason Kilar 做了一场非常精彩的报告，分享了 Hulu 的成长经历、营收数据以及对于视频行业未来发展的一些看法。Hulu 的成功绝对称得上是一个奇迹，尤其是从商业角度来考量，他用相当于 Youtube 10% 的流量，赢得了 40% 的市场份额。

在报告视频中，你可以听到 Jason 对 Hulu 北京团队的称赞！我曾经有幸拜访过他们位于清华科技园的办公室，这是一个低调得令人发指的团队，然而做的事情却着实有趣。在 Hulu 工作是彻头彻尾的互联网模式，商业团队在美国，技术团队在北京，目标一致全球协作，绝非XX中国之类可以比拟的。
Hulu 可以称得上是追求商业与技术相融合的典范。当其他人还在对个性化技术犹豫不决的时候，他们几乎已经完成了最佳实践。Hulu 将个性化技术应用到了产品的许多角落，于细节之处彰显实力，是进行山寨式微创新的绝佳研究对象。

上图是经典的“如果你喜欢&#8230;那么你可能还喜欢&#8230;”的推荐场景，这个功能尽管常见，但很有讲究。推荐应该放哪儿，什么展现形式以及什么时机显示？想一想，这些问题你会怎么解决？Hulu 团队的答案是 A/B Test，让数据来指导产品决策。再看细节，“Bookmarked” 是一个很契合场景的小功能，是一个用心的设计。这个场景 Hulu 做到的效果是：看到这个推荐的用户中，有10%的用户点击观看或者收藏了推荐的影片。但其实整个场景里面我最想说的，是右上角的“Does this recommendation interest you?”这一点。我一直有一个看法：对于推荐产品，用户反馈的作用怎么强调都不为过，虽然用户确实是懒的，做推荐产品也确实要讲究隐性反馈，但这绝不代表你不能要求用户做出选择。既要能够收集到有价值的反馈，又要使得用户感受到产品对他的尊重，如何平衡这个矛盾，是需要具备相当智慧的。如果你正在招聘推荐相关的产品经理，这个事情很值得问一问。

用户不喜欢广告，这件事情相信谁都明白。Jason 给出了一个数据，“内容厂商每挣一美元，其中就有 41 美分来自广告”，因此，一切抛开广告谈视频产业未来的做法都是浮云，结论就是——绕不开广告，就让它变得更加美好。Hulu 的 mission 分为两部分：第一部分是“To help people find and enjoy the world’s premium content; when, where and how they want it.”；第二部分是“As we pursue [...]<table class="wumii-related-items" cellspacing="0" cellpadding="3" border="0"  style="clear: both;">
    
    <tr>
        <td colspan="5"><b><font size="-1"  style="display: block !important; padding: 20px 0 5px !important;">您可能也喜欢：</font></b></td>
    </tr>
    
        <tr>
                <td width="102" valign="top" style="padding: 5px !important; margin: 0 !important;">
                    <a target="_blank" title="Hulu：广告也可以很有爱" style="text-decoration: none !important; cursor: pointer !important;" href="http://app.wumii.com/ext/redirect.htm?url=http%3A%2F%2Fwww.resyschina.com%2F2010%2F12%2Fhulu-team.html&from=http%3A%2F%2Fwww.guwendong.com%2Fpost%2F2010%2Fhulu-team.html">
                        <img style="margin: 0 !important; padding: 2px !important; border: 1px solid #DDDDDD !important; width: 96px !important; height: 96px !important;" src="http://static.wumii.com/site_images/2011/01/04/1802207.png" width="96px" height="96px" /><br />
                        <font size="-1" color="#333333" style="display: block !important; line-height: 15px !important; width: 102px !important; font: 12px/15px arial !important; height: 60px !important; margin: 3px 0 0 0 !important; padding: 0 !important; overflow: hidden !important;">Hulu：广告也可以很有爱 (@resyschina)</font>
                    </a>
                </td>
                <td width="102" valign="top" style="padding: 5px !important; margin: 0 !important; border-left: 1px solid #DDDDDD !important;">
                    <a target="_blank" title="2011年Hulu业绩增长60%" style="text-decoration: none !important; cursor: pointer !important;" href="http://app.wumii.com/ext/redirect.htm?url=http%3A%2F%2Ftech2ipo.com%2F42040%2F&from=http%3A%2F%2Fwww.guwendong.com%2Fpost%2F2010%2Fhulu-team.html">
                        <img style="margin: 0 !important; padding: 2px !important; border: 1px solid #DDDDDD !important; width: 96px !important; height: 96px !important;" src="http://static.wumii.com/site_images/2012/01/16/14036409.png" width="96px" height="96px" /><br />
                        <font size="-1" color="#333333" style="display: block !important; line-height: 15px !important; width: 102px !important; font: 12px/15px arial !important; height: 60px !important; margin: 3px 0 0 0 !important; padding: 0 !important; overflow: hidden !important;">2011年Hulu业绩增长60% (@tech2ipo)</font>
                    </a>
                </td>
                <td width="102" valign="top" style="padding: 5px !important; margin: 0 !important; border-left: 1px solid #DDDDDD !important;">
                    <a target="_blank" title="StumbleUpon + Hulu = ？" style="text-decoration: none !important; cursor: pointer !important;" href="http://app.wumii.com/ext/redirect.htm?url=http%3A%2F%2Fwww.resyschina.com%2F2010%2F10%2Fstumbleupon-hulu.html&from=http%3A%2F%2Fwww.guwendong.com%2Fpost%2F2010%2Fhulu-team.html">
                        <img style="margin: 0 !important; padding: 2px !important; border: 1px solid #DDDDDD !important; width: 96px !important; height: 96px !important;" src="http://static.wumii.com/site_images/2011/01/04/1802373.jpg" width="96px" height="96px" /><br />
                        <font size="-1" color="#333333" style="display: block !important; line-height: 15px !important; width: 102px !important; font: 12px/15px arial !important; height: 60px !important; margin: 3px 0 0 0 !important; padding: 0 !important; overflow: hidden !important;">StumbleUpon + Hulu = ？ (@resyschina)</font>
                    </a>
                </td>
                <td width="102" valign="top" style="padding: 5px !important; margin: 0 !important; border-left: 1px solid #DDDDDD !important;">
                    <a target="_blank" title="从话题广告说开去" style="text-decoration: none !important; cursor: pointer !important;" href="http://app.wumii.com/ext/redirect.htm?url=http%3A%2F%2Fwww.guwendong.com%2Fpost%2F2007%2Ftalk_about_blog_ad.html&from=http%3A%2F%2Fwww.guwendong.com%2Fpost%2F2010%2Fhulu-team.html">
                        <img style="margin: 0 !important; padding: 2px !important; border: 1px solid #DDDDDD !important; width: 96px !important; height: 96px !important;" src="http://static.wumii.com/images/blogWidget/wordpress_default.gif" width="96px" height="96px" /><br />
                        <font size="-1" color="#333333" style="display: block !important; line-height: 15px !important; width: 102px !important; font: 12px/15px arial !important; height: 60px !important; margin: 3px 0 0 0 !important; padding: 0 !important; overflow: hidden !important;">从话题广告说开去</font>
                    </a>
                </td>
                <td width="102" valign="top" style="padding: 5px !important; margin: 0 !important; border-left: 1px solid #DDDDDD !important;">
                    <a target="_blank" title="Google Suggest and Adwords" style="text-decoration: none !important; cursor: pointer !important;" href="http://app.wumii.com/ext/redirect.htm?url=http%3A%2F%2Fwww.guwendong.com%2Fpost%2F2008%2Fgsuggest_adwords.html&from=http%3A%2F%2Fwww.guwendong.com%2Fpost%2F2010%2Fhulu-team.html">
                        <img style="margin: 0 !important; padding: 2px !important; border: 1px solid #DDDDDD !important; width: 96px !important; height: 96px !important;" src="http://static.wumii.com/site_images/2011/01/04/1801993.jpg" width="96px" height="96px" /><br />
                        <font size="-1" color="#333333" style="display: block !important; line-height: 15px !important; width: 102px !important; font: 12px/15px arial !important; height: 60px !important; margin: 3px 0 0 0 !important; padding: 0 !important; overflow: hidden !important;">Google Suggest and Adwords</font>
                    </a>
                </td>
        </tr>
    
    <tr>
        <td colspan="5" align="right">
            <a style="text-decoration: none !important;" href="http://www.wumii.com/widget/relatedItems.htm" target="_blank" title="无觅相关文章插件">
                <font size="-1" color="#bbbbbb" style="display: block !important; font-family: arial !important; padding: 5px 0 !important; font-size: 12px !important; color: #bbb !important;">无觅</font>
            </a>
        </td>
    </tr>
</table>]]></description>
			<content:encoded><![CDATA[<div>
<p>上个月，Hulu CEO Jason Kilar 做了一场非常精彩的<a href="http://www.livestream.com/gigaomtv/video?clipId=pla_ce01659c-ba97-4245-9664-0f3bd971dfeb" target="_blank">报告</a>，分享了 Hulu 的成长经历、营收数据以及对于视频行业未来发展的一些看法。Hulu 的成功绝对称得上是一个奇迹，尤其是从商业角度来考量，他用相当于 Youtube 10% 的流量，赢得了 40% 的市场份额。</p>
<p><img title="hulu-01" src="http://www.resyschina.com/wp-content/uploads/2010/12/hulu-01.png" alt="" width="540" height="296" /></p>
<p>在<a href="http://www.livestream.com/gigaomtv/video?clipId=pla_ce01659c-ba97-4245-9664-0f3bd971dfeb" target="_blank">报告视频</a>中，你可以听到 Jason 对 Hulu 北京团队的称赞！我曾经有幸拜访过他们位于清华科技园的办公室，这是一个低调得令人发指的团队，然而做的事情却着实有趣。在 Hulu 工作是彻头彻尾的互联网模式，商业团队在美国，技术团队在北京，目标一致全球协作，绝非XX中国之类可以比拟的。</p>
<p>Hulu 可以称得上是追求商业与技术相融合的典范。当其他人还在对个性化技术犹豫不决的时候，他们几乎已经完成了最佳实践。Hulu 将个性化技术应用到了产品的许多角落，于细节之处彰显实力，是进行山寨式微创新的绝佳研究对象。</p>
<p><img title="hulu-02" src="http://www.resyschina.com/wp-content/uploads/2010/12/hulu-02.png" alt="" width="540" height="295" /></p>
<p>上图是经典的“如果你喜欢&#8230;那么你可能还喜欢&#8230;”的推荐场景，这个功能尽管常见，但很有讲究。推荐应该放哪儿，什么展现形式以及什么时机显示？想一想，这些问题你会怎么解决？Hulu 团队的答案是 A/B Test，让数据来指导产品决策。再看细节，“Bookmarked” 是一个很契合场景的小功能，是一个用心的设计。这个场景 Hulu 做到的效果是：看到这个推荐的用户中，有10%的用户点击观看或者收藏了推荐的影片。但其实整个场景里面我最想说的，是右上角的“Does this recommendation interest you?”这一点。我一直有一个看法：对于推荐产品，用户反馈的作用怎么强调都不为过，虽然用户确实是懒的，做推荐产品也确实要讲究隐性反馈，但这绝不代表你不能要求用户做出选择。既要能够收集到有价值的反馈，又要使得用户感受到产品对他的尊重，如何平衡这个矛盾，是需要具备相当智慧的。如果你正在招聘推荐相关的产品经理，这个事情很值得问一问。</p>
<p><img title="hulu-03" src="http://www.resyschina.com/wp-content/uploads/2010/12/hulu-03.png" alt="" width="540" height="295" /></p>
<p>用户不喜欢广告，这件事情相信谁都明白。Jason 给出了一个数据，“内容厂商每挣一美元，其中就有 41 美分来自广告”，因此，一切抛开广告谈视频产业未来的做法都是浮云，结论就是——绕不开广告，就让它变得更加美好。Hulu 的 mission 分为两部分：第一部分是“To help people find and enjoy the world’s premium content; when, where and how they want it.”；第二部分是“As we pursue our mission, we aspire to create a service that users, advertisers and content owners unabashedly love.”。基本上第一部分无论从内容覆盖度上还是受众覆盖度上，都没有做到；显然大家都看得出来，第二部分才是真正的 mission，^_^。第二部分也的确是整个产品里面 Hulu 最下功夫的地方：1）广告的品质很高，这应该得益于主打品牌广告的策略；2）围绕广告给予用户很多选择，上图中红圈显示的仅是一例；3）基于用户的选择与反馈，使用个性化技术驱动广告与用户的喜好越来越相关。就目前公开的数据来看，在用户满意度、广告有效性以及自身收入这三个方面，Hulu 都确实取得了相当不错的成绩。作为一个有追求的程序男青年，我曾经很纠结：从技术角度需要理想化，从商业领域需要直截了当，难道除了更高更快更强地搜索假药之外，技术就不能够有效变现了吗？Hulu 让我释然了。</p>
<p><img title="hulu-04" src="http://www.resyschina.com/wp-content/uploads/2010/12/hulu-04.png" alt="" width="540" height="303" /></p>
<p>其他有意思的事情还有不少。比如，1）他们对于推荐模块使用了 Ajax 处理，只有当用户把页面拖到相应位置的时候，才会动态加载推荐数据，这样可以更精确地考量推荐算法的效果。2）在同一个功能区，他们会均衡投放广告与推荐影片的比例，背后的逻辑是，用户看到更多感兴趣的影片-&gt;停留的时间更长-&gt;看到广告的整体数量增多，这可以转化为一个相当理性的数据模型，照着收益最大化持续优化就好了。3）他们通过分析已注册用户观看过视频的历史数据，来对未注册用户建立预测模型。看下图这个例子，从全局统计数字来看，观看左边这部影片的用户中，63%是女性，37%是男性，通常的做法，会给这部影片搭配一段针对女性的广告，那么，那37%的男人们就杯具了。而 Hulu 讲究的是搭配有针对性的广告，对于已注册用户，Hulu 是知道性别数据的；对于不知道性别的未注册用户，Hulu 通过分析其浏览记录来预测其性别，比如同时还看过右侧那一坨影片的，就有极大可能是女性。这些数学模型其实都不难，但想在合适的地方让它们派上用场，这个还是需要一些功力的。</p>
<p><img title="hulu-05" src="http://www.resyschina.com/wp-content/uploads/2010/12/hulu-05.png" alt="" width="540" height="295" /></p>
<p>前两天我发了一条<a href="http://t.sina.com.cn/clickstone" target="_blank">微博</a>，“对数据的理解和问题的建模是第一位的，用多么高级的算法根本不是重点”。这是我个人的一些感触，我相信大部分场景应该也是适合的。但推荐深入作进去，绝对是个考验算法实力的事情。和一个靠谱的团队在一起，事半功倍！</p>
<p><img title="hulu-rec-team" src="http://www.resyschina.com/wp-content/uploads/2010/12/hulu-rec-team.jpg" alt="" width="540" height="366" /></p>
<p>评价一个团队，我个人有一个不太成熟的判断标准，就是看其中有没有辍学生，这点最起码能说明一个问题：正在做的事情是否足够性感，让人愿意抛开束缚全情投入。很巧的是，Hulu 北京团队里面就有这样一位从北大退学的博士生，非常给力。他们正在招聘，有兴趣的可以到这里<a href="http://www.hulu.com/jobs/beijing" target="_blank">看看</a>，或者可以直接联系：<a href="http://twitter.com/zhenghua00" target="_blank">郑华@Twitter</a>。</p>
<p>这里还有一些<a href="http://www.douban.com/photos/album/38473813/" target="_blank">好玩儿的照片</a>。<br />
<a href="http://www.douban.com/photos/album/38473813/"><img title="hulu-06" src="http://www.resyschina.com/wp-content/uploads/2010/12/hulu-06.png" alt="" width="549" height="75" /></a></p>
<p>本文首发 ResysChina：<a href="http://www.resyschina.com/2010/12/hulu-team.html" target="_blank">http://www.resyschina.com/2010/12/hulu-team.html</a></p>
</div>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2010.<br/>
本文网址：<a href="http://www.guwendong.com/post/2010/hulu-team.html">http://www.guwendong.com/post/2010/hulu-team.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/ad" rel="tag">ad</a>, <a href="http://www.guwendong.com/post/tag/hulu" rel="tag">hulu</a> | <a href="http://www.guwendong.com/post/2010/hulu-team.html#comments">参与讨论</a>
</small><br><table class="wumii-related-items" cellspacing="0" cellpadding="3" border="0"  style="clear: both;">
    
    <tr>
        <td colspan="5"><b><font size="-1"  style="display: block !important; padding: 20px 0 5px !important;">您可能也喜欢：</font></b></td>
    </tr>
    
        <tr>
                <td width="102" valign="top" style="padding: 5px !important; margin: 0 !important;">
                    <a target="_blank" title="Hulu：广告也可以很有爱" style="text-decoration: none !important; cursor: pointer !important;" href="http://app.wumii.com/ext/redirect.htm?url=http%3A%2F%2Fwww.resyschina.com%2F2010%2F12%2Fhulu-team.html&from=http%3A%2F%2Fwww.guwendong.com%2Fpost%2F2010%2Fhulu-team.html">
                        <img style="margin: 0 !important; padding: 2px !important; border: 1px solid #DDDDDD !important; width: 96px !important; height: 96px !important;" src="http://static.wumii.com/site_images/2011/01/04/1802207.png" width="96px" height="96px" /><br />
                        <font size="-1" color="#333333" style="display: block !important; line-height: 15px !important; width: 102px !important; font: 12px/15px arial !important; height: 60px !important; margin: 3px 0 0 0 !important; padding: 0 !important; overflow: hidden !important;">Hulu：广告也可以很有爱 (@resyschina)</font>
                    </a>
                </td>
                <td width="102" valign="top" style="padding: 5px !important; margin: 0 !important; border-left: 1px solid #DDDDDD !important;">
                    <a target="_blank" title="2011年Hulu业绩增长60%" style="text-decoration: none !important; cursor: pointer !important;" href="http://app.wumii.com/ext/redirect.htm?url=http%3A%2F%2Ftech2ipo.com%2F42040%2F&from=http%3A%2F%2Fwww.guwendong.com%2Fpost%2F2010%2Fhulu-team.html">
                        <img style="margin: 0 !important; padding: 2px !important; border: 1px solid #DDDDDD !important; width: 96px !important; height: 96px !important;" src="http://static.wumii.com/site_images/2012/01/16/14036409.png" width="96px" height="96px" /><br />
                        <font size="-1" color="#333333" style="display: block !important; line-height: 15px !important; width: 102px !important; font: 12px/15px arial !important; height: 60px !important; margin: 3px 0 0 0 !important; padding: 0 !important; overflow: hidden !important;">2011年Hulu业绩增长60% (@tech2ipo)</font>
                    </a>
                </td>
                <td width="102" valign="top" style="padding: 5px !important; margin: 0 !important; border-left: 1px solid #DDDDDD !important;">
                    <a target="_blank" title="StumbleUpon + Hulu = ？" style="text-decoration: none !important; cursor: pointer !important;" href="http://app.wumii.com/ext/redirect.htm?url=http%3A%2F%2Fwww.resyschina.com%2F2010%2F10%2Fstumbleupon-hulu.html&from=http%3A%2F%2Fwww.guwendong.com%2Fpost%2F2010%2Fhulu-team.html">
                        <img style="margin: 0 !important; padding: 2px !important; border: 1px solid #DDDDDD !important; width: 96px !important; height: 96px !important;" src="http://static.wumii.com/site_images/2011/01/04/1802373.jpg" width="96px" height="96px" /><br />
                        <font size="-1" color="#333333" style="display: block !important; line-height: 15px !important; width: 102px !important; font: 12px/15px arial !important; height: 60px !important; margin: 3px 0 0 0 !important; padding: 0 !important; overflow: hidden !important;">StumbleUpon + Hulu = ？ (@resyschina)</font>
                    </a>
                </td>
                <td width="102" valign="top" style="padding: 5px !important; margin: 0 !important; border-left: 1px solid #DDDDDD !important;">
                    <a target="_blank" title="从话题广告说开去" style="text-decoration: none !important; cursor: pointer !important;" href="http://app.wumii.com/ext/redirect.htm?url=http%3A%2F%2Fwww.guwendong.com%2Fpost%2F2007%2Ftalk_about_blog_ad.html&from=http%3A%2F%2Fwww.guwendong.com%2Fpost%2F2010%2Fhulu-team.html">
                        <img style="margin: 0 !important; padding: 2px !important; border: 1px solid #DDDDDD !important; width: 96px !important; height: 96px !important;" src="http://static.wumii.com/images/blogWidget/wordpress_default.gif" width="96px" height="96px" /><br />
                        <font size="-1" color="#333333" style="display: block !important; line-height: 15px !important; width: 102px !important; font: 12px/15px arial !important; height: 60px !important; margin: 3px 0 0 0 !important; padding: 0 !important; overflow: hidden !important;">从话题广告说开去</font>
                    </a>
                </td>
                <td width="102" valign="top" style="padding: 5px !important; margin: 0 !important; border-left: 1px solid #DDDDDD !important;">
                    <a target="_blank" title="Google Suggest and Adwords" style="text-decoration: none !important; cursor: pointer !important;" href="http://app.wumii.com/ext/redirect.htm?url=http%3A%2F%2Fwww.guwendong.com%2Fpost%2F2008%2Fgsuggest_adwords.html&from=http%3A%2F%2Fwww.guwendong.com%2Fpost%2F2010%2Fhulu-team.html">
                        <img style="margin: 0 !important; padding: 2px !important; border: 1px solid #DDDDDD !important; width: 96px !important; height: 96px !important;" src="http://static.wumii.com/site_images/2011/01/04/1801993.jpg" width="96px" height="96px" /><br />
                        <font size="-1" color="#333333" style="display: block !important; line-height: 15px !important; width: 102px !important; font: 12px/15px arial !important; height: 60px !important; margin: 3px 0 0 0 !important; padding: 0 !important; overflow: hidden !important;">Google Suggest and Adwords</font>
                    </a>
                </td>
        </tr>
    
    <tr>
        <td colspan="5" align="right">
            <a style="text-decoration: none !important;" href="http://www.wumii.com/widget/relatedItems.htm" target="_blank" title="无觅相关文章插件">
                <font size="-1" color="#bbbbbb" style="display: block !important; font-family: arial !important; padding: 5px 0 !important; font-size: 12px !important; color: #bbb !important;">无觅</font>
            </a>
        </td>
    </tr>
</table>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2010/hulu-team.html/feed</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>Social Media Algorithm: StumbleUpon</title>
		<link>http://www.guwendong.com/post/2009/social_media_algorithm_stumbleupon.html</link>
		<comments>http://www.guwendong.com/post/2009/social_media_algorithm_stumbleupon.html#comments</comments>
		<pubDate>Sat, 05 Sep 2009 12:40:32 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[技术研究]]></category>
		<category><![CDATA[algorithm]]></category>
		<category><![CDATA[social]]></category>
		<category><![CDATA[stumbleupon]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2009/social_media_algorithm_stumbleupon.html</guid>
		<description><![CDATA[StumbleUpon 是目前互联网上最老牌也最成功的个性化推荐服务。它创办于 2002 年初，目标很简单，“help people discover interesting or informative web content that they wouldn&#8217;t have thought to search for.”这里面直接突出了“search”和“discover”的区别，这点我非常同意，当你明确自己需要什么的时候，search 有用，但当你漫无目的的游逛的时候，你需要的是 discover。最近正好看到一篇不错的文章，也是在说这个问题，“Finding, Locating, Discovering”。
在 StumbleUpon 身上有一段儿传奇的经历。2007年5月，eBay 花了 75 个 million 的美刀把 StumbleUpon 收入囊中，而且据说当时 Google 对它也很有兴趣。但在归入 eBay 旗下之后，StumbleUpon 并没有取得预期的更大的发展，反而星光暗淡停滞不前了。其实这倒也没什么，要知道绝大多数类似的收购案例都是差不多的结局。但令人意外的是，差不多一年半以后，StumbleUpon 的两位创始人 Garrett Camp 与 Geoff Smith 又把它从 eBay 手里买了回来！算是拯救自己的孩子于水火了。无独有偶，据报道，eBay 刚刚把它2005年收购的 Skype 又给卖了出去。eBay 不好好搞自己的拍卖，当起了高科技二道贩子，让人无语啊。
好了，言归正传，说说 StumbleUpon 的算法吧。毋庸置疑，算法绝对是 StumbleUpon 的 top [...]]]></description>
			<content:encoded><![CDATA[<p><img style="width:188px;height:45px;float:left;margin-left:0pt;margin-right:1em" src="http://docs.google.com/File?id=ddjqwpms_49388qkwxcx_b">StumbleUpon 是目前互联网上最老牌也最成功的个性化推荐服务。它创办于 2002 年初，目标很简单，“help people discover interesting or informative web content that they wouldn&#8217;t have thought to search for.”这里面直接突出了“search”和“discover”的区别，这点我非常同意，当你明确自己需要什么的时候，search 有用，但当你漫无目的的游逛的时候，你需要的是 discover。最近正好看到一篇不错的文章，也是在说这个问题，“<a title="Finding, Locating, Discovering" href="http://thenoisychannel.com/2009/08/31/finding-locating-discovering/">Finding, Locating, Discovering</a>”。</p>
<p>在 StumbleUpon 身上有一段儿传奇的经历。2007年5月，eBay 花了 75 个 million 的美刀把 StumbleUpon 收入囊中，而且据说当时 Google 对它也很有兴趣。但在归入 eBay 旗下之后，StumbleUpon 并没有取得预期的更大的发展，反而星光暗淡停滞不前了。其实这倒也没什么，要知道绝大多数类似的收购案例都是差不多的结局。但令人意外的是，差不多一年半以后，StumbleUpon 的两位创始人 Garrett Camp 与 Geoff Smith 又把它从 eBay 手里买了回来！算是拯救自己的孩子于水火了。无独有偶，据<a title="Confirmed: eBay Sells Skype In Deal Valuing It At $2.75 Billion" href="http://www.techcrunch.com/2009/09/01/confirmed-ebay-sells-skype/">报道</a>，eBay 刚刚把它2005年收购的 Skype 又给卖了出去。eBay 不好好搞自己的拍卖，当起了高科技二道贩子，让人无语啊。</p>
<p>好了，言归正传，说说 StumbleUpon 的算法吧。毋庸置疑，算法绝对是 StumbleUpon 的 top secret，外人是不可能知道确切情况的。所以我这里给出的，只是<a title="Stumbleupon mathematics for stumblers" href="http://blog.venture-skills.co.uk/2007/09/19/stumbleupon-mathematics-for-stumblers/">某位高人</a>经过不断实验得到的推测。</p>
<p>具体的推理过程大家可以看那篇 blog，我这里直接给出结果：用来衡量一篇文章在 StumbleUpon 系统内得分的公式。假设 stumbler a 提交了一篇文章 d，d 属于 domain D。</p>
<div style="text-align:left">
<div style="text-align:left">
<div style="text-align:left"><img style="width:609px;height:61px" src="http://docs.google.com/File?id=ddjqwpms_496gzcxpbdn_b"></div>
</div>
</div>
<p>这里面最重要的一个参数，就是 A -“stumbler audience”。stumbler 指的就是使用 StumbleUpon 的用户，所以顾名思义，stumbler audience 大概说的就是一个 stumbler 在 StumbleUpon 系统内的权重，它由下面三个主要因素构成，</p>
<ul>
<li>Number of fans</li>
<li>Number of thumbs up and down you have given</li>
<li>Stumble thumb bonus – increase to score based on number of thumbs received on a page.</li>
</ul>
<p>
这个公式的大意可以理解为，文章 d 的权重，等于最初的提交者贡献的得分，加上后续 stumble up 用户贡献的得分，再减去后续 stumble down 用户带来的负面影响。<br />
公式具体的解释如下，<br />
1）第一个加号之前的部分，表示 a 的权重，除以 a 在 domain D 内总共提交的文章数。<br />
2）第一个求和部分，表示后续的 stumble up 用户做出的总体贡献。alpha 是 stumble up 操作的调和参数。gamma 表示“organic bonus”，是一个预设值，是对使用了 StumbleUpon Toolbar 的额外加分。delta 表示“nonfriend”惩罚因子，用来减弱无/少 friends 用户的影响力。<br />
3）第二个求和部分与前面这个类似，表示后续的 stumble down 用户对总体得分造成的影响。<br />
5）N，比较奇怪，高人文章里说是一个随机数，不过我没太搞明白为什么要加这么一个参数。</p>
<p>不知道是高人的英文写作水平有问题，还是我的英文阅读能力不行，反正高人的这篇文章看起来非常晦涩，如果我这里的理解有什么问题的话，大家一定帮忙指出来。</p>
<p>延伸阅读：<a title="Social Media排序算法的四种模式" href="http://blog.csdn.net/zhengyun_ustc/archive/2009/09/06/4523916.aspx">Social Media排序算法的四种模式</a>，旁观者 &#8211; 郑昀</p>
<p>最后插一句，汪峰的新专辑<a title="《信仰在空中飘摇》" href="http://www.douban.com/subject/3843530/">《信仰在空中飘摇》</a>，非常之好听，强烈推荐！</p>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2009.<br/>
本文网址：<a href="http://www.guwendong.com/post/2009/social_media_algorithm_stumbleupon.html">http://www.guwendong.com/post/2009/social_media_algorithm_stumbleupon.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/algorithm" rel="tag">algorithm</a>, <a href="http://www.guwendong.com/post/tag/social" rel="tag">social</a>, <a href="http://www.guwendong.com/post/tag/stumbleupon" rel="tag">stumbleupon</a> | <a href="http://www.guwendong.com/post/2009/social_media_algorithm_stumbleupon.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2009/social_media_algorithm_stumbleupon.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Social Media Algorithm: Hacker News</title>
		<link>http://www.guwendong.com/post/2009/social_media_algorithm_hackernews.html</link>
		<comments>http://www.guwendong.com/post/2009/social_media_algorithm_hackernews.html#comments</comments>
		<pubDate>Wed, 18 Feb 2009 19:21:27 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[技术研究]]></category>
		<category><![CDATA[algorithm]]></category>
		<category><![CDATA[social]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2009/social_media_algorithm_hackernews.html</guid>
		<description><![CDATA[我发现 Hacker News 是因为 reddit 的缘故。Hacker News 所属的 Y Combinator 是 reddit 的种子投资公司，后来 reddit 卖给了 Condé Nast，两个团队都赚了一票。
 Y Combinator 只关注于最早期的创业团队，在创业团队的起步阶段介入并提供相应的帮助。Y Combinator 会定期举行 Funding Application 的活动，接受创业团队提交的项目资料。项目如果评审通过的话，Y Combinator 会提供一种“$5000 + $5000n”模式的投资，其中 n 指的是愿意参与此项目投资的 Y Combinator 合伙人的人数。比如，如果有 2 个合伙人愿意投资，那么最终的投资额度是 $15000；如果有 3 个的话就是 $20000。作为回报，Y Combinator 将占有创业团队 2% 到 10% 的股份，通常是 6%。钱虽然不多，但在现今创业公司大量使用 open source，AWS 或者 GAE 的情况下，这些钱也确实够展开工作了。
 据说 Y Combinator [...]]]></description>
			<content:encoded><![CDATA[<p>我发现 <a href="http://news.ycombinator.com/" title="Hacker News">Hacker News</a> 是因为 reddit 的缘故。Hacker News 所属的 <a href="http://ycombinator.com/" title="Y Combinator">Y Combinator</a> 是 reddit 的种子投资公司，后来 reddit <a href="http://www.guwendong.com/post/2006/reddit_acquied.html" title="Reddit被收购了">卖给</a>了 Condé Nast，两个团队都赚了一票。</p>
<p> Y Combinator 只关注于最早期的创业团队，在创业团队的起步阶段介入并提供相应的帮助。Y Combinator 会定期举行 Funding Application 的活动，接受创业团队提交的项目资料。项目如果评审通过的话，Y Combinator 会提供一种“$5000 + $5000n”模式的投资，其中 n 指的是愿意参与此项目投资的 Y Combinator 合伙人的人数。比如，如果有 2 个合伙人愿意投资，那么最终的投资额度是 $15000；如果有 3 个的话就是 $20000。作为回报，Y Combinator 将占有创业团队 2% 到 10% 的股份，通常是 6%。钱虽然不多，但在现今创业公司大量使用 open source，AWS 或者 GAE 的情况下，这些钱也确实够展开工作了。</p>
<p> 据说 Y Combinator 已经累计投资了 80 多个创业项目，除 reddit 之外，我还算熟悉的另外一个是 <a href="http://www.scribd.com" title="Scribd">Scribd</a> ——“YouTube for Documents”。Y Combinator 最初总共为 Scribd 提供了 $12000 的投资。Scribd 在 2007 年 5 月正式上线，随即就是飞速地增长，上线一个月之后就完成了 <a href="http://www.techcrunch.com/2007/06/04/scribd-banks-35-million-from-redpoint/" title="Scribd Banks $3.5 Million from Redpoint">$3.5 million</a> 的 A 轮融资，2008 年 12 月又完成了 <a href="http://venturebeat.com/2008/12/19/scribd-raises-9-million-hires-new-president-for-social-publishing/" title="Scribd raises $9 million, hires new president for social publishing">$9 million</a> 的 B 轮融资，发展得很是不错。一个有意思的事情，Scribd 有一个超级 NB 的用户，<b><a href="http://www.scribd.com/barackobama" title="Barack Obama">Barack Obama</a></b>，对，现任美国总统！</p>
<p> 在 Y Combinator 的合伙人中，我个人比较关注的是 <a href="http://www.paulgraham.com/" title="Paul Graham">Paul Graham</a>。他写过一篇流传很广的文章，<a href="http://www.paulgraham.com/start.html" title="How to Start a Startup">How to Start a Startup</a>。Paul 在 <a href="http://www.paulgraham.com/antispam.html" title="Anti Spam">Anti Spam</a> 方面颇有造诣，以前我在研究相关问题时，从他这里学到了很多东西。Paul 是 Lisp 的大牛，另外还是 <a href="http://www.paulgraham.com/arc.html" title="Arc">Arc</a> 语言的设计者，Hacker News 应该就是用 Arc 语言开发的。Paul 始终称自己是一名 programmer，相比于当前乌泱乌泱的架构师，很是洒脱。</p>
<p> 下面言归正传，看看 Hacker News 使用了怎么样的算法。</p>
<p> <a href="http://www.flickr.com/photos/gwd/3253728606/" title="hacker news by guwendong, on Flickr"><img src="http://farm4.static.flickr.com/3508/3253728606_0700bfd6bd_o.png" alt="hacker news"></a> </p>
<p> Hacker News 所使用的公式非常简单，</p>
<p>     (p &#8211; 1) / (t + 2)^1.5</p>
<p> 其中，<br /> 1）p 表示文章得到的投票数，之所以要使用 (p &#8211; 1)，应该是想去掉文章提交者的那一票。<br /> 2）(t + 2)^1.5， 这个是时间因子。t 表示当前时间与文章提交时间间隔的小时数。但为什么要加 2 之后再取 1.5 的幂，似乎就没什么道理可言了，也许是个 trial-and-error 的结果吧。</p>
<p> 总体来讲，Hacker News 的公式不像 <a href="http://www.guwendong.com/post/2008/social_media_algorithm_reddit.html" title="Social Media Algorithm: Reddit">reddit</a> 设计的那么巧妙。但是与 reddit 相比，Hacker News 的用户群比较集中，提交的文章更 Focus，质量也相对更高一些，因此实际的效果并不差。其实某些时候，解决问题就是这样，够用就好。</p>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2009.<br/>
本文网址：<a href="http://www.guwendong.com/post/2009/social_media_algorithm_hackernews.html">http://www.guwendong.com/post/2009/social_media_algorithm_hackernews.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/algorithm" rel="tag">algorithm</a>, <a href="http://www.guwendong.com/post/tag/social" rel="tag">social</a> | <a href="http://www.guwendong.com/post/2009/social_media_algorithm_hackernews.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2009/social_media_algorithm_hackernews.html/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Social Media Algorithm: Reddit</title>
		<link>http://www.guwendong.com/post/2008/social_media_algorithm_reddit.html</link>
		<comments>http://www.guwendong.com/post/2008/social_media_algorithm_reddit.html#comments</comments>
		<pubDate>Wed, 17 Dec 2008 05:15:58 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[技术研究]]></category>
		<category><![CDATA[reddit]]></category>
		<category><![CDATA[social]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2008/social_media_algorithm_reddit.html</guid>
		<description><![CDATA[毫无疑问，互联网媒体的未来是属于 social media 的。
 群体智慧，是 social media 的基础。其基本假设是说，参与到 social 中的群体越多，media 所反应出来的智慧越高超。但如何把群体活动转化为可被使用的智慧呢？这个就是算法发挥作用的地方了。
 本文将陆续披露 Reddit，Stumbleupon，Del.icio.us，Hacker News 等一系列站点所使用到的算法。
 Reddit，背景介绍可以参考我之前写的两篇短文：1）社会新闻网站：Reddit 和 Findory；2）Reddit 被收购了。 
  
 1、公式构成
 假设有一篇文章《Social Media Algorithm》，与其相关的有两个时间 A 和 B，其中，A 为某篇文章的具体发布时间，精确到秒；B 为一个固定的时间常量，2005-12-8 7:46:43。则可以计算得到 A 和 B 间隔的秒数 ts， 
  
 另外，U 表示 《Social Media Algorithm》一文得到的支持票数，D 表示得到的否定票数，则可以计算得到 x， 
  
 定义变量 y， 
  
 [...]]]></description>
			<content:encoded><![CDATA[<p>毫无疑问，互联网媒体的未来是属于 social media 的。</p>
<p> 群体智慧，是 social media 的基础。其基本假设是说，参与到 social 中的群体越多，media 所反应出来的智慧越高超。但如何把群体活动转化为可被使用的智慧呢？这个就是算法发挥作用的地方了。</p>
<p> 本文将陆续披露 <a href="http://www.reddit.com/" title="Reddit">Reddit</a>，<a href="http://www.stumbleupon.com/" title="Stumbleupon">Stumbleupon</a>，<a href="http://delicious.com/" title="Del.icio.us">Del.icio.us</a>，<a href="http://news.ycombinator.com/" title="Hacker News">Hacker News</a> 等一系列站点所使用到的算法。</p>
<p> <b>Reddit</b>，背景介绍可以参考我之前写的两篇短文：1）<a href="http://www.guwendong.com/post/2006/reddit_findory.html" title="社会新闻网站：Reddit 和 Findory">社会新闻网站：Reddit 和 Findory</a>；2）<a href="http://www.guwendong.com/post/2006/reddit_acquied.html" title="Reddit 被收购了">Reddit 被收购了</a>。<br /> 
<div style="padding:1em 0pt;text-align:center"> <a href="http://www.flickr.com/photos/gwd/3142870789/" title="Reddit-Rank by guwendong, on Flickr"><img src="http://farm4.static.flickr.com/3075/3142870789_66027cd733_o.png" alt="Reddit-Rank"></a> </div>
<p> <b>1、公式构成</b></p>
<p> 假设有一篇文章《<a href="http://www.guwendong.com/post/2008/social_media_algorithm_reddit.html" title="Social Media Algorithm">Social Media Algorithm</a>》，与其相关的有两个时间 A 和 B，其中，A 为某篇文章的具体发布时间，精确到秒；B 为一个固定的时间常量，2005-12-8 7:46:43。则可以计算得到 A 和 B 间隔的秒数 t<sub>s</sub>，<br /> 
<div style="padding:1em 0pt;text-align:center"> <a href="http://www.flickr.com/photos/gwd/3142870807/" title="reddit01 by guwendong, on Flickr"><img src="http://farm4.static.flickr.com/3099/3142870807_6b74762561_o.png" alt="reddit01"></a> </div>
<p> 另外，U 表示 《<a href="http://www.guwendong.com/post/2008/social_media_algorithm_reddit.html" title="Social Media Algorithm">Social Media Algorithm</a>》一文得到的支持票数，D 表示得到的否定票数，则可以计算得到 x，<br /> 
<div style="padding:1em 0pt;text-align:center"> <a href="http://www.flickr.com/photos/gwd/3142870827/" title="reddit02 by guwendong, on Flickr"><img src="http://farm4.static.flickr.com/3196/3142870827_95f959263e_o.png" alt="reddit02"></a> </div>
<p> 定义变量 y，<br /> 
<div style="padding:1em 0pt;text-align:center"> <a href="http://www.flickr.com/photos/gwd/3142870741/" title="reddit03 by guwendong, on Flickr"><img src="http://farm4.static.flickr.com/3089/3142870741_bba3d6d901_o.png" alt="reddit03"></a> </div>
<p> 定义变量 z，<br /> 
<div style="padding:1em 0pt;text-align:center"> <a href="http://www.flickr.com/photos/gwd/3143699794/" title="reddit04 by guwendong, on Flickr"><img src="http://farm4.static.flickr.com/3089/3143699794_4f81889401_o.png" alt="reddit04"></a> </div>
<p> 最后定义得分公式 为，<br /> 
<div style="padding:1em 0pt;text-align:center"> <a href="http://www.flickr.com/photos/gwd/3143699856/" title="reddit05 by guwendong, on Flickr"><img src="http://farm4.static.flickr.com/3204/3143699856_4e39ae0b73_o.png" alt="reddit05"></a> </div>
<p> <b>2、公式解释</b></p>
<p> 1）时间点 B，2005-12-8 7:46:43，是一个固定的值，猜测应该是 Reddit 的上线时间。t<sub>s</sub> 反映了文章的新鲜程度。引入 B 是一个非常优雅的技巧，它使得新鲜度的度量可以独立于系统当前时间。<br /> 2）y 表示支持数和否定数之间的相对关系。被否定多的文章得负分，这是合乎常理的。<br /> 3）45000 代表的是一个 12.5 小时周期内的总秒数。它 与 yt<sub>s</sub> 一起使用，随着时间的推移，新文章的得分会逐渐超越高投票数的老文章，从而实现自动更新的效果。<br /> 4）log<sub>10</sub> 的使用是另外一个技巧，它可以使得早期的投票获得更大的权重。比如，前 10 票获得的权重，与 11 到 101 票所获得的权重是一样的。</p>
<p> 整个公式的效果可以简单解释为：在 00:00:00 发布的一个帖子 a，如果它想在 12.5 小时之后，能够取得与在 12:30:00 发布的帖子 b 同样的得分，则必须在 00:00:00 点到 12:30:00 这段时间内，把它的得票数扩大 10 倍。注：这个解释不精确，但容易理解一些，不然写着太绕。<br /> 不过，其中 45000 与 log<sub>10</sub> 的选择不是通用的，得根据自己网站实际的情况进行修正。这是一个 trial-and-error 的过程，也是作算法的人最头大的部分。</p>
<p> <b>3、来源</b><br /> <a href="http://code.reddit.com/" title="code.reddit.com">code.reddit.com</a>，<a href="http://redflavor.com/reddit.cf.algorithm.png" title="Redflavor.com">Redflavor.com</a> 以及 Hacker News 的用户 <a href="http://news.ycombinator.com/user?id=aneesh" title="Aneesh">Aneesh</a>。</p>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2008.<br/>
本文网址：<a href="http://www.guwendong.com/post/2008/social_media_algorithm_reddit.html">http://www.guwendong.com/post/2008/social_media_algorithm_reddit.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/reddit" rel="tag">reddit</a>, <a href="http://www.guwendong.com/post/tag/social" rel="tag">social</a> | <a href="http://www.guwendong.com/post/2008/social_media_algorithm_reddit.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2008/social_media_algorithm_reddit.html/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>求助</title>
		<link>http://www.guwendong.com/post/2008/help_for_google_ngram.html</link>
		<comments>http://www.guwendong.com/post/2008/help_for_google_ngram.html#comments</comments>
		<pubDate>Wed, 19 Nov 2008 10:31:38 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[技术研究]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[ir]]></category>
		<category><![CDATA[search]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2008/help_for_google_ngram.html</guid>
		<description><![CDATA[第一次通过 blog 求助，希望好心的朋友帮忙！
Google 开放出来的英文 ngram 数据，对我的工作很有帮助。但我通过一些途径联系 LDC 购买，始终得不到回复。阅读我 blog 的朋友，如果有能提供帮助的，烦请联系我，谢谢！
另外，Google Alert  的结果提供了 Feed 输出的方式，可以直接在 Google Reader 里面订阅，非常好用。 

© guwendong for Beyond Search, 2008.
本文网址：http://www.guwendong.com/post/2008/help_for_google_ngram.html
tags: google, ir, search &#124; 参与讨论
]]></description>
			<content:encoded><![CDATA[<p>第一次通过 blog 求助，希望好心的朋友帮忙！</p>
<p>Google 开放出来的英文 <a href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13">ngram 数据</a>，对我的工作很有帮助。但我通过一些途径联系 LDC 购买，始终得不到回复。阅读我 blog 的朋友，如果有能提供帮助的，烦请联系我，谢谢！</p>
<p>另外，<a href="http://www.google.com/alerts">Google Alert</a>  的结果提供了 Feed 输出的方式，可以直接在 Google Reader 里面订阅，非常好用。<br /> </p>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2008.<br/>
本文网址：<a href="http://www.guwendong.com/post/2008/help_for_google_ngram.html">http://www.guwendong.com/post/2008/help_for_google_ngram.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/google" rel="tag">google</a>, <a href="http://www.guwendong.com/post/tag/ir" rel="tag">ir</a>, <a href="http://www.guwendong.com/post/tag/search" rel="tag">search</a> | <a href="http://www.guwendong.com/post/2008/help_for_google_ngram.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2008/help_for_google_ngram.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Google Suggest and Adwords</title>
		<link>http://www.guwendong.com/post/2008/gsuggest_adwords.html</link>
		<comments>http://www.guwendong.com/post/2008/gsuggest_adwords.html#comments</comments>
		<pubDate>Tue, 18 Nov 2008 13:48:00 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[技术研究]]></category>
		<category><![CDATA[ad]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[search]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2008/gsuggest_adwords.html</guid>
		<description><![CDATA[Google Suggest 上线已经有一段儿时间了，不知道大家注意到没有。当然我说的是 google.com，不是谷歌。它刚上线的时候，我有一个揣测，“Google 会不会把 Adwords 里比较值钱的词优先 suggest 出来”？抱着这个疑问我关注了一段儿时间的相关文章，结果发现似乎没什么人讨论这个问题。而我个人又没有渠道到 Adwords 系统里面作实验，也就不了了之了。
 直到上周，我发现了一篇有意思的文章，&#39;Google Suggest&#39; Could Trump Expensive Keywords – For Now，看来和我一样喜欢瞎琢磨的人还是有的，哈哈。
 这篇文章的作者做了实际的实验。
 以“virtualization”关键字为例，使用 googe 提供的 keywords tool，限制最高 CPC 最高价为 $5.00，找到的关键字如下图所示。图中列出的是最贵的前 5 个，据作者讲，google keywords tool 找到的前 50 个关键字，CPC 价格全部在 $2 到 $3 之间。这个价格应该算是相当昂贵了。 
 接下来，有意思的事情来了。
 作者在 google.com 上输入“virtualization”，google suggest 给出的建议关键字如下图所示。经研究发现，第 2 位，第 4 位，第 8 位，和第 10 [...]]]></description>
			<content:encoded><![CDATA[<p><a href="http://labs.google.com/suggestfaq.html" title="Google Suggest">Google Suggest</a> 上线已经有一段儿时间了，不知道大家注意到没有。当然我说的是 google.com，不是谷歌。它刚上线的时候，我有一个揣测，“Google 会不会把 Adwords 里比较值钱的词优先 suggest 出来”？抱着这个疑问我关注了一段儿时间的相关文章，结果发现似乎没什么人讨论这个问题。而我个人又没有渠道到 Adwords 系统里面作实验，也就不了了之了。</p>
<p> 直到上周，我发现了一篇有意思的文章，<a href="http://www.internetevolution.com/author.asp?section_id=654&amp;doc_id=167749&amp;" title="&#39;Google Suggest&#39; Could Trump Expensive Keywords – For Now">&#39;Google Suggest&#39; Could Trump Expensive Keywords – For Now</a>，看来和我一样喜欢瞎琢磨的人还是有的，哈哈。</p>
<p> 这篇文章的作者做了实际的实验。</p>
<p> 以“virtualization”关键字为例，使用 googe 提供的 keywords tool，限制最高 CPC 最高价为 $5.00，找到的关键字如下图所示。图中列出的是最贵的前 5 个，据作者讲，google keywords tool 找到的前 50 个关键字，CPC 价格全部在 $2 到 $3 之间。这个价格应该算是相当昂贵了。<br /> <a href="http://picasaweb.google.com/lh/photo/VDy-55CArTaEd0-jEAb0hg"><img src="http://lh4.ggpht.com/_I2N7CunOzSo/SSFrh0BTL-I/AAAAAAAAALI/bKzBT70jMXc/s400/google_suggest02.jpg"></a></p>
<p> 接下来，有意思的事情来了。</p>
<p> 作者在 google.com 上输入“virtualization”，google suggest 给出的建议关键字如下图所示。经研究发现，第 2 位，第 4 位，第 8 位，和第 10 位的四个关健字，<br /> 
<ul>
<li>Virtualization for Dummies</li>
<li>Virtualization technology support</li>
<li>Virtualization benefits</li>
<li>Virtualization definition</li>
</ul>
<p> 在 Adwords 里面的 CPC 价格仅有 $0.05！<br /> 貌似价格比较高的关键字里面，只有“virtualization server”被 suggest 出来。<br /> <a href="http://picasaweb.google.com/lh/photo/D6EgLV66Biu7HtUAy8Y1Mw"><img src="http://lh4.ggpht.com/_I2N7CunOzSo/SSFrhgTU3GI/AAAAAAAAALA/kqDVwWetvtY/s400/google_suggest01.jpg"></a> </p>
<p> 看起来在这件事情上，google 不作恶的信条保持得还蛮不错。比百度整的<a href="http://news.cctv.com/society/20081116/102027.shtml" title="央视曝光百度竞价排名积弊">恶心事儿</a>要强。</p>
<p> 这个发现可以为 SEO 带来不小的市场机会！显而易见，google suggest 列表里面的关键字，被选中进行搜索的机会要比一般的关键字大得多。找出那些便宜的，买下它们，这是个好买卖。行动吧。</p>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2008.<br/>
本文网址：<a href="http://www.guwendong.com/post/2008/gsuggest_adwords.html">http://www.guwendong.com/post/2008/gsuggest_adwords.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/ad" rel="tag">ad</a>, <a href="http://www.guwendong.com/post/tag/google" rel="tag">google</a>, <a href="http://www.guwendong.com/post/tag/search" rel="tag">search</a> | <a href="http://www.guwendong.com/post/2008/gsuggest_adwords.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2008/gsuggest_adwords.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>使用 Hadoop 实现 Inner Join 操作</title>
		<link>http://www.guwendong.com/post/2008/hadoop_inner_join.html</link>
		<comments>http://www.guwendong.com/post/2008/hadoop_inner_join.html#comments</comments>
		<pubDate>Tue, 21 Oct 2008 23:30:00 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[技术研究]]></category>
		<category><![CDATA[hadoop]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2008/hadoop_inner_join.html</guid>
		<description><![CDATA[淘宝数据仓库团队，在“HADOOP中一种非典型两表JOIN的处理方法”这篇文章里， 无私地 share 了他们的方法。我就着他们的写一个续，权当讨论，抛砖引玉。淘宝团队的文章主要说的是大规模数据情况下如何计算，我这篇接着他们最后的问题，即“多对多”的情况说一下思路。
 要解决的问题可以简化描述一下： 

有两组数据，input1 { P1, U1; P1, U2; P2, U3; P3, U4; P4, U4 }，input2 { P1, C1; P1, C2; P2, C3; P3, C3; P3, C4; P4, C4 }。
要求执行类似于数据库两表 Inner Join 的操作，以 P 为 key，建立起 U 和 C 直接的对应关系，即最终结果为 output { U1, C1; U1, C2; U2, C1; U2, C2; U3, C3; U4, [...]]]></description>
			<content:encoded><![CDATA[<p>淘宝数据仓库团队，在“<a href="http://rdc.taobao.com/blog/dw/archives/204" title="HADOOP中一种非典型两表JOIN的处理方法">HADOOP中一种非典型两表JOIN的处理方法</a>”这篇文章里， 无私地 share 了他们的方法。我就着他们的写一个续，权当讨论，抛砖引玉。淘宝团队的文章主要说的是大规模数据情况下如何计算，我这篇接着他们最后的问题，即“多对多”的情况说一下思路。</p>
<p> 要解决的问题可以简化描述一下：<br /> 
<ol>
<li>有两组数据，input1 { P1, U1; P1, U2; P2, U3; P3, U4; P4, U4 }，input2 { P1, C1; P1, C2; P2, C3; P3, C3; P3, C4; P4, C4 }。</li>
<li>要求执行类似于数据库两表 Inner Join 的操作，以 P 为 key，建立起 U 和 C 直接的对应关系，即最终结果为 output { U1, C1; U1, C2; U2, C1; U2, C2; U3, C3; U4, C3; U4, C4 }。</li>
</ol>
<p> 在数据库里，使用类似的 SQL 可以达到要求：SELECT DISTINCT(U, C) FROM input1 INNER JOIN input2 ON  input1.P=input2.P。但如果要放在 Hadoop 里面求解，就需要动些脑筋了。</p>
<p> 研究这个问题，首先需要理解 Hadoop 的运行机制。简单来讲，Hadoop 分为 Map 和 Reduce 两个操作：Map 操作将输入（如一行数据）格式化为 &lt;key: value1&gt;&lt;key: value2&gt;&lt;key: value3&gt; &#8230; &lt;key: valueN&gt;这样的一组结果，作为 Map 的输出。Hadoop 在 Map 和 Reduce 之间，会自动把 Map 的输出按照 key 合并起来，作为 Reduce 的输入。Reduce 得到这样一个 {key: [value1, value2, value3, ..., valueN]} 的输入之后，就可以进行自己的处理，完成最终计算了。</p>
<p> 针对于我们这里要解决的问题，步骤如下。<br /> 
<ol>
<li>将 Map 的输入构造为下面的格式：来自于 input1 的输入格式化为 {&lt;input1, P1&gt;: U1, U2}；来自于 input2 的输入格式化为 {&lt;input2, P1&gt;: C1, C2}。</li>
<li>在 Map 操作内，将数据转化为 {P1: &lt;input1, U1&gt;}，{P1: &lt;input1, U2&gt;}，{P1: &lt;input2, C1&gt;}，{P1: &lt;input2, C2&gt;}，作为 Reduce 操作的输入。</li>
<li>经过 Hadoop 内部自己的操作，实际 Reduce 操作的输入为：{P1: &lt;input1, U1&gt;, &lt;input1, U2&gt;, &lt;input2, C1&gt;, &lt;input2, C2&gt;}。</li>
<li>Reduce 里操作会复杂一下。首先需要执行一次 regroup，得到如下的结果 {&lt;input1&gt;: &lt;input1, U1&gt;, &lt;input1, U2&gt;; &lt;input2&gt;: &lt;input2, C1&gt;, &lt;input2, C2&gt;}。把这个结果拆开，可以得到两个集合：{&lt;input1&gt;, &lt;input2&gt;} 与 {[&lt;input1, U1&gt;, &lt;input1, U2&gt;], [&lt;input2, C1&gt;, &lt;input2, C2&gt;]}。 </li>
<li>循环集合2，即可以得到最终结果。不过在 Reduce 里面作这个循环是需要一定技巧的，讲起来比较绕，大家就直接看后面的代码吧。 </li>
<li>在此 Reduce 的结果之上，再跑一个 Map/Reduce，还可以得到 &lt;U, C&gt;的次数，作为每个组合的权重。 </li>
</ol>
<p> 对于大数据量，需要启用 Hadoop 的数据压缩功能。</p>
<p> 这是一个通用地解决 Inner Join 问题的思路，在 Hadoop 的 contrib package 里有具体的代码实现，参见 <a href="http://hadoop.apache.org/core/docs/current/api/org/apache/hadoop/contrib/utils/join/package-summary.html" title="org.apache.hadoop.contrib.utils.join">org.apache.hadoop.contrib.utils.join</a>。<br /> 国内还有哪个 team 在用 Hadoop？欢迎交流！</p>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2008.<br/>
本文网址：<a href="http://www.guwendong.com/post/2008/hadoop_inner_join.html">http://www.guwendong.com/post/2008/hadoop_inner_join.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/hadoop" rel="tag">hadoop</a> | <a href="http://www.guwendong.com/post/2008/hadoop_inner_join.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2008/hadoop_inner_join.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Google 评价 blog 的指标</title>
		<link>http://www.guwendong.com/post/2008/google_blog_rank.html</link>
		<comments>http://www.guwendong.com/post/2008/google_blog_rank.html#comments</comments>
		<pubDate>Tue, 19 Aug 2008 16:47:32 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[技术研究]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[rank]]></category>
		<category><![CDATA[search]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2008/google_blog_rank.html</guid>
		<description><![CDATA[读了一下 Google 关于 Blog Ranking 的 Patent，总结如下。
正面的指标：

[0038] 订阅数统计 blog 在各种 reader 中被订阅的数量。被订阅的越多，ranking 越高。但同时会使用一些方法处理“subscriptions spam”，诸如验证订制人和 IP 的唯一性。
[0039] 搜索点击数统计 blog 作为搜索结果时被点击的次数。点击次数越多，ranking 越高。
[0040] 在其他 blogger 的 blogroll 里的出现次数blogger 通常会使用 blogroll 来整理指到其他 blogger 的链接集合。统计所有 blogroll 中，指向某个 blog 的链接越多，ranking 越高。
[0041] 来自高质量的 blogroll 的链接数高质量的 blogroll 的链接大多都指向著名的或值得信任的 blog。
[0042] 来自高质量的 blog 的 blogroll 的链接数这里的假定是著名的或值得信任的 blogger 不会放指向 spam blog 的链接。
[0043] 有Tagblog 作者如果分析了 blog 内容，归类并打上了 [...]]]></description>
			<content:encoded><![CDATA[<p>读了一下 Google 关于 Blog Ranking 的 <a href="http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&amp;Sect2=HITOFF&amp;d=PG01&amp;p=1&amp;u=%2Fnetahtml%2FPTO%2Fsrchnum.html&amp;r=1&amp;f=G&amp;l=50&amp;s1=%2220070061297%22.PGNR.&amp;OS=DN/20070061297&amp;RS=DN/20070061297" rel="nofollow" title="Patent">Patent</a>，总结如下。</p>
<p>正面的指标：
<ol>
<li><b>[0038] 订阅数</b><br />统计 blog 在各种 reader 中被订阅的数量。被订阅的越多，ranking 越高。但同时会使用一些方法处理“subscriptions spam”，诸如验证订制人和 IP 的唯一性。</li>
<li><b>[0039] 搜索点击数</b><br />统计 blog 作为搜索结果时被点击的次数。点击次数越多，ranking 越高。</li>
<li><b>[0040] 在其他 blogger 的 blogroll 里的出现次数</b><br />blogger 通常会使用 blogroll 来整理指到其他 blogger 的链接集合。统计所有 blogroll 中，指向某个 blog 的链接越多，ranking 越高。</li>
<li><b>[0041] 来自高质量的 blogroll 的链接数</b><br />高质量的 blogroll 的链接大多都指向著名的或值得信任的 blog。</li>
<li><b>[0042] 来自高质量的 blog 的 blogroll 的链接数</b><br />这里的假定是著名的或值得信任的 blogger 不会放指向 spam blog 的链接。</li>
<li><b>[0043] 有Tag</b><br />blog 作者如果分析了 blog 内容，归类并打上了 tag，起码可以说明作者的态度比较认真。</li>
<li><b>[0044] 来自邮件和聊天记录的链接数</b><br />如果在 Email 正文里或者聊天记录里出现了指向 blog 的链接，会加分。GEmail 和 Gtalk 被用在了这里。</li>
<li><b>[0045] PageRank</b><br />PageRank 越高对应的 blog 也就越重要。考虑到blog的更新比较频繁，最新的 blog post 可能还没有PR。这时可以用对应的 blog 的 PR 来代替。</li>
</ol>
<p>其中 [0040-0042]，其实是类似于传统网页间 PageRank 计算的一套模式，只不过这里把它限制在了 blog 之间。</p>
<p>负面的指标：
<ol>
<li><b>[0047] 更新频率异常</b><br />更新过于频繁或者非常有规律，会被认为是在 spam，ranking 会降低。这里提醒喜欢在每天的固定时间更新 blog 的朋友注意一下了。<b><br /></b></li>
<li><b>[0048] feed 内容和 blog 内容的不一致</b><br />spammer 有可能会为了提升自己的 ranking 而把有价值的内容放到 feed 里面，同时在 blog 内容里面放一些指向不相关内容的广告链接。为了惩罚这种情况，对于 feed 内容和 blog 内容不一致的情况，要降低 ranking。</li>
<li><b>[0049] 出现重复内容</b><br />有些 spammer 为了让某些内容能够多次长时间的出现在 feed 里面，会重复发布同样的内容。这样的情况会被惩罚。</li>
<li><b>[0050] 垃圾词过多</b><br />通过词频统计（bi-gram 或者 tri-gram 等），如果 blog 内容里垃圾词的比较过高，会降低 ranking。</li>
<li><b>[0051] 多数 blog 长度相近</b><br />这个主要是针对使用机器自动生成 blog 的情况。</li>
<li><b>[0052] 链接异常</b><br />当 blog 里的链接多为指向单一网页，或者单一的外站，会被认为是在 spam，ranking 会降低。</li>
<li><b>[0053] 广告太多</b><br />如果一个 blog 页面内含有过多的广告，会降低 ranking。</li>
<li><b>[0054] 广告出现在正文里<br /></b>一般 blog 页面会包括三方面的内容：最近发表的 blog，blogroll 和 metadata。如果广告出现在正文里，会降低 ranking。不知道 adsense 的广告有没有特殊待遇？</li>
</ol>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2008.<br/>
本文网址：<a href="http://www.guwendong.com/post/2008/google_blog_rank.html">http://www.guwendong.com/post/2008/google_blog_rank.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/google" rel="tag">google</a>, <a href="http://www.guwendong.com/post/tag/rank" rel="tag">rank</a>, <a href="http://www.guwendong.com/post/tag/search" rel="tag">search</a> | <a href="http://www.guwendong.com/post/2008/google_blog_rank.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2008/google_blog_rank.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Are Machine-Learned Models Prone to Catastrophic Errors?</title>
		<link>http://www.guwendong.com/post/2008/peter_norvig_on_machine_learning.html</link>
		<comments>http://www.guwendong.com/post/2008/peter_norvig_on_machine_learning.html#comments</comments>
		<pubDate>Mon, 02 Jun 2008 19:29:02 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[技术研究]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[ml]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2008/peter_norvig_on_machine_learning.html</guid>
		<description><![CDATA[最近忙，paper 看得多，blog 看得少，险些错过一些非常有意思的文章。上一次提到的 &#34;Introduction to Google Search Quality&#34; 算一篇，这次要说的是另外一篇 &#34;Are Machine-Learned Models Prone to Catastrophic Errors?&#34;。            不过这两个 blog 都被我们伟大的 GFW 拌掉了。
 Peter Norvig 这样的大师的意见，我们需要仔细体会。我整理一下我感兴趣的。 

tow phase of google search algorithms

An offline phase, which is time-consuming and query-independent.
An on-line phrase, in response to a user [...]]]></description>
			<content:encoded><![CDATA[<p>最近忙，paper 看得多，blog 看得少，险些错过一些非常有意思的文章。上一次提到的 &quot;<a href="http://googleblog.blogspot.com/2008/05/introduction-to-google-search-quality.html" title="Introduction to Google Search Quality">Introduction to Google Search Quality</a>&quot; 算一篇，这次要说的是另外一篇 &quot;<a href="http://anand.typepad.com/datawocky/2008/03/more-data-usual.html" title="Are Machine-Learned Models Prone to Catastrophic Errors?">Are Machine-Learned Models Prone to Catastrophic Errors?</a>&quot;。            不过这两个 blog 都被我们伟大的 GFW 拌掉了。</p>
<p> <a href="http://www.norvig.com/resume.html">Peter Norvig</a> 这样的大师的意见，我们需要仔细体会。我整理一下我感兴趣的。<br /> 
<ol>
<li>tow phase of google search algorithms
<ul>
<li>An offline phase, which is time-consuming and query-independent.</li>
<li>An on-line phrase, in response to a user query in a few milliseconds.</li>
</ul>
</li>
<li>Tons of training data &#8230; from <b>the armies of &quot;raters&quot;</b> employed by Google</li>
<li>The big surprise is that Google <b>still uses the manually-crafted formula</b> for its search results, <b>despite</b> the fact that, their <b>best machine-learned model</b> is now as good as, and sometimes <b>better than</b>, <b>the hand-tuned formula</b> on the results quality metrics that Google uses.</li>
<li>two reasons</li>
<div>
<ul>
<li>the human experts who created the algorithm believe they can do better than a machine-learned model</li>
<li>Google&#39;s search team worries that <b>machine-learned models</b> may be     <b>susceptible to catastrophic errors</b> on unforeseen query types, which is  different from the training data.</li>
</ul></div>
<li>Nassim Taleb divides <a href="http://en.wikipedia.org/wiki/Black_swan_theory" title="Black Swan">Black Swan</a> phenomena into two classes
<ul>
<li>Mediocristan</li>
<li>Extremistan</li>
</ul>
</li>
<li>The current generation of machine learning algorithms can work well in Mediocristan but not in Extremistan.</li>
</ol>
<p> So the thing is, how to figure out whether new machine learning algorithms can be devised that work well in Extremistan, or prove that it cannot be done? </p>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2008.<br/>
本文网址：<a href="http://www.guwendong.com/post/2008/peter_norvig_on_machine_learning.html">http://www.guwendong.com/post/2008/peter_norvig_on_machine_learning.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/google" rel="tag">google</a>, <a href="http://www.guwendong.com/post/tag/ml" rel="tag">ml</a> | <a href="http://www.guwendong.com/post/2008/peter_norvig_on_machine_learning.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2008/peter_norvig_on_machine_learning.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Google Search Quality 官方说明</title>
		<link>http://www.guwendong.com/post/2008/google_search_quality_1.html</link>
		<comments>http://www.guwendong.com/post/2008/google_search_quality_1.html#comments</comments>
		<pubDate>Sun, 01 Jun 2008 05:35:15 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[技术研究]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[rank]]></category>
		<category><![CDATA[search]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2008/google_search_quality_1.html</guid>
		<description><![CDATA[&#34;the ranking of Google search results&#34; 是 google 的命脉，因此很少能看到官方的说明。原因倒也无可厚非：&#34;competition and abuse&#34;，这两件事情确实哪一个都不容忽视！
 不过近日，google 负责搜索质量的 VP， Udi Manber，透露了一些有意思的资料，&#34;Introduction to Google Search Quality&#34;。对 search 感兴趣的千万不要错过！我列举一下我感兴趣的。 

more than one thousand programmer/scientist years have gone directly into their development (that is to say &#34;the ranking algorithms&#34;).
divided into some teams

The heart of the group is the team that works on core [...]]]></description>
			<content:encoded><![CDATA[<p>&quot;the ranking of Google search results&quot; 是 google 的命脉，因此很少能看到官方的说明。原因倒也无可厚非：&quot;competition and abuse&quot;，这两件事情确实哪一个都不容忽视！</p>
<p> 不过近日，google 负责搜索质量的 VP， <a href="http://manber.com/" title="Udi Manber">Udi Manber</a>，透露了一些有意思的资料，&quot;<a href="http://googleblog.blogspot.com/2008/05/introduction-to-google-search-quality.html" title="Introduction to Google Search Quality">Introduction to Google Search Quality</a>&quot;。对 search 感兴趣的千万不要错过！我列举一下我感兴趣的。<br /> 
<ol>
<li>more than <b>one thousand programmer/scientist years</b> have gone directly into their development (that is to say &quot;the ranking algorithms&quot;).</li>
<li>divided into some teams
<ul>
<li>The heart of the group is the team that works on core ranking</li>
<li>Another team in our group is responsible for evaluating how well we&#39;re doing</li>
<li>Another team is dedicated to new features and new user interfaces</li>
<li>There is a whole team that concentrates on fighting <a href="http://www.google.com/support/webmasters/bin/answer.py?hl=en&amp;answer=35769#quality" title="webspam and other types of abuse">webspam and other types of abuse</a></li>
<li>There are other teams devoted to particular projects</li>
</ul>
</li>
<li><a href="http://www.google.com/technology/" title="PageRank">PageRank</a> <a href="http://en.wikipedia.org/wiki/PageRank" title="PageRank @ Wiki">[1]</a> is still in use today, but it is now a part of a much larger system. &#8230; made significant changes to the PageRank algorithm in January, 2008. </li>
<li>some other parts
<ul>
<li>language models (the ability to handle phrases, synonyms, diacritics, spelling mistakes, and so on)</li>
<li>query models (it&#39;s not just the language, it&#39;s how people use it today)</li>
<li><b>time models</b> (some queries are best answered with a 30-minutes old page, and some are better answered with a page that stood the test of time)</li>
<li><b>personalized models</b> (not all people want the same thing).</li>
</ul>
</li>
<li>Google conducts evaluations typically in three manners, (1) automated evaluations <b>every minute</b>, (2) periodic evaluations of our overall quality and (3) evaluations of specific algorithmic improvements.</li>
<li>In 2007, &#8230; more than <b>450</b> new improvements, about <b>9 per week</b> on the average.</li>
<li>.. work on projects where the sole purpose is to simplify the algorithms. <b>Simple is good.</b></li>
</ol>
<p> <a href="http://manber.com/" title="Udi Manber">Udi Manber</a> 是我最景仰的几位科学家之一。&quot;Chief Algorithms Officer&quot;这个职位，就是 Amazon 专门为表彰他的贡献而首创出来的。</p>
<p> 推荐阅读：<br /> 
<ol>
<li><a href="http://www.popularmechanics.com/blogs/technology_news/4259137.html?nav=RSS2" title="20 (Rare) Questions for Google Search Guru Udi Manber">20 (Rare) Questions for Google Search Guru Udi Manber</a> </li>
<li><a href="http://searchengineland.com/070604-105606.php" title="Insight Into Google&#39;s Search Quality Efforts">Insight Into Google&#39;s Search Quality Efforts</a> </li>
</ol>
<p></p>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2008.<br/>
本文网址：<a href="http://www.guwendong.com/post/2008/google_search_quality_1.html">http://www.guwendong.com/post/2008/google_search_quality_1.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/google" rel="tag">google</a>, <a href="http://www.guwendong.com/post/tag/rank" rel="tag">rank</a>, <a href="http://www.guwendong.com/post/tag/search" rel="tag">search</a> | <a href="http://www.guwendong.com/post/2008/google_search_quality_1.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2008/google_search_quality_1.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

