<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Beyond Search &#187; google</title>
	<atom:link href="http://www.guwendong.com/post/tag/google/feed" rel="self" type="application/rss+xml" />
	<link>http://www.guwendong.com</link>
	<description>最好走的路越走越难，最难走的路越走越容易</description>
	<lastBuildDate>Wed, 11 Aug 2010 16:43:41 +0000</lastBuildDate>
	
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>Google Matrix</title>
		<link>http://www.guwendong.com/post/2010/google_matrix.html</link>
		<comments>http://www.guwendong.com/post/2010/google_matrix.html#comments</comments>
		<pubDate>Tue, 27 Apr 2010 11:52:15 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[三言两语]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[personalization]]></category>
		<category><![CDATA[privacy]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/?p=354</guid>
		<description><![CDATA[Google 退出中国事件发生之后，来自木遥同学的一篇文字，让我不能同意更多！其中有这么一段，
这个「国家（指 Google）」是网络世界中的第一个霸权，它可以控制数据和知识的流通，影响人类的所见所闻乃至精神世界的每个方面；它握有大量个人隐私信息，并且具有无可撼动的垄断地位；它在许多场合起到的已经是近乎可以类比于公权力的作用。而另一方面，它只是一家私有公司，没有任何方式可以从外部对它合法的控制力进行监督和制约。它当然也许确实会始终尽量不干预搜索排名，小心翼翼地维护互联网的自由和公正，但这只是它自己的道义承诺而已，而我们甚至想不出什么办法来验证这一点。
木遥的整篇文字非常中肯，但若单独摘引这一段，则是典型的“断章取义”。同一段文字，放在木遥的全文里看与单独看此段，差不多会造成两种理解，作语义的同学想必对此有深刻体会，这就是 Context（上下文）的作用。
在 Personalization 方面，亦是如此 —— Context 非常重要！
 春节前，kuber 在 Resys Group 里发起了一个讨论，“基于SNS/Lifestream的推荐”，提到了 Google 近期的一些动作。其实长久以来，在个性化领域，Google 一直在下一盘很大的棋！看看他的布局吧。


Personalized new tab page
 这个是2009年1月 Google Toolbar 推出的一个 feature，当你打开 Firefox 时，不再只是看到一个空白 tab 页，Google 会根据你的浏览历史，为你定制一个个性化 tab，包含你最常用的一些站点或页面。这个已经是新一代浏览器的标配了。

Interested-based Ads
 传统的 Adsense 广告，是根据与网页内容的相关度进行展示的，与浏览者本身的兴趣无关。2009年3月 Google 推出了这种基于用户兴趣的广告，浏览者看到的不再仅是与内容相关的广告，而是与其本身兴趣相符的广告。至于用户兴趣哪里来的？抛开搜索记录不说，遍布互联网的 Analytics 和 Adsense 脚本本身，就能干不少事情了。

Personalized keyword-suggestions
 尽管这个搜索提示功能没少给谷歌找麻烦，但 Google 显然认为这个东东对用户是有益的，尤其是对登录之后的搜索用户。当用户登录了 Google 帐号，并启用了 Web History 功能之后，搜索提示会把你最近频繁使用的几个关键字显示给你，这对搜索到一半被打断回头又想继续的用户来说体验很好。当然了，谷歌用户自然是无缘使用的。

Google Reader by Personalized Ranking
 个性化的信息阅读，是用户长久以来的心声，久觅未果不少人甚至已经开始自己动手实现。2009年10月，Google [...]]]></description>
			<content:encoded><![CDATA[<p>Google 退出中国事件发生之后，来自<a href="http://blog.farmostwood.net/441.html" id="pla2" title="我们为什么信息 Google？">木遥</a>同学的一篇文字，让我不能同意更多！其中有这么一段，</p>
<blockquote><p>这个「国家（指 Google）」是网络世界中的第一个霸权，它可以控制数据和知识的流通，影响人类的所见所闻乃至精神世界的每个方面；它握有大量个人隐私信息，并且具有无可撼动的垄断地位；它在许多场合起到的已经是近乎可以类比于公权力的作用。而另一方面，它只是一家私有公司，没有任何方式可以从外部对它合法的控制力进行监督和制约。它当然也许确实会始终尽量不干预搜索排名，小心翼翼地维护互联网的自由和公正，但这只是它自己的道义承诺而已，而我们甚至想不出什么办法来验证这一点。</p></blockquote>
<p>木遥的整篇文字非常中肯，但若单独摘引这一段，则是典型的“断章取义”。同一段文字，放在木遥的全文里看与单独看此段，差不多会造成两种理解，作语义的同学想必对此有深刻体会，这就是 Context（上下文）的作用。</p>
<p><b>在 Personalization 方面，亦是如此 —— Context 非常重要！</b></p>
<p> 春节前，<a href="http://www.cnblogs.com/kuber" id="dak7" title="kuber">kuber</a> 在 <a href="http://groups.google.com.hk/group/resys/" id="bum2" title="Resys Group">Resys Group</a> 里发起了一个讨论，“<a href="http://groups.google.com.hk/group/resys/browse_thread/thread/59eb4cc3b0fe20f7#" id="al23" title="基于SNS/Lifestream的推荐">基于SNS/Lifestream的推荐</a>”，提到了 Google 近期的一些动作。其实长久以来，在个性化领域，Google 一直在下一盘很大的棋！看看他的布局吧。</p>
<p><img src="http://docs.google.com/File?id=ddjqwpms_590c6cg7ggb_b" style="float:right;height:240px;margin-left:1em;margin-right:0px;width:320px"></p>
<ol>
<li><a href="http://googleblog.blogspot.com/2009/01/google-toolbar-in-firefox-personalized.html" id="yq3z" title="Google Toolbar in Firefox: a personalized new tab page">Personalized new tab page</a><br />
 这个是2009年1月 Google Toolbar 推出的一个 feature，当你打开 Firefox 时，不再只是看到一个空白 tab 页，Google 会根据你的浏览历史，为你定制一个个性化 tab，包含你最常用的一些站点或页面。这个已经是新一代浏览器的标配了。</p>
</li>
<li><a href="http://googleblog.blogspot.com/2009/03/making-ads-more-interesting.html" id="cjc7" title="Making ads more interesting">Interested-based Ads</a><br />
 传统的 Adsense 广告，是根据与网页内容的相关度进行展示的，与浏览者本身的兴趣无关。2009年3月 Google 推出了这种基于用户兴趣的广告，浏览者看到的不再仅是与内容相关的广告，而是与其本身兴趣相符的广告。至于用户兴趣哪里来的？抛开搜索记录不说，遍布互联网的 Analytics 和 Adsense 脚本本身，就能干不少事情了。</p>
</li>
<li><a href="http://googleblog.blogspot.com/2009/05/faster-is-better-on-google-suggest.html" id="luua" title="Faster is better on Google Suggest">Personalized keyword-suggestions</a><br />
 尽管这个搜索提示功能没少给谷歌<a href="http://www.google.org.cn/posts/why-google-search-suggeest-shows-lots-of-porn-content.html" id="gtt:" title="转：为什么在 Google 搜索儿子，搜索建议会出现大量低俗内容">找麻烦</a>，但 Google 显然认为这个东东对用户是有益的，尤其是对登录之后的搜索用户。当用户登录了 Google 帐号，并启用了 Web History 功能之后，搜索提示会把你最近频繁使用的几个关键字显示给你，这对搜索到一半被打断回头又想继续的用户来说体验很好。当然了，<a href="http://www.google.org.cn/posts/google-china-music-using-windows-live-id-save-your-music-list.html" id="rddj" title="谷歌音乐杯具的可以用微软 Windows Live ID 账户登陆保存播放列表了">谷歌用户</a>自然是无缘使用的。</p>
</li>
<li><a href="http://googleblog.blogspot.com/2009/10/reading-gets-personal-with-popular.html" id="wrp2" title="Reading gets personal with Popular items and Personalized ranking">Google Reader by Personalized Ranking</a><br />
 个性化的信息阅读，是用户长久以来的心声，久觅未果不少人甚至已经开始自己<a href="http://www.guwendong.com/post/2009/greader_share.html" id="fja9" title="怎样利用 GReader Share 数据？">动手实现</a>。2009年10月，Google Reader 对在这方面的官方支持终于千呼万唤始出来。最吸引眼球的是新增的“Sort by magic”排序功能，它综合考虑用户的阅读历史，包括 Trends、Start、Share 以及 Like 等，将待阅读的内容进行个性化地排序。这对动辄 1000+ 未读条目的用户来讲，绝对是个福音，就我个人的使用体验来看，效果相当不错。</p>
</li>
<li><a href="http://glinden.blogspot.com/2009/10/google-ceo-on-personalized-news.html" id="rk3r" style="color:#551a8b" title="Google CEO on personalized news">Google News Personalization</a><br />
 2009年10月，Google CEO Eric Schmidt 在接受采访的时候说，“想像这样一个媒体：它知道你是谁，知道你喜欢什么，知道你看过哪些新闻，它能够评价你是否喜欢正在阅读的文章，还能够专门挑出你感兴趣的广告&#8230;”——科技是多么的伟大！但也有用户说了，“靠！这简直是阿鼻地狱啊，还是麻溜地不要再用 Google 服务了”，杯具啊！</p>
</li>
<li><a href="http://googleblog.blogspot.com/2009/12/personalized-search-for-everyone.html" id="y-lu" title="Personalized Search for everyone">Personalized Search</a><br />
 Google CEO&nbsp;<a href="http://www.techcrunch.com/2009/09/03/google-ceo-eric-schmidt-on-the-future-of-search-connect-it-straight-to-your-brain/" id="oo8x" title="Google CEO Eric Schmidt On The Future Of Search: “Connect It Straight To Your Brain”">Eric Schmidt</a>&nbsp;和<a href="http://www.daniweb.com/news/story220007.html" id="v-hf" style="color:#551a8b" title="Google's Mayer Predicts Personalization Is Key to Future Search">美女总裁</a>都说了，“搜索的未来要靠个性化”！目前，基于关键字的搜索，无疑已经成为帮助用户从信息海洋中寻找内容的重要手段，但互联网暴长的数据容量其实让 Google 也很头大。搜索引擎通过长期分析用户的搜索行为，可以感知用户的意图，从而在特定范围内完成搜索，有效地提高搜索效率，增强用户粘性。有关 Google 个性化搜索更详尽的资料，可以参考<a href="http://www.huomah.com/Search-Engines/Search-Engine-Optimization/The-SEO-guide-to-Google-personalized-search.html" id="s_3r" title="The SEO guide to Google personalized search">这里</a>，另外 Resys 里也有过一次热烈的<a href="http://groups.google.com.hk/group/resys/browse_thread/thread/9b8fdec17741cc26/21a2a8e9e0bec63e" id="x27o" title="多特征的推荐系统">讨论</a>。</p>
</li>
<li><a href="http://gmailblog.blogspot.com/2010/01/serving-better-ads-in-gmail.html" id="wl7l" title="Serving better ads in Gmail">Personalized Gmail Ads<br />
</a>从 Gmail 诞生的第一天，它就是贴着小广告的。这个事情之前差点犯了众怒，后来 Google 保证仅展示“Family-Safe”的广告，并<a href="http://mail.google.com/mail/help/intl/en_GB/more.html" id="h31-" title="More on Google Mail and privacy">许诺</a>说，“Ads and links to related pages <font class="Apple-style-span"><span class="Apple-style-span" style="background-color:#e06666">only</span></font> appear alongside the message that they are targeted to, and are&nbsp;<font class="Apple-style-span"><span class="Apple-style-span" style="background-color:#e06666">only</span></font> shown when the Google Mail user, whether sender or recipient, is viewing that particular message.”。现在，Google 在标红的“only”前面加入了一个“not”。<a href="http://www.guwendong.com/post/2008/privacy_and_personalization.html" id="i46j" title="隐私问题与个性化服务">隐私问题与个性化服务</a>的矛盾由来已久，这个事情我认为解决方案和 Google 退出中国的诉求是一致的，只要有法可依即可。关于 Gmail 里的广告，这里有一枚<a href="http://groups.google.com.hk/group/resys/browse_thread/thread/c7c223e79eb06afd" id="oj1g" title="杯具">杯具</a>，欢迎围观。</p>
</li>
<li><a href="http://googleblog.blogspot.com/2010/02/introducing-google-buzz.html" id="xm4l" title="Google Buzz">Google Buzz</a><br />
 Buzz 在这事儿上毫不含糊，直接就说了，“Buzz recommends interesting posts and weeds out ones you&#8217;re likely to skip.”。为了验证 Google 的这个说法，我正在戒推进行中，全力使用 Buzz，看它能不能给我带来什么惊喜。就目前的体验来讲，我基本上是可耻的失败鸟。</p>
</li>
<li><a href="http://googleblog.blogspot.com/2009/11/google-friend-connect-now-more.html" id="b58y" title="Google Friend Connect, now more personalized">Google Friend Connect</a><br />
 Boss 总是最后出场！但人生就像一个茶几，你永远不知道下一个被放上来的是哪枚杯具。Facebook 新近发布的&nbsp;<a href="http://blog.facebook.com/blog.php?post=383404517130" id="brbi" title="Building the Social Web Together">Open Graph</a>，有很大机会把擅长把别人搞成杯具的 Google 搞成彻头彻尾的杯具帝，让我们拭目以待吧！
</li>
</ol>
<p>
<img src="http://docs.google.com/File?id=ddjqwpms_587c9wcw9dj_b" style="height:443px;width:600px"><br />
 图片<a href="http://www.huomah.com/Search-Engines/Search-Engine-Optimization/The-SEO-guide-to-Google-personalized-search.html" id="sak1" title="The SEO guide to Google personalized search">来源</a></p>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2010.<br/>
本文网址：<a href="http://www.guwendong.com/post/2010/google_matrix.html">http://www.guwendong.com/post/2010/google_matrix.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/google" rel="tag">google</a>, <a href="http://www.guwendong.com/post/tag/personalization" rel="tag">personalization</a>, <a href="http://www.guwendong.com/post/tag/privacy" rel="tag">privacy</a> | <a href="http://www.guwendong.com/post/2010/google_matrix.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2010/google_matrix.html/feed</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
		<item>
		<title>怎样利用 GReader Share 数据？</title>
		<link>http://www.guwendong.com/post/2009/greader_share.html</link>
		<comments>http://www.guwendong.com/post/2009/greader_share.html#comments</comments>
		<pubDate>Thu, 08 Oct 2009 12:12:05 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[推荐系统]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[greader]]></category>
		<category><![CDATA[resys]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2009/greader_share.html</guid>
		<description><![CDATA[
这篇文章试图讨论一下郑昀在《基于Google Reader发展起来的个性化推荐系统之三大问题》一文中提出的一些问题。提请注意，我这里的观点是基于 GReader Share 数据限定之下的。
一、火星人现象
郑昀认为主要原因是：“推荐系统无法获知用户以前的知识结构”。

这是问题一：从根子上就无法完整反映用户的阅读经历。
这是问题二：如此大量的阅读视野狭窄的用户，推荐系统能否发挥作用呢？


对于问题一，解决办法我觉得只有两个。



尽可能多的扩展公开的数据源。比如，看我在 twitter 上推过哪些短址；看我在 delicious 上收藏了哪些链接；看我在 douban 上分享了哪些内容。GReader 的用户差不多都是网络的重度使用者，这方面可用的来源肯定不少。比如我，如果你订阅了我的 FriendFeed，那么我一天在看什么，你就差不多能知道一个大概了。

需要时间来积累。

这个问题，没有捷径。
对于问题二，其实之前在 kuber 做 feedzshare 的时候，我就和他讨论过。当时说了要写一篇 blog 的，后来由于我太懒就作罢了。我个人意见，GReader Share 的数据不适合做推荐，应该拿来做过滤器。这个后面展开。
二、有时效性和无时效性
大多数情况下，这个世界并不是非黑即白的。
对于时效性，我个人觉得别把它作为一个太过绝对的概念，它是和人相关的，应该作为一个相对的概念来理解。对于新近才接触某个领域的人来讲，翻翻老皇历也是有必要的。比如你看了我之前这篇的唠叨，对汪峰起了兴趣，那挖出他在鲍家街的老八卦看看也挺有意思，这些信息是新鲜的。而对于同样的内容，给我看就没什么意思了，它们out了。
因此，除了像刘未鹏所指出的“将文章分为有时效性（如新闻时政类）和无时效性（如读书笔记、GTD方法等）”这个方法，我觉得还可以从用户这个角度做一些事情。简要来讲，第一，划分用户关注的领域，这个基本是文本分类的问题，方法有不少，但大规模做起来很难，当然也并没有难到不可解决；第二，让用户方便地在时间线上游动，这个需要考虑呈现方式，给个带时间的列表是一种，高级点的像下面这个。





三、惊喜很难吗？
我的回答是：确实很难！非常之难！
对于推荐系统的制作者，如果能让用户发出像 @imrchen 这样的感慨，那将是对其工作的最高程度的肯定。
@imrchen: 太神奇了，Amazon 竟然向我推薦 Python 書籍，我從來不曾在亞馬遜買過程式設計的書籍，最近買的和技術有關的書是 Beautiful Data，和 Python 完全搭不上邊。他們怎麼知道我最近在用 Python 開發東西，這樣的推薦未免也太神了吧！？

一个好的推荐系统制作者，需要钻研数据，精修算法，勤于思考，同时最重要的，要有一颗真正愿意帮助用户解决问题的心。

GReader Share 的数据更适合做过滤器
郑昀的文章里面，把 GReader Share 数据所存在的问题已经讲得很清楚了：基于 Google
Reader 的第三方推荐系统，能够拿到的数据是严重不足的。
你无法知道用户有意忽略了哪些文章，你很难拿到他的好友列表，Google不像
FriendFeed那样提供Dislike/Hide的按钮；你只知道他何时Share或like了某篇文章从何处（值得注意的一个细节是，如果用户是
自己订阅了煎蛋并推荐其中一篇文章，显然煎蛋对用户来说更加重要；相比而言，用户只是从其他人的Shared
Items订阅中share了煎蛋的某篇文章，却不去订阅煎蛋，说明煎蛋对他来说可能还不算重要。这个细节有点像“quick
stumbles”的思路）。


在这样的情况下，有效的方法就是最大化已有数据的能量，解决 GReader 本身尚未解决的一个重要问题：如何对阅读列表进行有效的组织。
1、计算 FollowRank
我曾经在 twitter 上感谢过 @imrchen，因为我发现，我好友的 Share List 里面，让我有精读冲动的，好多都是他 Share 出来的。@imrchen 的例子是我自己人肉过滤出来的，其实这个计算是可以自动化的——协同过滤里所有的 User-based 使用的相似度计算方法这里都适用。然后，根据相似度，我们取 Top50 [...]]]></description>
			<content:encoded><![CDATA[<div>
<div>这篇文章试图讨论一下郑昀在《<a title="基于Google Reader发展起来的个性化推荐系统之三大问题" href="http://www.cnblogs.com/zhengyun_ustc/archive/2009/10/04/gr_re.html">基于Google Reader发展起来的个性化推荐系统之三大问题</a>》一文中提出的一些问题。提请注意，我这里的观点是基于 GReader Share 数据限定之下的。</p>
<p><b>一、火星人现象</b><br />
郑昀认为主要原因是：“推荐系统无法获知用户以前的知识结构”。</p>
<ol>
<li>这是问题一：从根子上就无法完整反映用户的阅读经历。</li>
<li>这是问题二：如此大量的阅读视野狭窄的用户，推荐系统能否发挥作用呢？</li>
</ol>
<p>
对于问题一，解决办法我觉得只有两个。
</div>
<div>
<ol>
<li>尽可能多的扩展公开的数据源。比如，看我在 twitter 上推过哪些短址；看我在 delicious 上收藏了哪些链接；看我在 douban 上分享了哪些内容。GReader 的用户差不多都是网络的重度使用者，这方面可用的来源肯定不少。比如我，如果你订阅了我的 FriendFeed，那么我一天在看什么，你就差不多能知道一个大概了。
</li>
<li>需要时间来积累。</li>
</ol>
<p>这个问题，没有捷径。</p>
<p>对于问题二，其实之前在 <a title="kuber" href="http://www.cnblogs.com/kuber/">kuber</a> 做 <a title="feedzshare" href="http://www.feedzshare.com/">feedzshare</a> 的时候，我就和他讨论过。当时说了要写一篇 blog 的，后来由于我太懒就作罢了。我个人意见，GReader Share 的数据不适合做推荐，应该拿来做过滤器。这个后面展开。</p>
<p><b>二、有时效性和无时效性</b><br />
大多数情况下，这个世界并不是非黑即白的。<br />
对于时效性，我个人觉得别把它作为一个太过绝对的概念，它是和人相关的，应该作为一个相对的概念来理解。对于新近才接触某个领域的人来讲，翻翻老皇历也是有必要的。比如你看了我之前<a title="信仰在空中飘摇" href="http://www.guwendong.com/post/2009/my_30_years.html">这篇</a>的唠叨，对汪峰起了兴趣，那挖出他在鲍家街的老八卦看看也挺有意思，这些信息是新鲜的。而对于同样的内容，给我看就没什么意思了，它们out了。</p>
<p>因此，除了像<a title="刘未鹏" href="http://mindhacks.cn/">刘未鹏</a>所指出的“将文章分为有时效性（如新闻时政类）和无时效性（如读书笔记、GTD方法等）”这个方法，我觉得还可以从用户这个角度做一些事情。简要来讲，第一，划分用户关注的领域，这个基本是文本分类的问题，方法有不少，但大规模做起来很难，当然也并没有难到不可解决；第二，让用户方便地在时间线上游动，这个需要考虑呈现方式，给个带时间的列表是一种，高级点的像<a title="Distric9 @ TrendingTopics" href="http://www.trendingtopics.org/page/District_9">下面这个</a>。</p>
<div style="text-align:left">
<div style="text-align:left"><img style="width:636px;height:297px" src="http://docs.google.com/File?id=ddjqwpms_510gmrwt6c5_b"></div>
<p>
</div>
</div>
<p><b>三、惊喜很难吗？<br />
</b>我的回答是：确实很难！非常之难！<br />
对于推荐系统的制作者，如果能让用户发出像 <a title="@imrchen" href="http://twitter.com/imrchen">@imrchen</a> 这样的感慨，那将是对其工作的最高程度的肯定。</p>
<blockquote><p>@imrchen: 太神奇了，Amazon 竟然向我推薦 Python 書籍，我從來不曾在亞馬遜買過程式設計的書籍，最近買的和技術有關的書是 <b>Beautiful</b> <b>Data</b>，和 Python 完全搭不上邊。他們怎麼知道我最近在用 Python 開發東西，這樣的推薦未免也太神了吧！？
</p></blockquote>
<p>一个好的推荐系统制作者，需要钻研数据，精修算法，勤于思考，同时最重要的，要有一颗真正愿意帮助用户解决问题的心。</p>
<p>
<b>GReader Share 的数据更适合做过滤器</b></p>
<p>郑昀的文章里面，把 GReader Share 数据所存在的问题已经讲得很清楚了：基于 Google<br />
Reader 的第三方推荐系统，能够拿到的数据是严重不足的。</p>
<blockquote><p>你无法知道用户有意忽略了哪些文章，你很难拿到他的好友列表，Google不像<br />
FriendFeed那样提供Dislike/Hide的按钮；你只知道他何时Share或like了某篇文章从何处（值得注意的一个细节是，如果用户是<br />
自己订阅了煎蛋并推荐其中一篇文章，显然煎蛋对用户来说更加重要；相比而言，用户只是从其他人的Shared<br />
Items订阅中share了煎蛋的某篇文章，却不去订阅煎蛋，说明煎蛋对他来说可能还不算重要。这个细节有点像“quick<br />
stumbles”的思路）。
</p></blockquote>
</div>
<div>在这样的情况下，有效的方法就是最大化已有数据的能量，解决 GReader 本身尚未解决的一个重要问题：如何对阅读列表进行有效的组织。</p>
<p><b>1、计算 FollowRank<br />
</b>我曾经在 twitter 上感谢过 <a title="@imrchen" href="http://twitter.com/imrchen">@imrchen</a>，因为我发现，我好友的 Share List 里面，让我有精读冲动的，好多都是他 Share 出来的。@imrchen 的例子是我自己人肉过滤出来的，其实这个计算是可以自动化的——协同过滤里所有的 <a title="User-based" href="http://www.guwendong.com/post/2006/user_based_collaborative_filtering.html">User-based</a> 使用的相似度计算方法这里都适用。然后，根据相似度，我们取 Top50 作为我们的推荐种子，可以得到一个推荐列表。kuber 和 xlvector 应该都是这么做的，这也是最标准的 User-based 方法。</p>
<p>但，对于 GReader Share 数据，我建议再多考虑考虑。</p>
<p>这里面有个典型的例子，应该有好些人都订阅了 <a title="keso&#39;s view" href="http://www.google.com/reader/shared/user/09166964415516033892/label/kesolog">keso&#8217;s view</a>，然后看到好文章就从这个列表里面进行 ReShare。对于这里面的活跃用户A，如果你用 A 的 Share List 和 keso 进行计算的话，有可能就会因为相似度很高，把 A 加入到了给 keso 进行推荐的种子用户里面。这显然是存在问题的。GReader Share 的产品设计，加重了单向 Follow 的因素，因此在种子用户的选择上，必须对传统 User-based 方法进行修正。</p>
<p>GReader 目前尚未提供相应的 API 获取用户的 Follow 数据，另外似乎也没有提供 Share 的时间让我们可以排排序，因此，要得到 ReShare 线路图应该是不太可能的。我这里提供一个变通的思路供讨论。<br />
假设从用户A的 Share List 出发，查找和 A 共同 Share 了某篇文章的用户，可以得到一个候选用户集 ASet。然后设计一个公式，对隶属于 ASet 的用户B，综合考虑下面几个因素。</p>
<ol>
<li>BShare 包含的来源数目。</li>
<li>只有 B 单独 Share 的文章数量。</li>
<li>有 B 参与 Share 的文章，统计总 Like 数和 Share 数。</li>
<li>AShare 与 BShare 交集数量 / AShare 数量。</li>
<li>第4项得分超过某阙值的周期数。
</li>
</ol>
<p>
我把依此计算的结果，定义为用户A对用户B的 FollowRank。</p>
<p>剩下的就简单了，取 FollowRank 的 Top50 作为种子，得到候选集，阙值过滤，排排序，搞掂。</p>
<p><b>2、区分最新/最热的与我最感兴趣的</b><br />
时常可以看到关注于解决信息过载问题的探讨，我个人认为，万里长征第一步，就是把用户感兴趣的摘出来，其他的按最新/最热排序。对于 GReader Share，做到此足以。</p>
<p>分析用户的兴趣，前面讲到了可以使用文本分类的办法。简单的还有基于 tag 的办法，不过第三方应该是无法获取 GReader 用户的 tag 数据的，此路不通；但可以绕，比如从 delicious 上提取 url 对应的 tags；然而对于中文内容，delicious 能够提供的帮助相当有限。因此，这里我建议可以考虑使用类似于内容基因的办法，说白了就是基于关键字的方法。我曾经在一些豆瓣影评数据上实验过抽取电影基因，得到的关键字组合还是挺靠谱的。我相信类似的算法用在 GReader Share 上效果应该也不会差，因为 GReader Share 数据集的文章质量应该还是比较好的。</p>
<p>
目前在 GReader Share 数据的再利用方面，最领先的无疑是 <a title="玩聚SR" href="http://sr.ju690.com/">玩聚SR</a>，但它解决的是<a title="社会化排序的问题" href="http://sr.ju690.com/about">社会化排序的问题</a>，是非个性化的。总体来讲，GReader 在个性化方向上能够提高的地方还有很多。像郑昀、kuber、<a href="http://xlvector.cn/">xlvector</a> 这样对此感兴趣的第三方开发者不妨加紧实践，没准哪天就<a title="Google CEO sees one small acquisition a month" href="http://www.reuters.com/article/internetNews/idUSTRE58M4LV20090923">被 Google 收编</a>了。</p>
<p>有兴趣进行讨论的，移步<a title="Resys Group" href="https://groups.google.com/group/resys/t/3a5e1b3f2aefe916">这里</a>。
</div>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2009.<br/>
本文网址：<a href="http://www.guwendong.com/post/2009/greader_share.html">http://www.guwendong.com/post/2009/greader_share.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/google" rel="tag">google</a>, <a href="http://www.guwendong.com/post/tag/greader" rel="tag">greader</a>, <a href="http://www.guwendong.com/post/tag/resys" rel="tag">resys</a> | <a href="http://www.guwendong.com/post/2009/greader_share.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2009/greader_share.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>求助</title>
		<link>http://www.guwendong.com/post/2008/help_for_google_ngram.html</link>
		<comments>http://www.guwendong.com/post/2008/help_for_google_ngram.html#comments</comments>
		<pubDate>Wed, 19 Nov 2008 10:31:38 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[技术研究]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[ir]]></category>
		<category><![CDATA[search]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2008/help_for_google_ngram.html</guid>
		<description><![CDATA[第一次通过 blog 求助，希望好心的朋友帮忙！
Google 开放出来的英文 ngram 数据，对我的工作很有帮助。但我通过一些途径联系 LDC 购买，始终得不到回复。阅读我 blog 的朋友，如果有能提供帮助的，烦请联系我，谢谢！
另外，Google Alert  的结果提供了 Feed 输出的方式，可以直接在 Google Reader 里面订阅，非常好用。 

© guwendong for Beyond Search, 2008.
本文网址：http://www.guwendong.com/post/2008/help_for_google_ngram.html
tags: google, ir, search &#124; 参与讨论
]]></description>
			<content:encoded><![CDATA[<p>第一次通过 blog 求助，希望好心的朋友帮忙！</p>
<p>Google 开放出来的英文 <a href="http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13">ngram 数据</a>，对我的工作很有帮助。但我通过一些途径联系 LDC 购买，始终得不到回复。阅读我 blog 的朋友，如果有能提供帮助的，烦请联系我，谢谢！</p>
<p>另外，<a href="http://www.google.com/alerts">Google Alert</a>  的结果提供了 Feed 输出的方式，可以直接在 Google Reader 里面订阅，非常好用。<br /> </p>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2008.<br/>
本文网址：<a href="http://www.guwendong.com/post/2008/help_for_google_ngram.html">http://www.guwendong.com/post/2008/help_for_google_ngram.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/google" rel="tag">google</a>, <a href="http://www.guwendong.com/post/tag/ir" rel="tag">ir</a>, <a href="http://www.guwendong.com/post/tag/search" rel="tag">search</a> | <a href="http://www.guwendong.com/post/2008/help_for_google_ngram.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2008/help_for_google_ngram.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Google Suggest and Adwords</title>
		<link>http://www.guwendong.com/post/2008/gsuggest_adwords.html</link>
		<comments>http://www.guwendong.com/post/2008/gsuggest_adwords.html#comments</comments>
		<pubDate>Tue, 18 Nov 2008 13:48:00 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[技术研究]]></category>
		<category><![CDATA[ad]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[search]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2008/gsuggest_adwords.html</guid>
		<description><![CDATA[Google Suggest 上线已经有一段儿时间了，不知道大家注意到没有。当然我说的是 google.com，不是谷歌。它刚上线的时候，我有一个揣测，“Google 会不会把 Adwords 里比较值钱的词优先 suggest 出来”？抱着这个疑问我关注了一段儿时间的相关文章，结果发现似乎没什么人讨论这个问题。而我个人又没有渠道到 Adwords 系统里面作实验，也就不了了之了。
 直到上周，我发现了一篇有意思的文章，&#39;Google Suggest&#39; Could Trump Expensive Keywords – For Now，看来和我一样喜欢瞎琢磨的人还是有的，哈哈。
 这篇文章的作者做了实际的实验。
 以“virtualization”关键字为例，使用 googe 提供的 keywords tool，限制最高 CPC 最高价为 $5.00，找到的关键字如下图所示。图中列出的是最贵的前 5 个，据作者讲，google keywords tool 找到的前 50 个关键字，CPC 价格全部在 $2 到 $3 之间。这个价格应该算是相当昂贵了。 
 接下来，有意思的事情来了。
 作者在 google.com 上输入“virtualization”，google suggest 给出的建议关键字如下图所示。经研究发现，第 2 位，第 4 位，第 8 位，和第 10 [...]]]></description>
			<content:encoded><![CDATA[<p><a href="http://labs.google.com/suggestfaq.html" title="Google Suggest">Google Suggest</a> 上线已经有一段儿时间了，不知道大家注意到没有。当然我说的是 google.com，不是谷歌。它刚上线的时候，我有一个揣测，“Google 会不会把 Adwords 里比较值钱的词优先 suggest 出来”？抱着这个疑问我关注了一段儿时间的相关文章，结果发现似乎没什么人讨论这个问题。而我个人又没有渠道到 Adwords 系统里面作实验，也就不了了之了。</p>
<p> 直到上周，我发现了一篇有意思的文章，<a href="http://www.internetevolution.com/author.asp?section_id=654&amp;doc_id=167749&amp;" title="&#39;Google Suggest&#39; Could Trump Expensive Keywords – For Now">&#39;Google Suggest&#39; Could Trump Expensive Keywords – For Now</a>，看来和我一样喜欢瞎琢磨的人还是有的，哈哈。</p>
<p> 这篇文章的作者做了实际的实验。</p>
<p> 以“virtualization”关键字为例，使用 googe 提供的 keywords tool，限制最高 CPC 最高价为 $5.00，找到的关键字如下图所示。图中列出的是最贵的前 5 个，据作者讲，google keywords tool 找到的前 50 个关键字，CPC 价格全部在 $2 到 $3 之间。这个价格应该算是相当昂贵了。<br /> <a href="http://picasaweb.google.com/lh/photo/VDy-55CArTaEd0-jEAb0hg"><img src="http://lh4.ggpht.com/_I2N7CunOzSo/SSFrh0BTL-I/AAAAAAAAALI/bKzBT70jMXc/s400/google_suggest02.jpg"></a></p>
<p> 接下来，有意思的事情来了。</p>
<p> 作者在 google.com 上输入“virtualization”，google suggest 给出的建议关键字如下图所示。经研究发现，第 2 位，第 4 位，第 8 位，和第 10 位的四个关健字，<br /> 
<ul>
<li>Virtualization for Dummies</li>
<li>Virtualization technology support</li>
<li>Virtualization benefits</li>
<li>Virtualization definition</li>
</ul>
<p> 在 Adwords 里面的 CPC 价格仅有 $0.05！<br /> 貌似价格比较高的关键字里面，只有“virtualization server”被 suggest 出来。<br /> <a href="http://picasaweb.google.com/lh/photo/D6EgLV66Biu7HtUAy8Y1Mw"><img src="http://lh4.ggpht.com/_I2N7CunOzSo/SSFrhgTU3GI/AAAAAAAAALA/kqDVwWetvtY/s400/google_suggest01.jpg"></a> </p>
<p> 看起来在这件事情上，google 不作恶的信条保持得还蛮不错。比百度整的<a href="http://news.cctv.com/society/20081116/102027.shtml" title="央视曝光百度竞价排名积弊">恶心事儿</a>要强。</p>
<p> 这个发现可以为 SEO 带来不小的市场机会！显而易见，google suggest 列表里面的关键字，被选中进行搜索的机会要比一般的关键字大得多。找出那些便宜的，买下它们，这是个好买卖。行动吧。</p>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2008.<br/>
本文网址：<a href="http://www.guwendong.com/post/2008/gsuggest_adwords.html">http://www.guwendong.com/post/2008/gsuggest_adwords.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/ad" rel="tag">ad</a>, <a href="http://www.guwendong.com/post/tag/google" rel="tag">google</a>, <a href="http://www.guwendong.com/post/tag/search" rel="tag">search</a> | <a href="http://www.guwendong.com/post/2008/gsuggest_adwords.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2008/gsuggest_adwords.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Google 评价 blog 的指标</title>
		<link>http://www.guwendong.com/post/2008/google_blog_rank.html</link>
		<comments>http://www.guwendong.com/post/2008/google_blog_rank.html#comments</comments>
		<pubDate>Tue, 19 Aug 2008 16:47:32 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[技术研究]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[rank]]></category>
		<category><![CDATA[search]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2008/google_blog_rank.html</guid>
		<description><![CDATA[读了一下 Google 关于 Blog Ranking 的 Patent，总结如下。
正面的指标：

[0038] 订阅数统计 blog 在各种 reader 中被订阅的数量。被订阅的越多，ranking 越高。但同时会使用一些方法处理“subscriptions spam”，诸如验证订制人和 IP 的唯一性。
[0039] 搜索点击数统计 blog 作为搜索结果时被点击的次数。点击次数越多，ranking 越高。
[0040] 在其他 blogger 的 blogroll 里的出现次数blogger 通常会使用 blogroll 来整理指到其他 blogger 的链接集合。统计所有 blogroll 中，指向某个 blog 的链接越多，ranking 越高。
[0041] 来自高质量的 blogroll 的链接数高质量的 blogroll 的链接大多都指向著名的或值得信任的 blog。
[0042] 来自高质量的 blog 的 blogroll 的链接数这里的假定是著名的或值得信任的 blogger 不会放指向 spam blog 的链接。
[0043] 有Tagblog 作者如果分析了 blog 内容，归类并打上了 [...]]]></description>
			<content:encoded><![CDATA[<p>读了一下 Google 关于 Blog Ranking 的 <a href="http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&amp;Sect2=HITOFF&amp;d=PG01&amp;p=1&amp;u=%2Fnetahtml%2FPTO%2Fsrchnum.html&amp;r=1&amp;f=G&amp;l=50&amp;s1=%2220070061297%22.PGNR.&amp;OS=DN/20070061297&amp;RS=DN/20070061297" rel="nofollow" title="Patent">Patent</a>，总结如下。</p>
<p>正面的指标：
<ol>
<li><b>[0038] 订阅数</b><br />统计 blog 在各种 reader 中被订阅的数量。被订阅的越多，ranking 越高。但同时会使用一些方法处理“subscriptions spam”，诸如验证订制人和 IP 的唯一性。</li>
<li><b>[0039] 搜索点击数</b><br />统计 blog 作为搜索结果时被点击的次数。点击次数越多，ranking 越高。</li>
<li><b>[0040] 在其他 blogger 的 blogroll 里的出现次数</b><br />blogger 通常会使用 blogroll 来整理指到其他 blogger 的链接集合。统计所有 blogroll 中，指向某个 blog 的链接越多，ranking 越高。</li>
<li><b>[0041] 来自高质量的 blogroll 的链接数</b><br />高质量的 blogroll 的链接大多都指向著名的或值得信任的 blog。</li>
<li><b>[0042] 来自高质量的 blog 的 blogroll 的链接数</b><br />这里的假定是著名的或值得信任的 blogger 不会放指向 spam blog 的链接。</li>
<li><b>[0043] 有Tag</b><br />blog 作者如果分析了 blog 内容，归类并打上了 tag，起码可以说明作者的态度比较认真。</li>
<li><b>[0044] 来自邮件和聊天记录的链接数</b><br />如果在 Email 正文里或者聊天记录里出现了指向 blog 的链接，会加分。GEmail 和 Gtalk 被用在了这里。</li>
<li><b>[0045] PageRank</b><br />PageRank 越高对应的 blog 也就越重要。考虑到blog的更新比较频繁，最新的 blog post 可能还没有PR。这时可以用对应的 blog 的 PR 来代替。</li>
</ol>
<p>其中 [0040-0042]，其实是类似于传统网页间 PageRank 计算的一套模式，只不过这里把它限制在了 blog 之间。</p>
<p>负面的指标：
<ol>
<li><b>[0047] 更新频率异常</b><br />更新过于频繁或者非常有规律，会被认为是在 spam，ranking 会降低。这里提醒喜欢在每天的固定时间更新 blog 的朋友注意一下了。<b><br /></b></li>
<li><b>[0048] feed 内容和 blog 内容的不一致</b><br />spammer 有可能会为了提升自己的 ranking 而把有价值的内容放到 feed 里面，同时在 blog 内容里面放一些指向不相关内容的广告链接。为了惩罚这种情况，对于 feed 内容和 blog 内容不一致的情况，要降低 ranking。</li>
<li><b>[0049] 出现重复内容</b><br />有些 spammer 为了让某些内容能够多次长时间的出现在 feed 里面，会重复发布同样的内容。这样的情况会被惩罚。</li>
<li><b>[0050] 垃圾词过多</b><br />通过词频统计（bi-gram 或者 tri-gram 等），如果 blog 内容里垃圾词的比较过高，会降低 ranking。</li>
<li><b>[0051] 多数 blog 长度相近</b><br />这个主要是针对使用机器自动生成 blog 的情况。</li>
<li><b>[0052] 链接异常</b><br />当 blog 里的链接多为指向单一网页，或者单一的外站，会被认为是在 spam，ranking 会降低。</li>
<li><b>[0053] 广告太多</b><br />如果一个 blog 页面内含有过多的广告，会降低 ranking。</li>
<li><b>[0054] 广告出现在正文里<br /></b>一般 blog 页面会包括三方面的内容：最近发表的 blog，blogroll 和 metadata。如果广告出现在正文里，会降低 ranking。不知道 adsense 的广告有没有特殊待遇？</li>
</ol>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2008.<br/>
本文网址：<a href="http://www.guwendong.com/post/2008/google_blog_rank.html">http://www.guwendong.com/post/2008/google_blog_rank.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/google" rel="tag">google</a>, <a href="http://www.guwendong.com/post/tag/rank" rel="tag">rank</a>, <a href="http://www.guwendong.com/post/tag/search" rel="tag">search</a> | <a href="http://www.guwendong.com/post/2008/google_blog_rank.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2008/google_blog_rank.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Are Machine-Learned Models Prone to Catastrophic Errors?</title>
		<link>http://www.guwendong.com/post/2008/peter_norvig_on_machine_learning.html</link>
		<comments>http://www.guwendong.com/post/2008/peter_norvig_on_machine_learning.html#comments</comments>
		<pubDate>Mon, 02 Jun 2008 19:29:02 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[技术研究]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[ml]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2008/peter_norvig_on_machine_learning.html</guid>
		<description><![CDATA[最近忙，paper 看得多，blog 看得少，险些错过一些非常有意思的文章。上一次提到的 &#34;Introduction to Google Search Quality&#34; 算一篇，这次要说的是另外一篇 &#34;Are Machine-Learned Models Prone to Catastrophic Errors?&#34;。            不过这两个 blog 都被我们伟大的 GFW 拌掉了。
 Peter Norvig 这样的大师的意见，我们需要仔细体会。我整理一下我感兴趣的。 

tow phase of google search algorithms

An offline phase, which is time-consuming and query-independent.
An on-line phrase, in response to a user [...]]]></description>
			<content:encoded><![CDATA[<p>最近忙，paper 看得多，blog 看得少，险些错过一些非常有意思的文章。上一次提到的 &quot;<a href="http://googleblog.blogspot.com/2008/05/introduction-to-google-search-quality.html" title="Introduction to Google Search Quality">Introduction to Google Search Quality</a>&quot; 算一篇，这次要说的是另外一篇 &quot;<a href="http://anand.typepad.com/datawocky/2008/03/more-data-usual.html" title="Are Machine-Learned Models Prone to Catastrophic Errors?">Are Machine-Learned Models Prone to Catastrophic Errors?</a>&quot;。            不过这两个 blog 都被我们伟大的 GFW 拌掉了。</p>
<p> <a href="http://www.norvig.com/resume.html">Peter Norvig</a> 这样的大师的意见，我们需要仔细体会。我整理一下我感兴趣的。<br /> 
<ol>
<li>tow phase of google search algorithms
<ul>
<li>An offline phase, which is time-consuming and query-independent.</li>
<li>An on-line phrase, in response to a user query in a few milliseconds.</li>
</ul>
</li>
<li>Tons of training data &#8230; from <b>the armies of &quot;raters&quot;</b> employed by Google</li>
<li>The big surprise is that Google <b>still uses the manually-crafted formula</b> for its search results, <b>despite</b> the fact that, their <b>best machine-learned model</b> is now as good as, and sometimes <b>better than</b>, <b>the hand-tuned formula</b> on the results quality metrics that Google uses.</li>
<li>two reasons</li>
<div>
<ul>
<li>the human experts who created the algorithm believe they can do better than a machine-learned model</li>
<li>Google&#39;s search team worries that <b>machine-learned models</b> may be     <b>susceptible to catastrophic errors</b> on unforeseen query types, which is  different from the training data.</li>
</ul></div>
<li>Nassim Taleb divides <a href="http://en.wikipedia.org/wiki/Black_swan_theory" title="Black Swan">Black Swan</a> phenomena into two classes
<ul>
<li>Mediocristan</li>
<li>Extremistan</li>
</ul>
</li>
<li>The current generation of machine learning algorithms can work well in Mediocristan but not in Extremistan.</li>
</ol>
<p> So the thing is, how to figure out whether new machine learning algorithms can be devised that work well in Extremistan, or prove that it cannot be done? </p>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2008.<br/>
本文网址：<a href="http://www.guwendong.com/post/2008/peter_norvig_on_machine_learning.html">http://www.guwendong.com/post/2008/peter_norvig_on_machine_learning.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/google" rel="tag">google</a>, <a href="http://www.guwendong.com/post/tag/ml" rel="tag">ml</a> | <a href="http://www.guwendong.com/post/2008/peter_norvig_on_machine_learning.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2008/peter_norvig_on_machine_learning.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Google Search Quality 官方说明</title>
		<link>http://www.guwendong.com/post/2008/google_search_quality_1.html</link>
		<comments>http://www.guwendong.com/post/2008/google_search_quality_1.html#comments</comments>
		<pubDate>Sun, 01 Jun 2008 05:35:15 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[技术研究]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[rank]]></category>
		<category><![CDATA[search]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2008/google_search_quality_1.html</guid>
		<description><![CDATA[&#34;the ranking of Google search results&#34; 是 google 的命脉，因此很少能看到官方的说明。原因倒也无可厚非：&#34;competition and abuse&#34;，这两件事情确实哪一个都不容忽视！
 不过近日，google 负责搜索质量的 VP， Udi Manber，透露了一些有意思的资料，&#34;Introduction to Google Search Quality&#34;。对 search 感兴趣的千万不要错过！我列举一下我感兴趣的。 

more than one thousand programmer/scientist years have gone directly into their development (that is to say &#34;the ranking algorithms&#34;).
divided into some teams

The heart of the group is the team that works on core [...]]]></description>
			<content:encoded><![CDATA[<p>&quot;the ranking of Google search results&quot; 是 google 的命脉，因此很少能看到官方的说明。原因倒也无可厚非：&quot;competition and abuse&quot;，这两件事情确实哪一个都不容忽视！</p>
<p> 不过近日，google 负责搜索质量的 VP， <a href="http://manber.com/" title="Udi Manber">Udi Manber</a>，透露了一些有意思的资料，&quot;<a href="http://googleblog.blogspot.com/2008/05/introduction-to-google-search-quality.html" title="Introduction to Google Search Quality">Introduction to Google Search Quality</a>&quot;。对 search 感兴趣的千万不要错过！我列举一下我感兴趣的。<br /> 
<ol>
<li>more than <b>one thousand programmer/scientist years</b> have gone directly into their development (that is to say &quot;the ranking algorithms&quot;).</li>
<li>divided into some teams
<ul>
<li>The heart of the group is the team that works on core ranking</li>
<li>Another team in our group is responsible for evaluating how well we&#39;re doing</li>
<li>Another team is dedicated to new features and new user interfaces</li>
<li>There is a whole team that concentrates on fighting <a href="http://www.google.com/support/webmasters/bin/answer.py?hl=en&amp;answer=35769#quality" title="webspam and other types of abuse">webspam and other types of abuse</a></li>
<li>There are other teams devoted to particular projects</li>
</ul>
</li>
<li><a href="http://www.google.com/technology/" title="PageRank">PageRank</a> <a href="http://en.wikipedia.org/wiki/PageRank" title="PageRank @ Wiki">[1]</a> is still in use today, but it is now a part of a much larger system. &#8230; made significant changes to the PageRank algorithm in January, 2008. </li>
<li>some other parts
<ul>
<li>language models (the ability to handle phrases, synonyms, diacritics, spelling mistakes, and so on)</li>
<li>query models (it&#39;s not just the language, it&#39;s how people use it today)</li>
<li><b>time models</b> (some queries are best answered with a 30-minutes old page, and some are better answered with a page that stood the test of time)</li>
<li><b>personalized models</b> (not all people want the same thing).</li>
</ul>
</li>
<li>Google conducts evaluations typically in three manners, (1) automated evaluations <b>every minute</b>, (2) periodic evaluations of our overall quality and (3) evaluations of specific algorithmic improvements.</li>
<li>In 2007, &#8230; more than <b>450</b> new improvements, about <b>9 per week</b> on the average.</li>
<li>.. work on projects where the sole purpose is to simplify the algorithms. <b>Simple is good.</b></li>
</ol>
<p> <a href="http://manber.com/" title="Udi Manber">Udi Manber</a> 是我最景仰的几位科学家之一。&quot;Chief Algorithms Officer&quot;这个职位，就是 Amazon 专门为表彰他的贡献而首创出来的。</p>
<p> 推荐阅读：<br /> 
<ol>
<li><a href="http://www.popularmechanics.com/blogs/technology_news/4259137.html?nav=RSS2" title="20 (Rare) Questions for Google Search Guru Udi Manber">20 (Rare) Questions for Google Search Guru Udi Manber</a> </li>
<li><a href="http://searchengineland.com/070604-105606.php" title="Insight Into Google&#39;s Search Quality Efforts">Insight Into Google&#39;s Search Quality Efforts</a> </li>
</ol>
<p></p>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2008.<br/>
本文网址：<a href="http://www.guwendong.com/post/2008/google_search_quality_1.html">http://www.guwendong.com/post/2008/google_search_quality_1.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/google" rel="tag">google</a>, <a href="http://www.guwendong.com/post/tag/rank" rel="tag">rank</a>, <a href="http://www.guwendong.com/post/tag/search" rel="tag">search</a> | <a href="http://www.guwendong.com/post/2008/google_search_quality_1.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2008/google_search_quality_1.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Google 吴军：数学之美系列</title>
		<link>http://www.guwendong.com/post/2007/the_beautiful_math.html</link>
		<comments>http://www.guwendong.com/post/2007/the_beautiful_math.html#comments</comments>
		<pubDate>Thu, 16 Aug 2007 22:45:51 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[好文收藏]]></category>
		<category><![CDATA[algorithm]]></category>
		<category><![CDATA[google]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2007/the_beautiful_math.html</guid>
		<description><![CDATA[目前看来，谷歌给我带来的最大价值，就是研究员吴军的两个系列文章：《数学之美》和《浪潮之巅》。因此，我把这两个系列整理一下，保持更新。
来源：google china blog作者：吴军，http://www.cs.jhu.edu/~junwu/。
数学之美 一 统计语言模型数学之美 二 谈谈中文分词数学之美 三 隐含马尔可夫模型在语言处理中的应用数学之美 四 怎样度量信息?数学之美 五 简单之美：布尔代数和搜索引擎的索引数学之美 六 图论和网络爬虫 (Web Crawlers)数学之美 七 信息论在信息处理中的应用数学之美 八 贾里尼克的故事和现代语言处理数学之美 九 如何确定网页和查询的相关性数学之美 十 有限状态机和地址识别数学之美 十一 Google 阿卡 47 的制造者阿米特.辛格博士数学之美 十二 余弦定理和新闻的分类数学之美 十三 信息指纹及其应用数学之美 十四 谈谈数学模型的重要性数学之美 十五 繁与简 自然语言处理的几位精英数学之美 十六（上）不要把所有的鸡蛋放在一个篮子里 最大熵模型数学之美 十六（下）不要把所有的鸡蛋放在一个篮子里 最大熵模型数学之美 十七 闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)数学之美 十八 矩阵运算和文本处理中的分类问题数学之美 十九 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)数学之美 [...]]]></description>
			<content:encoded><![CDATA[<p>目前看来，谷歌给我带来的最大价值，就是研究员吴军的两个系列文章：《数学之美》和《浪潮之巅》。因此，我把这两个系列整理一下，保持更新。</p>
<p>来源：<a href="http://googlechinablog.com" title="google china blog">google china blog</a><br />作者：吴军，<a href="http://www.cs.jhu.edu/%7Ejunwu/" title="http://www.cs.jhu.edu/~junwu/">http://www.cs.jhu.edu/~junwu/</a>。</p>
<p><a href="http://googlechinablog.com/2006/04/blog-post.html">数学之美 一 统计语言模型</a><br /><a href="http://googlechinablog.com/2006/04/blog-post_10.html">数学之美 二 谈谈中文分词</a><br /><a href="http://googlechinablog.com/2006/04/blog-post_17.html">数学之美 三 隐含马尔可夫模型在语言处理中的应用</a><br /><a href="http://googlechinablog.com/2006/04/4.html">数学之美 四 怎样度量信息?</a><br /><a href="http://googlechinablog.com/2006/05/blog-post_10.html">数学之美 五 简单之美：布尔代数和搜索引擎的索引</a><br /><a href="http://googlechinablog.com/2006/05/web-crawlers.html">数学之美 六 图论和网络爬虫 (Web Crawlers)</a><br /><a href="http://googlechinablog.com/2006/05/blog-post_25.html">数学之美 七 信息论在信息处理中的应用</a><br /><a href="http://googlechinablog.com/2006/06/blog-post_08.html">数学之美 八 贾里尼克的故事和现代语言处理</a><br /><a href="http://googlechinablog.com/2006/06/blog-post_27.html" title="数学之美 九 如何确定网页和查询的相关性">数学之美 九 如何确定网页和查询的相关性</a><br /><a href="http://googlechinablog.com/2006/07/blog-post.html" title="数学之美 十 有限状态机和地址识别">数学之美 十 有限状态机和地址识别</a><br /><a href="http://googlechinablog.com/2006/07/google-47.html" title="数学之美 十一 Google 阿卡 47 的制造者阿米特.辛格博士">数学之美 十一 Google 阿卡 47 的制造者阿米特.辛格博士</a><br /><a href="http://googlechinablog.com/2006/07/12.html" title="数学之美 十二 余弦定理和新闻的分类">数学之美 十二 余弦定理和新闻的分类</a><br /><a href="http://googlechinablog.com/2006/08/blog-post.html" title="数学之美 十三 信息指纹及其应用">数学之美 十三 信息指纹及其应用</a><br /><a href="http://googlechinablog.com/2006/08/blog-post_09.html" title="数学之美 十四 谈谈数学模型的重要性">数学之美 十四 谈谈数学模型的重要性</a><br /><a href="http://googlechinablog.com/2006/08/blog-post_115634657041368311.html" title="数学之美 十五 繁与简 自然语言处理的几位精英">数学之美 十五 繁与简 自然语言处理的几位精英</a><br /><a href="http://googlechinablog.com/2006/10/blog-post.html" title="数学之美 十六（上）不要把所有的鸡蛋放在一个篮子里 最大熵模型">数学之美 十六（上）不要把所有的鸡蛋放在一个篮子里 最大熵模型</a><br /><a href="http://googlechinablog.com/2006/11/blog-post.html" title="数学之美 十六（下）不要把所有的鸡蛋放在一个篮子里 最大熵模型">数学之美 十六（下）不要把所有的鸡蛋放在一个篮子里 最大熵模型</a><br /><a href="http://googlechinablog.com/2006/11/search-engine-anti-spam.html" title="数学之美 十七 闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)">数学之美 十七 闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)</a><br /><a href="http://googlechinablog.com/2007/01/blog-post.html" title="数学之美 十八 矩阵运算和文本处理中的分类问题">数学之美 十八 矩阵运算和文本处理中的分类问题</a><br /><a href="http://googlechinablog.com/2007/01/bayesian-networks.html" title="数学之美 十九 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)">数学之美 十九 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)</a><br /><a href="http://googlechinablog.com/2007/04/blog-post_13.html" title="数学之美 二十 自然语言处理的教父 马库斯">数学之美 二十 自然语言处理的教父 马库斯</a><br /><a href="http://googlechinablog.com/2007/07/bloom-filter.html" title="数学之美 二十一 布隆过滤器（Bloom Filter）">数学之美 二十一 布隆过滤器（Bloom Filter）</a><br /><a href="http://googlechinablog.com/2007/09/blog-post_13.html" title="数学之美系列二十二 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理">数学之美 二十二  由电视剧《暗算》所想到的 — 谈谈密码学的数学原理</a></p>
<p>还有一点感谢谷歌，就是这个改自黑板报的主题。^_^</p>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2007.<br/>
本文网址：<a href="http://www.guwendong.com/post/2007/the_beautiful_math.html">http://www.guwendong.com/post/2007/the_beautiful_math.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/algorithm" rel="tag">algorithm</a>, <a href="http://www.guwendong.com/post/tag/google" rel="tag">google</a> | <a href="http://www.guwendong.com/post/2007/the_beautiful_math.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2007/the_beautiful_math.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Google要来了！那又如何！</title>
		<link>http://www.guwendong.com/post/2006/google_recsys_2006.html</link>
		<comments>http://www.guwendong.com/post/2006/google_recsys_2006.html#comments</comments>
		<pubDate>Mon, 23 Oct 2006 19:55:15 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[三言两语]]></category>
		<category><![CDATA[google]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2006/google_recsys_2006.html</guid>
		<description><![CDATA[在Google’的 Q3 2006 earnings call 中，Google CEO Eric Schmidt 用大量篇幅提到了“personalization“，并将”personalization of information”归入了Google的使命，另外，还提到了相关的一些计划。这引起了我的注意！
先对相关内容作简单的摘录:
We believe that people’s information and the information they want to receive … needs to be accessible when and where they want it for them in a very personalized way.
The interesting thing is that this approach to having your information personalized is a benefit [...]]]></description>
			<content:encoded><![CDATA[<p>在Google’的 <a href="http://internet.seekingalpha.com/article/18858">Q3 2006 earnings call</a> 中，Google CEO Eric Schmidt 用大量篇幅提到了“personalization“，并将”personalization of information”归入了Google的使命，另外，还提到了相关的一些计划。这引起了我的注意！</p>
<p>先对相关内容作简单的<a href="http://glinden.blogspot.com/2006/10/eric-schmidt-on-personalized.html">摘录</a>:</p>
<blockquote><p><em>We believe that people’s information and the information they want to receive … needs to be accessible when and where they want it for them in a very personalized way.</em></p>
<p>The interesting thing is that this approach to having your information personalized is a benefit not only for the user who can continue to refine and target information … but also for businesses who want to know they are spending their money in an effective and targeted way.</p>
<p>As we continue to innovate and bring out … new products, we’ll also continue to … improve the experiences, bringing the most personalized and targeted information to people, which is ultimately our mission.</p>
<p>[We] provide access to the world’s information … [and] organize it in a very personalized and targeted way. That benefit drives the entire cycle of Google, and it’s fundamental. </p>
</blockquote>
<p>联想到日前备受瞩目的“<a href="http://blogsearch.google.com/blogsearch?q=Kiko+calendar&amp;scoring=d">Kiko拍卖</a>”事件，不得不让人担心，正在围绕“Personalized”展开业务的那些轻量级创业公司，他们的前景究竟如何？</p>
<p><a href="http://paulgraham.infogami.com/blog">Paul Graham</a> 是Kiko的投资者之一。当Kiko刚开始在eBey上进行拍卖的时候，他<a href="http://paulgraham.infogami.com/blog/kiko">曾经表示</a>，Google Calendar的发布以及同GMail的完美结合，是导致Kiko失败的主要原因之一。他建议，新兴的创业公司应当从Kiko身上吸取教训，远离 Google的前进道路。那么，现在，当Google准备进军“Personalized”的时候，对于相关的这些公司，应该如何是好呢？</p>
<p>我个人倒是认为，在“Personalized”方面，Google一定不会是通吃的赢家！在《<a href="http://hi.baidu.com/wdgu/blog/item/4fa98302dc00930f4afb516c.html">垂直搜索 or 个性化推荐</a>》一文中，我也曾经提到，可以引入个性化技术的应用数不胜数，而且也不存在普遍适用的推荐算法，Google不可能也没有能力将其业务覆盖到所有这些方面。因此，只要选准一个方向，研究出最合适的推荐方法，那么，领先Google绝对是有可能的！</p>
<p>其实，就我个人来看，Google最擅长的，应该是开发Google员工在工作中使用的产品或服务。搜索自然不用讲了，其他的，例如，GMail， Google Calander，Google Reader，这些领域相关的服务商，我想基本上没有什么太多的机会了。但是其他的，例如，Youtube之于Google视频，Findory之于 Google News，我认为前者的胜算可能就比Google大。这是因为，Google员工应该很少会在工作中观看视频或者浏览新闻。况且，Google已经完完全 全地发展成为一个庞然大物型的公司，而这正是Google为数不多的弱点之一。因为通常情况下，随着公司规模的扩大，官僚主义作风也会随之加重，这会导致 其比较难接受新奇的事物。</p>
<p>因此，致力于“Personalized”的轻量级创业公司，我的结论是：选好方向，发挥创意，放心大胆地冲吧！</p>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2006.<br/>
本文网址：<a href="http://www.guwendong.com/post/2006/google_recsys_2006.html">http://www.guwendong.com/post/2006/google_recsys_2006.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/google" rel="tag">google</a> | <a href="http://www.guwendong.com/post/2006/google_recsys_2006.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2006/google_recsys_2006.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
