<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Beyond Search &#187; rank</title>
	<atom:link href="http://www.guwendong.com/post/tag/rank/feed" rel="self" type="application/rss+xml" />
	<link>http://www.guwendong.com</link>
	<description>最好走的路越走越难，最难走的路越走越容易</description>
	<lastBuildDate>Wed, 11 Aug 2010 16:43:41 +0000</lastBuildDate>
	
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>Google 评价 blog 的指标</title>
		<link>http://www.guwendong.com/post/2008/google_blog_rank.html</link>
		<comments>http://www.guwendong.com/post/2008/google_blog_rank.html#comments</comments>
		<pubDate>Tue, 19 Aug 2008 16:47:32 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[技术研究]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[rank]]></category>
		<category><![CDATA[search]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2008/google_blog_rank.html</guid>
		<description><![CDATA[读了一下 Google 关于 Blog Ranking 的 Patent，总结如下。
正面的指标：

[0038] 订阅数统计 blog 在各种 reader 中被订阅的数量。被订阅的越多，ranking 越高。但同时会使用一些方法处理“subscriptions spam”，诸如验证订制人和 IP 的唯一性。
[0039] 搜索点击数统计 blog 作为搜索结果时被点击的次数。点击次数越多，ranking 越高。
[0040] 在其他 blogger 的 blogroll 里的出现次数blogger 通常会使用 blogroll 来整理指到其他 blogger 的链接集合。统计所有 blogroll 中，指向某个 blog 的链接越多，ranking 越高。
[0041] 来自高质量的 blogroll 的链接数高质量的 blogroll 的链接大多都指向著名的或值得信任的 blog。
[0042] 来自高质量的 blog 的 blogroll 的链接数这里的假定是著名的或值得信任的 blogger 不会放指向 spam blog 的链接。
[0043] 有Tagblog 作者如果分析了 blog 内容，归类并打上了 [...]]]></description>
			<content:encoded><![CDATA[<p>读了一下 Google 关于 Blog Ranking 的 <a href="http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&amp;Sect2=HITOFF&amp;d=PG01&amp;p=1&amp;u=%2Fnetahtml%2FPTO%2Fsrchnum.html&amp;r=1&amp;f=G&amp;l=50&amp;s1=%2220070061297%22.PGNR.&amp;OS=DN/20070061297&amp;RS=DN/20070061297" rel="nofollow" title="Patent">Patent</a>，总结如下。</p>
<p>正面的指标：
<ol>
<li><b>[0038] 订阅数</b><br />统计 blog 在各种 reader 中被订阅的数量。被订阅的越多，ranking 越高。但同时会使用一些方法处理“subscriptions spam”，诸如验证订制人和 IP 的唯一性。</li>
<li><b>[0039] 搜索点击数</b><br />统计 blog 作为搜索结果时被点击的次数。点击次数越多，ranking 越高。</li>
<li><b>[0040] 在其他 blogger 的 blogroll 里的出现次数</b><br />blogger 通常会使用 blogroll 来整理指到其他 blogger 的链接集合。统计所有 blogroll 中，指向某个 blog 的链接越多，ranking 越高。</li>
<li><b>[0041] 来自高质量的 blogroll 的链接数</b><br />高质量的 blogroll 的链接大多都指向著名的或值得信任的 blog。</li>
<li><b>[0042] 来自高质量的 blog 的 blogroll 的链接数</b><br />这里的假定是著名的或值得信任的 blogger 不会放指向 spam blog 的链接。</li>
<li><b>[0043] 有Tag</b><br />blog 作者如果分析了 blog 内容，归类并打上了 tag，起码可以说明作者的态度比较认真。</li>
<li><b>[0044] 来自邮件和聊天记录的链接数</b><br />如果在 Email 正文里或者聊天记录里出现了指向 blog 的链接，会加分。GEmail 和 Gtalk 被用在了这里。</li>
<li><b>[0045] PageRank</b><br />PageRank 越高对应的 blog 也就越重要。考虑到blog的更新比较频繁，最新的 blog post 可能还没有PR。这时可以用对应的 blog 的 PR 来代替。</li>
</ol>
<p>其中 [0040-0042]，其实是类似于传统网页间 PageRank 计算的一套模式，只不过这里把它限制在了 blog 之间。</p>
<p>负面的指标：
<ol>
<li><b>[0047] 更新频率异常</b><br />更新过于频繁或者非常有规律，会被认为是在 spam，ranking 会降低。这里提醒喜欢在每天的固定时间更新 blog 的朋友注意一下了。<b><br /></b></li>
<li><b>[0048] feed 内容和 blog 内容的不一致</b><br />spammer 有可能会为了提升自己的 ranking 而把有价值的内容放到 feed 里面，同时在 blog 内容里面放一些指向不相关内容的广告链接。为了惩罚这种情况，对于 feed 内容和 blog 内容不一致的情况，要降低 ranking。</li>
<li><b>[0049] 出现重复内容</b><br />有些 spammer 为了让某些内容能够多次长时间的出现在 feed 里面，会重复发布同样的内容。这样的情况会被惩罚。</li>
<li><b>[0050] 垃圾词过多</b><br />通过词频统计（bi-gram 或者 tri-gram 等），如果 blog 内容里垃圾词的比较过高，会降低 ranking。</li>
<li><b>[0051] 多数 blog 长度相近</b><br />这个主要是针对使用机器自动生成 blog 的情况。</li>
<li><b>[0052] 链接异常</b><br />当 blog 里的链接多为指向单一网页，或者单一的外站，会被认为是在 spam，ranking 会降低。</li>
<li><b>[0053] 广告太多</b><br />如果一个 blog 页面内含有过多的广告，会降低 ranking。</li>
<li><b>[0054] 广告出现在正文里<br /></b>一般 blog 页面会包括三方面的内容：最近发表的 blog，blogroll 和 metadata。如果广告出现在正文里，会降低 ranking。不知道 adsense 的广告有没有特殊待遇？</li>
</ol>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2008.<br/>
本文网址：<a href="http://www.guwendong.com/post/2008/google_blog_rank.html">http://www.guwendong.com/post/2008/google_blog_rank.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/google" rel="tag">google</a>, <a href="http://www.guwendong.com/post/tag/rank" rel="tag">rank</a>, <a href="http://www.guwendong.com/post/tag/search" rel="tag">search</a> | <a href="http://www.guwendong.com/post/2008/google_blog_rank.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2008/google_blog_rank.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Google Search Quality 官方说明</title>
		<link>http://www.guwendong.com/post/2008/google_search_quality_1.html</link>
		<comments>http://www.guwendong.com/post/2008/google_search_quality_1.html#comments</comments>
		<pubDate>Sun, 01 Jun 2008 05:35:15 +0000</pubDate>
		<dc:creator>guwendong</dc:creator>
				<category><![CDATA[技术研究]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[rank]]></category>
		<category><![CDATA[search]]></category>

		<guid isPermaLink="false">http://www.guwendong.com/post/2008/google_search_quality_1.html</guid>
		<description><![CDATA[&#34;the ranking of Google search results&#34; 是 google 的命脉，因此很少能看到官方的说明。原因倒也无可厚非：&#34;competition and abuse&#34;，这两件事情确实哪一个都不容忽视！
 不过近日，google 负责搜索质量的 VP， Udi Manber，透露了一些有意思的资料，&#34;Introduction to Google Search Quality&#34;。对 search 感兴趣的千万不要错过！我列举一下我感兴趣的。 

more than one thousand programmer/scientist years have gone directly into their development (that is to say &#34;the ranking algorithms&#34;).
divided into some teams

The heart of the group is the team that works on core [...]]]></description>
			<content:encoded><![CDATA[<p>&quot;the ranking of Google search results&quot; 是 google 的命脉，因此很少能看到官方的说明。原因倒也无可厚非：&quot;competition and abuse&quot;，这两件事情确实哪一个都不容忽视！</p>
<p> 不过近日，google 负责搜索质量的 VP， <a href="http://manber.com/" title="Udi Manber">Udi Manber</a>，透露了一些有意思的资料，&quot;<a href="http://googleblog.blogspot.com/2008/05/introduction-to-google-search-quality.html" title="Introduction to Google Search Quality">Introduction to Google Search Quality</a>&quot;。对 search 感兴趣的千万不要错过！我列举一下我感兴趣的。<br /> 
<ol>
<li>more than <b>one thousand programmer/scientist years</b> have gone directly into their development (that is to say &quot;the ranking algorithms&quot;).</li>
<li>divided into some teams
<ul>
<li>The heart of the group is the team that works on core ranking</li>
<li>Another team in our group is responsible for evaluating how well we&#39;re doing</li>
<li>Another team is dedicated to new features and new user interfaces</li>
<li>There is a whole team that concentrates on fighting <a href="http://www.google.com/support/webmasters/bin/answer.py?hl=en&amp;answer=35769#quality" title="webspam and other types of abuse">webspam and other types of abuse</a></li>
<li>There are other teams devoted to particular projects</li>
</ul>
</li>
<li><a href="http://www.google.com/technology/" title="PageRank">PageRank</a> <a href="http://en.wikipedia.org/wiki/PageRank" title="PageRank @ Wiki">[1]</a> is still in use today, but it is now a part of a much larger system. &#8230; made significant changes to the PageRank algorithm in January, 2008. </li>
<li>some other parts
<ul>
<li>language models (the ability to handle phrases, synonyms, diacritics, spelling mistakes, and so on)</li>
<li>query models (it&#39;s not just the language, it&#39;s how people use it today)</li>
<li><b>time models</b> (some queries are best answered with a 30-minutes old page, and some are better answered with a page that stood the test of time)</li>
<li><b>personalized models</b> (not all people want the same thing).</li>
</ul>
</li>
<li>Google conducts evaluations typically in three manners, (1) automated evaluations <b>every minute</b>, (2) periodic evaluations of our overall quality and (3) evaluations of specific algorithmic improvements.</li>
<li>In 2007, &#8230; more than <b>450</b> new improvements, about <b>9 per week</b> on the average.</li>
<li>.. work on projects where the sole purpose is to simplify the algorithms. <b>Simple is good.</b></li>
</ol>
<p> <a href="http://manber.com/" title="Udi Manber">Udi Manber</a> 是我最景仰的几位科学家之一。&quot;Chief Algorithms Officer&quot;这个职位，就是 Amazon 专门为表彰他的贡献而首创出来的。</p>
<p> 推荐阅读：<br /> 
<ol>
<li><a href="http://www.popularmechanics.com/blogs/technology_news/4259137.html?nav=RSS2" title="20 (Rare) Questions for Google Search Guru Udi Manber">20 (Rare) Questions for Google Search Guru Udi Manber</a> </li>
<li><a href="http://searchengineland.com/070604-105606.php" title="Insight Into Google&#39;s Search Quality Efforts">Insight Into Google&#39;s Search Quality Efforts</a> </li>
</ol>
<p></p>
<hr id="rss-footer" />
<small>© guwendong for <a href="http://www.guwendong.com">Beyond Search</a>, 2008.<br/>
本文网址：<a href="http://www.guwendong.com/post/2008/google_search_quality_1.html">http://www.guwendong.com/post/2008/google_search_quality_1.html</a><br/>
tags: <a href="http://www.guwendong.com/post/tag/google" rel="tag">google</a>, <a href="http://www.guwendong.com/post/tag/rank" rel="tag">rank</a>, <a href="http://www.guwendong.com/post/tag/search" rel="tag">search</a> | <a href="http://www.guwendong.com/post/2008/google_search_quality_1.html#comments">参与讨论</a>
</small><br>]]></content:encoded>
			<wfw:commentRss>http://www.guwendong.com/post/2008/google_search_quality_1.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
