最好走的路越走越难,最难走的路越走越容易

Follow guwendong on Web
  • Subscribe to Beyond Search via RSS
  • Follow @clickstone on SinaWeibo
  • Join Resys Google Group
  • Follow @clickstone on Douban
  • Follow @clickstone on Twitter

Tag Archives: google

Google Suggest and Adwords

Google Suggest 上线已经有一段儿时间了,不知道大家注意到没有。当然我说的是 google.com,不是谷歌。它刚上线的时候,我有一个揣测,“Google 会不会把 Adwords 里比较值钱的词优先 suggest 出来”?抱着这个疑问我关注了一段儿时间的相关文章,结果发现似乎没什么人讨论这个问题。而我个人又没有渠道到 Adwords 系统里面作实验,也就不了了之了。

直到上周,我发现了一篇有意思的文章,'Google Suggest' Could Trump Expensive Keywords – For Now,看来和我一样喜欢瞎琢磨的人还是有的,哈哈。

这篇文章的作者做了实际的实验。

以“virtualization”关键字为例,使用 googe 提供的 keywords tool,限制最高 CPC 最高价为 $5.00,找到的关键字如下图所示。图中列出的是最贵的前 5 个,据作者讲,google keywords tool 找到的前 50 个关键字,CPC 价格全部在 $2 到 $3 之间。这个价格应该算是相当昂贵了。

接下来,有意思的事情来了。

作者在 google.com 上输入“virtualization”,google suggest 给出的建议关键字如下图所示。经研究发现,第 2 位,第 4 位,第 8 位,和第 10 位的四个关健字,

  • Virtualization for Dummies
  • Virtualization technology support
  • Virtualization benefits
  • Virtualization definition

在 Adwords 里面的 CPC 价格仅有 $0.05!
貌似价格比较高的关键字里面,只有“virtualization server”被 suggest 出来。

看起来在这件事情上,google 不作恶的信条保持得还蛮不错。比百度整的恶心事儿要强。

这个发现可以为 SEO 带来不小的市场机会!显而易见,google suggest 列表里面的关键字,被选中进行搜索的机会要比一般的关键字大得多。找出那些便宜的,买下它们,这是个好买卖。行动吧。

 

Google 评价 blog 的指标

读了一下 Google 关于 Blog Ranking 的 Patent,总结如下。

正面的指标:

  1. [0038] 订阅数
    统计 blog 在各种 reader 中被订阅的数量。被订阅的越多,ranking 越高。但同时会使用一些方法处理“subscriptions spam”,诸如验证订制人和 IP 的唯一性。
  2. [0039] 搜索点击数
    统计 blog 作为搜索结果时被点击的次数。点击次数越多,ranking 越高。
  3. [0040] 在其他 blogger 的 blogroll 里的出现次数
    blogger 通常会使用 blogroll 来整理指到其他 blogger 的链接集合。统计所有 blogroll 中,指向某个 blog 的链接越多,ranking 越高。
  4. [0041] 来自高质量的 blogroll 的链接数
    高质量的 blogroll 的链接大多都指向著名的或值得信任的 blog。
  5. [0042] 来自高质量的 blog 的 blogroll 的链接数
    这里的假定是著名的或值得信任的 blogger 不会放指向 spam blog 的链接。
  6. [0043] 有Tag
    blog 作者如果分析了 blog 内容,归类并打上了 tag,起码可以说明作者的态度比较认真。
  7. [0044] 来自邮件和聊天记录的链接数
    如果在 Email 正文里或者聊天记录里出现了指向 blog 的链接,会加分。GEmail 和 Gtalk 被用在了这里。
  8. [0045] PageRank
    PageRank 越高对应的 blog 也就越重要。考虑到blog的更新比较频繁,最新的 blog post 可能还没有PR。这时可以用对应的 blog 的 PR 来代替。

其中 [0040-0042],其实是类似于传统网页间 PageRank 计算的一套模式,只不过这里把它限制在了 blog 之间。

负面的指标:

  1. [0047] 更新频率异常
    更新过于频繁或者非常有规律,会被认为是在 spam,ranking 会降低。这里提醒喜欢在每天的固定时间更新 blog 的朋友注意一下了。
  2. [0048] feed 内容和 blog 内容的不一致
    spammer 有可能会为了提升自己的 ranking 而把有价值的内容放到 feed 里面,同时在 blog 内容里面放一些指向不相关内容的广告链接。为了惩罚这种情况,对于 feed 内容和 blog 内容不一致的情况,要降低 ranking。
  3. [0049] 出现重复内容
    有些 spammer 为了让某些内容能够多次长时间的出现在 feed 里面,会重复发布同样的内容。这样的情况会被惩罚。
  4. [0050] 垃圾词过多
    通过词频统计(bi-gram 或者 tri-gram 等),如果 blog 内容里垃圾词的比较过高,会降低 ranking。
  5. [0051] 多数 blog 长度相近
    这个主要是针对使用机器自动生成 blog 的情况。
  6. [0052] 链接异常
    当 blog 里的链接多为指向单一网页,或者单一的外站,会被认为是在 spam,ranking 会降低。
  7. [0053] 广告太多
    如果一个 blog 页面内含有过多的广告,会降低 ranking。
  8. [0054] 广告出现在正文里
    一般 blog 页面会包括三方面的内容:最近发表的 blog,blogroll 和 metadata。如果广告出现在正文里,会降低 ranking。不知道 adsense 的广告有没有特殊待遇?
 

Are Machine-Learned Models Prone to Catastrophic Errors?

最近忙,paper 看得多,blog 看得少,险些错过一些非常有意思的文章。上一次提到的 "Introduction to Google Search Quality" 算一篇,这次要说的是另外一篇 "Are Machine-Learned Models Prone to Catastrophic Errors?"。 不过这两个 blog 都被我们伟大的 GFW 拌掉了。

Peter Norvig 这样的大师的意见,我们需要仔细体会。我整理一下我感兴趣的。

  1. tow phase of google search algorithms
    • An offline phase, which is time-consuming and query-independent.
    • An on-line phrase, in response to a user query in a few milliseconds.
  2. Tons of training data … from the armies of "raters" employed by Google
  3. The big surprise is that Google still uses the manually-crafted formula for its search results, despite the fact that, their best machine-learned model is now as good as, and sometimes better than, the hand-tuned formula on the results quality metrics that Google uses.
  4. two reasons
    • the human experts who created the algorithm believe they can do better than a machine-learned model
    • Google's search team worries that machine-learned models may be susceptible to catastrophic errors on unforeseen query types, which is different from the training data.
  5. Nassim Taleb divides Black Swan phenomena into two classes
    • Mediocristan
    • Extremistan
  6. The current generation of machine learning algorithms can work well in Mediocristan but not in Extremistan.

So the thing is, how to figure out whether new machine learning algorithms can be devised that work well in Extremistan, or prove that it cannot be done?

 

ResysChina 发起人
1. 持续关注 个性化推荐 技术;
2. 持续关注 Semantic Web 技术;
3. 评论与上两项相关的互联网业务与产品;

我相信技术的力量!
wendell.gu@GMail.com

Archives