最好走的路越走越难,最难走的路越走越容易

Follow guwendong on Web
  • Subscribe to Beyond Search via RSS
  • Join Resys Google Group
  • Follow @clickstone on Douban
  • Follow @clickstone on Twitter

Tag Archives: semantic-web

Digg+RDFa

5月初,Digg 宣布在其新闻页面里,加入对 semantic markup [1] 的支持。目前支持 3 种:XFNhCard,以及最重要的 RDFa [1]

想看实际用法的,可以在 Digg 新闻页面的源代码里,搜索“property”。比如在这个页面里
http://digg.com/tech_news/In_Google_we_trust_but_should_we,你可以找到类似于这样的内容,
“<a href="http://www.guardian.co.uk/technology/2008/may/22/internet.google" rel="dc:source" property="dc:title">
In Google we trust – but should we?</a>”。
如果安装了 RDFa bookmarklets 的话,可以看到更形象的效果,类似下面。

  1. 使用 RDFa Highlight 标亮页面上的 N3 Triples。
  2. 使用 GetN3 extractor 抽取出来的 N3 Tripes 文本。
  3. <http://digg.com/tech_news/In_Google_we_trust_but_should_we>
      <http://purl.org/dc/elements/1.1/source>
        <http://www.guardian.co.uk/technology/2008/may/22/internet.google>
    <http://digg.com/tech_news/In_Google_we_trust_but_should_we>
      <http://purl.org/dc/elements/1.1/title>
        "In Google we trust – but should we?" <http://digg.com/tech_news/In_Google_we_trust_but_should_we>
      <http://purl.org/dc/terms/abstract>
        "Google is more vulnerable to competitors than people think." .
    <http://digg.com/tech_news/In_Google_we_trust_but_should_we>
      <http://purl.org/dc/elements/1.1/creator>
        <http://digg.com/users/dagorret> .
    <http://digg.com/tech_news/In_Google_we_trust_but_should_we>
      <http://purl.org/dc/elements/1.1/date>
        "2008-05-22 11:45:13" .

最早的 RDF [1] [2],由于其比较难于理解,并且操作复杂,导致其始终没有推广起来。W3C 组织受到轻量级规范如 Microformats 的启发,推出了新的经过简化的 RDFa [1] 规范。从其官方描述“Embedding Structured Data in Web Pages”,就可以看出来,它是一种嵌入到 HTML/XHTML 中的数据。要说 RDFa 的实现比 Microformats 还是要复杂一些,不过它的适用性更广,对于可以通过 RDF 表达的任何内容, 都能够使用 RDFa 添加到 XHTML 文档中,而且不再需要使用繁琐的 XML 语言进行描述。这使得基于现有 Web 内容实现 Semantic Web,成本低了不少,也更靠谱了。

希望可以有更多的 Applicaitons 向 Digg 看齐,让 RDFa 的队伍壮大起来。
这里需要谴责一下 Powerset,号称 Semantic Web 的 Killer App,居然都不支持 RDFa。

推荐阅读:

  1. Writing Semantic Markup
  2. Introducing RDFa
 

Twine Beta:盛名之下,其实难副

等了很久之后,终于在4月26日拿到了 Twine Beta 的试用邀请。简单地玩儿了一下,发现用标题这句话形容它再合适不过了——盛名之下,其实难副!
这就是传说中万人瞩目的“The First Mainstream Semantic Web App”?OMG!与 Freebase 的惊艳相比,Twine 差得简直太远了。

用官方的话说,Twine 的核心是“Interest Networks“,又或者是之前更多被提到的“Knowledge Networks”。Twine is a Smartest Way To Organize, Share and Discover Information About Your Interests. You can use Twine alone, with friends, groups and communities, or even in your company. 但以其目前的 Beta 版来看,Twine 最多也就能算个稍微新型的 bookmark 应用而已。

当然,可以看到 Twine 试图在做一些事情,我捡重要的说说。

第一件事情,从网页里抽取实体。
这事儿英文通常称为 Entity Extraction,Semantic Web 中叫做 Ontology Annotation。这个确实是 Sematic Web App 必须要解决地第一件事情。但在这件事情上,Twine 做得很烂。我总共试了 3 篇文章。

  1. 第一篇是我的一个中文 blog,“个性化站点:MyStrands”。Twine This,结果是乱码!好吧,你可以说 Beta 对中文的支持还不好,可以容忍。
  2. 第二篇是我在 Google Reader 上 share 的一篇英文 blog,“Slide decks from Web 2.0 talks”,里面有两个很棒的 PPT。这次更离谱,完全没有定位准确正文,居然把 “Recent Comments” Panel 里的内容作为了网页正文!好吧,你可以说这篇文章的正文部分字数少,识别有难度,可以容忍。
  3. 第三篇是一个分析 Twine 的英文 blog,“Web2Summit: Radar Networks Unwinds twine.com”,长篇大论,以免正文字数少又难倒了 Twine。这次总算顺利通过了,让我们赶紧来看一下 Twine 传说中的 Auto Tag 吧。“People”里加上了“Nova Spivack”,这个不错。“Organizations”里加入了“O'Reilly”和“Radar Networks”,也不错,但有个“Directory Assistance”非常诡异!点链接进去一看,search 结果里大量出现了“Network”这个词,而这篇文章里总共出现了3次“Network”,看来“Network”被当作了“Directory Assistance”的一个 Keyword。由此大概可以推断,对于 Entity Extraction,Twine 使用的是 Meta Model。但关键是此处的结果是有问题的,Network 在本文里是作为“Radar Networks”出现的,并不是本来的 Network,这里产生了歧义,但 Twine 的模型并没能解决这个问题。最后再来看“Other Tags”,“Semantic Edge”、“Semantic Web”和“Web 2.0”还算不错,但称不上好。通篇在评论的 Twine 应用本身,并没有出现在 Auto Tags 里面,但通过验证,其实“Twine”这个 Tag 是存在的。

第二件事情,“Twine”的使用。
这里的“Twine”,不是 Twine.com,而是 Twine team 创造出来的一个概念,用来组织 Interest Networks。用大家都能理解的一个说法,“Twine”基本和我们常见的“频道”差不多,就是一堆相似的文章的集合。在我看来,“Twine”本身其实和 tag 没有本质的区别,不同就在于用作“Twine”的 tag 应该会得到一个比较高的 tag weight,并在 tag hierarchy 中占据更高层的位置。其实,tag weight 与 tag hierarchy,也是我一直在思考的一个问题。比如在使用 del.icio.us 时,我们会给网页打上不同的 tag,潜意识里,各个 tag 的 weight 应该是不同的,并且通常还会使用不同层次的概念。比如“Web2Summit: Radar Networks Unwinds twine.com”这篇文章,Technorati Tags 就是“freebase, radarnetworks, SemanticWeb, web2.0, web20, web2summit”,其中 SemanticWeb 和 radarnetworks 应该 weight 高一些,而 freebase 是 SemanticWeb 和 web2.0 概念之下的一个应用。但常见的 tag 标注方法,是没有办法体现上述两项差别的。“Twine”的使用,似乎就意在 tag 上面再插入一层,定义出重要的 tag,建立 hierachy。如果 Twine 确实是这种思路的话,目前的产品设计至少也有一个问题。用户可以自由地创建 Twine,似乎并没有什么规则/规范。我可以建立一个“Film”的“Twine”,然后把“The Matrix”加进来,打上“Science fiction”的 tag;也可以建立一个“Science fiction”的“Twine”,然后把“The Matrix”加进来,打上“Film”的 tag。这会造成混乱。

Recommendation Panel, 是 Twine 上另外一个值得关注的功能,但由于我目前活动度不够,推荐给我的东西很少,留待下一步分析。

 

Social Graph 与 Semantic Web

Social Graph,或者称之为 Social Network,最近很是热闹。这自然是拜 MS 与 Facebook 之间 2.4/150 亿美刀 的 big deal 所赐。美国人和中国人其实也没太大的区别,见了花花绿绿的美刀一样是趋之若鹜,拼了老命也要凑个热闹。看 ReadWriteWeb 上的文章,从 Myspace/5.8亿 到 Youtube/16亿 再到如今的 Facebook/150亿,随着价码的提升,热闹程度也在飞速的上升。没办法,谁不爱钱呢?我也爱钱,哈哈。

不过类似的文章读多了也难免审美疲劳,直到看到 Tim Berners-Lee 也出来说话了,才真正刺激我把与此相关的东西,细细地读了一下。收获有一些,但目前还有待梳理。
不过,我倒是严重同意 Richard MacManus 对 TimBL 观点的总结,他将网络划分为三个层次

… this is how Berners-Lee envisions the 3 levels (a.k.a. layers of abstraction):

1. The Internet: links computers
2. Web: links documents
3. Graph: links relationships between people and/or documents — "the things documents are about" as Berners-Lee put it.

而我个人更倾向于把第 3 层即 Graph 层分开来,这样总共是 4 层。让我们来看一下:

  1. The Internet: link computers。这个时代诞生了曾经很伟大的 Natscape 公司。
  2. Web: links documents。这个时代诞生了曾经很伟大的 Yahoo! 公司。
  3. Graph: links relationships between documents。这个时代的目标还没有完全实现,但已经诞生了目前还是很伟大的 Google 公司。
  4. Graph: links relationships between people。这个时代会是属于 Facebook 的吗?明白为什么仅仅 link 了 6000 万个用户 relations 的 Facebook 就已经价值 150 亿美刀了吧!他代表了未来的趋势。

当然,如果仅仅是“你 link 我,我 link 他”这样六度空间理论的简单应用,那绝对是远远不够的。每一个时代的每一个伟大的公司,无一例外都是技术上的集大成者!Natscape 开创了浏览器技术,将 HTTP/HTML 推向实用化,让网络漫游成为现实;Yahoo! 开创了基于分类目录的第一代搜索技术,将 Web 技术推向了大规模应用,让浏览网络资料变得非常方便;Google 开创了 以 PageRank 为核心的第二代搜索技术,让用户可以从浩瀚的海量数据中解脱出来,快速准确地检索信息。目前来看,Facebook 最成功的技术创新是通过其 Applicaiton Platform,将原本还局限于企业应用范畴之内的 SOA 技术带入了基于 Web 的新境界。这无疑是非常大的进步!但若仅是如此也许还是不够。正像之前诸如 Lycos、Infoseek 等搜索引擎公司,尽管都曾经非常辉煌过,但一旦 Google Search 这样 Killer 级别的搜索引擎技术出现之后,他们很快就被人淡忘了。Facebook 一样有这样的危险!在这个问题上,我同意 RWW 上 Alex Iskold 的观点

… The Facebook platform is what made Facebook into "the company" of 2007. If everyone has the platform and not a proprietary, but standard platform, then Facebook's value shrinks back to the size of its current audience. … There is a chance that it[Facebook] is going to play the Apple "we are the best and closed" card, but it is a rather small one. … Consumers are going to recognize that if their social graph is portable and if their attention information is portable in social networks, then it should be portable at large. People are going to demand that their Amazon purchasing history and Netflix rental history is accessible via open API. If that happens, we will effectively enter the age of the attention economy.

援引下面这段 TimBL 关于 Social Graph 与 Semantic Web 技术的总结。我认为,能够打败 Facebook 的,或者说可以使 Facebook 立于不败之地的,应该就是 Semantic Web 这样的技术。

… if only we could express these relationships, such as my social graph, in a way that is above the level of documents, then we would get re-use. That's just what the graph does for us. We have the technology — it is Semantic Web technology, starting with RDF OWL and SPARQL. Not magic bullets, but the tools which allow us to break free of the document layer. … If a social network site uses a common format for expressing that I know Dan Brickley, then any other site or program (when access is allowed) can use that information to give me a better service.

毫无疑问,Google 的 Open Social 是 Facebook 最有力的挑战者,尽管他目前看起来还很不成熟。一直以来,我比较关注 Google 在 Semantic Web 方面的动作,从 2003 年收购 Applied Semantics,到大师级人物 Peter Norvig 与 TimBL 在 2006 年 AAAI 会议上关于 Semantic Web 的碰撞,再到 Peter Norvig 自己对“Semantice Web 可以做什么,不可以做什么”的总结,无不在透露着 Google 一直在 Semantic Web 方面进行着试探。同 Sayonly 一样,我也认为 Google Base 是 Google 在 Semantic Web 方向上的一次尝试。而 Open Social 很可能也是 Google 本在密谋着的又一个 Semantic Web 应用,只不过由于 Facebook 的出现打乱了 Google 自己的计划,迫使其不得不匆忙着推出来。

Facebook 与 Open Social 商业上的竞争倒也让人很感兴趣。利益作祟会让貌似强大的 Open Social 瓦解吗?如果 Open Social 真发展的有模有样,Facebook 会加入进来吗?比较极端的是下面这个观点,不过我同意!

Set the data free! Allow social data mashups. That's what will be the trump card in building the winning social networking platform.

罗列一下我个人比较感兴趣的 Social Graph 相关的文章:

  1. TimBL 的原文:Giant Global Graph
  2. Levels of Abstraction: Net, Web, Graph
  3. Social Graph: Concepts and Issues
  4. Thoughts on the Social Graph
  5. 由 TimBL 文章引发的讨论,大部分在这里都可以看到:Who is afraid of the GGG?
  6. 一个有意思的实验:Injecting Facebook Data into the Semantic Data Web

对 Semantic Web 感兴趣的朋友,可以看看我的《Semantic Web系列》文章。

还有一件可以肯定的事情,http://www.opensocial.com/,这个域名一定会很值钱!^_^

 

1. 持续关注 个性化推荐 技术;
2. 持续关注 Semantic Web 技术;
3. 评论与上两项相关的互联网业务与产品;

我相信技术的力量!
wendell.gu@GMail.com

Archives