据最近报道,全世界互联网上的站点已经超过了1亿个,互联网也成为了人类有史以来构建的最大的数据库,它涉及几乎所有已知的领域。现在的互联网使用HTML语言编写的页面作为数据的载体,它们通过超链接相互交织在一起,使得人们可以方便地访问这些数据。HTML语言是互联网的支撑技术之一,它为互联网的繁荣起到了不可磨灭的作用。但不可否认,HTML语言有着其与生俱来的缺陷——作为一种面向表现的标记语言,它只定义了用来格式化数据显示的标记集,而缺乏明确说明数据含义的标记。这导致在HTML页面里,数据与其表现形式是糅合在一起的,计算机只明白如何显示一个页面,但并不能真正地“理解”这个页面的信息。因此,基于互联网的一些应用,如电子商务、智能信息检索、智能代理等,始终无法真正实现智能化和自动化。互联网的研究者们,一直都在试图解决这个问题。目前为止,搜索引擎技术是最成功的一种尝试。搜索引擎技术以自然语言处理(Natural Language Processing,NLP)为基础,在相关领域展开了大量的理论研究和应用实践,但是依然面临着巨大的困难,信息查询的查准率和查全率很难进一步提高。现在的搜索引擎,大多是通过关键字进行搜索,在找到你所需信息的同时,也会带来大量毫不相关的干扰信息,需要我们再进行人工过滤。例如,如果你用关键字“苹果”搜索,搜索引擎根本无法知道你是在找一种水果,还是在找苹果公司的信息,抑或是苹果牌牛仔裤。问题的根源,在于“苹果”这个词对计算机来说根本不具备“语义”。
语义网致力于改变这种状况,它研究的重点就是如何把信息表示为计算机能够理解和处理的形式,即带有“语义”。在语义网概念中,“语义”是核心,能够在人与计算机之间、计算机与计算机之间以无偏差的方式传递的信息,就是语义。语义网的基本思想是对互联网上任意的资源,进行结构化的描述并引入语义,使得计算机可以理解互联网上的信息。当然,计算机不可能真正像人一样进行思考,但是通过制定标准,使用标准描述信息的含义,计算机就可以根据标准进行自动分析和推理,将网络上的服务集成在一起,从而使得自动化智能服务成为可能。
I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web – the content, links, and transactions between people and computers. A ‘Semantic Web’, which should make this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The ‘intelligent agents’ people have touted for ages will finally materialize. (Berners-Lee, 1999)
还是不明白语义网会对互联网产生多大改变?那就看看 Paul Ford 在2002年写的这篇文章吧,很有意思,非常生动形象!《August 2009: How Google beat Amazon and Ebay to the Semantic Web》,还有3年了,让我们拭目以待吧。

“石头”后遗症 ,这个成了口头禅了,呵呵。好了,言归正传。
Semantic Web通常被译为“语义网”,W3C组织是这么定义它的——The Semantic Web provides a common framework that allows data to be shared and reused across application, enterprise, and community boundaries.(语义网提供了一套通用框架,通过它,数据可以跨越边界,为各种应用程序,企业和社区所用。)
语义网是一个数据网络——a web of data。它主要完成两件事情:1、提供进行数据交换的通用格式;2、提供记录数据与实体映射关系的语言。语义网并不是一个全新的网络,它是现有互联网的扩展,它提供对数据的语义描述,使计算机能够自动“理解”网络上的数据,实现计算机之间的智能交互,从而使得互联网真正成为一个全球化的信息共享和智能服务平台成为可能。
语义网的概念是由Tim Berners-Lee提出的,他是互联网的创始人,发明了URI,HTTP和HTML,编写了第一个Web Server软件和第一个浏览器。在2000年的世界XML大会上,他进行了题为《The Semantic Web》的专题演讲,对语义网的概念进行了阐述,并首先给出了语义网的体系架构。2001年5月,《Scientific American》以封面文章,刊发了他的《The Semantic Web》一文,向人们描绘了语义网的美好前景,并对其中的主要技术进行了简要的说明。
能够得到这样重量级人物的大力推广,并被看作是“下一代互联网技术”,语义网自然发展迅速。在W3C里面,有专门的一个小组负责推进语义网的标准化工作,并且已经发布了不少相关的语言、论文和工具。在学术界,语义网也吸引了广泛的关注,相关的科研活动相当活跃。国际语义网会议(International Semantic Web Conference -ISWC) 和欧洲语义网会议(European Semantic Web Conference -ESWC),是目前国际上最高级别的学术会议,在语义网的理论研究和实践应用方面已取得了许多优秀成果。近两年,亚洲各国也已经越来越重视语义网这个研究领域。2006年9月,北京清华大学成功举办了“第一届亚洲语义网会议(Asian Semantic Web Conference -ASWC)”。有兴趣的朋友,可以去会议的官方网站(http://www.aswc2006.org/)看看。
但尽管如此,因为语义网的实现太过复杂,目前已经取得的这些成就仍然只能算是一些铺垫而已,大家就它未来的发展方向也还远没有达成一致。
附一些语义网的研究资料:
1. W3C Semantic Web Activity,http://www.w3.org/2001/sw/。
2. Semantic Web @ Wikipeida,http://en.wikipedia.org/wiki/Semantic_web/。
3. 关注开发的朋友可以看看这里,http://www.w3.org/2001/sw/BestPractices/。
4. 国际语义网会议官方站点,http://iswc.semanticweb.org/。明年第7届会议将在韩国釜山举办。
5. 第1届亚洲语义网会议官方站点,http://www.aswc2006.org/。
6. Journal of Web Semantics,http://www.websemanticsjournal.org/。
7. 国内也有一个,http://bbs.w3china.org/。
8. 最好的语义网项目:FOAF(Friend of a Friend),http://rdfweb.org/。
今天看到这篇文章《The Road to the Semantic Web》出现在了 Read/Write Web 上面。RWW 是我非常喜欢的一个站点,基本上每天都要看一看。对我而言,他是了解 IT 前沿的不二选择。看到 Semantic Web 的内容出现在这里,感觉很是兴奋。
我的博士论文就是在研究 Semantic Web 。我虽然非常崇拜爱因斯坦,但自己倒并不喜欢做纯学术性质的研究。我的兴奋点在学术课题与实践应用的结合,这是性格使然。Semantic Web 一直以来都是一个过于学术性的话题,关于他的研究大多是围绕“本体(ontoloty)”、“表示(presentation)”和“推理(inference)”展开的,距离实际的应用尚远。如果能够更多地在应用层面进行一些探索,更加亲近一些业界,相信可以更好地促进其发展。
从今天起,开始 Semantic Web 的专题,记录自己在博士论文研究过程中的一些思考,并将收获与大家共享。