站内搜索       立项查询  成果查询
加入收藏 加入收藏     设为首页 设为首页   

中国共产党新闻 >> 全国哲学社会科学规划办公室 >> 社科基金专刊(中国社科报) >> 期刊内容

智能性新一代语义网模型:语言科学与计算机科学的深度联姻

萧国政 姬东鸿  2012年09月06日09:03  来源:中国社会科学报

从20世纪80年代提出万维网(WWW)构想以来,互联网进入飞速发展阶段。信息的沟通方式,从“人际交流”延伸至“人机交流”,各种网络技术与应用日新月异、层出不穷。当今,互联网早已融入人们的日常生活、工作和学习,成为人们相互交流、沟通和互动不可或缺的平台。

语义网:互联网的“新时代”

随着谷歌公司成功开发出全新的在线搜索引擎,百度成功开发出中文搜索引擎,谷歌和百度所依托的搜索引擎技术,为人们提供了方便快捷的查询方式。例如,网页搜索、新闻搜索、购物搜索和学术搜索等,可瞬间反馈给用户大量信息。可是,现在大多数互联网使用者在享受网络信息便利的同时,并没有觉察到互联网自身正经历着一个时代性的演变和提升。这个时代,就是互联网的“新时代”——语义网时代!

语义网,或者语义web,是对目前互联网的一种扩展,是能够根据语义进行判断和推理的网络。在这个网络中,各种信息都被赋予了较为明确的含义,可使人和机器之间的交流更加轻松简便。这得益于语义信息的表示、理解和融合功能。传统的互联网所连接的仅仅是文档,然而新一代语义网的连接延伸至文档里的概念和关系等语义信息。新一代语义网,可以满足用户不断增长的网络信息需求,是时代发展的必然,也是语言科学和计算机科学相互靠近、彼此融通、深度结合的学科交叉性产物。这种交叉、结合或联姻,极大地加快了语义网时代到来的步伐。

对于互联网用户而言,在现有搜索引擎条件下,用户一般是使用基于关键词的搜索方法和匹配模式。比如,输入“计算机”,引擎会返回大量包含“计算机”这个字符串的网页或文本,可是很多有价值的同质信息,比如包含“电脑”字符串的文本,却被忽略了。人们理解一句话,是通过语言所负载的语义,在大脑中形成一个场景或一组概念等。计算机“理解”一句话的语义,是看它能否获取其中的概念及概念间的联系,并且转化为其同义形式。比如“他在餐厅吃饭”,若通过一系列计算,计算机可获取谁吃、在哪里吃以及吃什么等信息,而且能推知其等价于“他就餐于食堂”,如此计算机就具有了一定的理解能力。再比如,假设网络文本中有“鲁迅写了《狂人日记》”这句话,若用户想通过网络获悉“《狂人日记》的作者是谁”,一般做法是在搜索引擎中输入“《狂人日记》”和“作者”,可是,这样很可能就会漏掉所需的正确信息,或回复不相干甚至是错误的信息。智能性语义网系统,则可自动识别“鲁迅写了《狂人日记》”和“鲁迅是《狂人日记》的作者”之间的语义蕴涵关系,回复给用户更加正确的结果信息。这就是新一代智能性语义网的目标、愿景。

Web3.0技术初现语义网时代的愿景

互联网创立以来,其发展大致经历了三个阶段,可分别简称为Web1.0、 Web2.0和Web3.0。Web1.0以网页间的超链接为基础,涵盖目前大部分网站和网页,用户通过浏览器或搜索引擎从只读性的静态网站中获取相关信息。Web2.0包含博客、微博、维基等社会化网络,其特征是可读可写,用户既可查询有关信息,也可产生和发布相关内容,可方便地和其他用户共享信息或与内容提供商进行互动。比较而言,Web1.0只是静态的网页链接,很少涉及用户的参与,Web2.0则通过用户链接网络产生的“群体智能”为那些静态的内容增添了用户的参与。

随着信息量的急剧增长、信息发布和共享速度的加快,以及不同信息源的相互融合,对Web2.0技术的开发和利用面临着挑战。基于语义的智能性网络Web3.0也就应运而生。它利用词语和信息背后的语义来整理、组织和链接内容,以便用户能够快速有效地获取相关信息。Web3.0技术先将不同类型的数据有效融合,使来自不同数据源或具有不同格式的数据对用户透明,减轻用户获取多类型或多格式相关信息的困难;再对文本内容的深度语义理解,包括实体、事件和事件链各个层面,使文本内容从字符串转换为格式化的数据;最后支持用户的语义查询及推理功能,方便用户快速准确地获取相关信息,相当程度上解决了目前搜索引擎所面临的信息超负荷问题。

这些愿景,需要Web3.0技术所依据的本体及其推理机制进行相应的组合和链接,需要Web3.0技术中本体演化和事件结构这两大支点,实现语言科学和计算机科学深度的联姻。

(作者均为国家社科基金重大项目“基于本体演化和事件结构的语义网模型研究”首席专家、武汉大学教授)

(责任编辑:张湘忆(实习)、秦华)