IT运维管理,创造商业价值!
中国IT运维网首页 | 资讯中心 | 运维管理 | 信息安全 | CIO视界 | 云计算 | 最佳案例 | 运维资源 | 专题策划 | 知识库 | 论坛

谷歌发布大型数据集合 以研发准确翻译软件

2013年03月11日
cnBeta/cnBeta
据外媒报道,谷歌于近日发布了一个大型数据集合--Wikilinks Corpus,它将可以帮助开发人员构建出可以准确解释人类语言的软件。Wikilinks Corpus中包含了来自各大网页及维基百科文章的4000多万条个人链接,它们则被称为mention。开发人员则可以通过分析每一条mention的内容以及目标文章的内容,进而确定一些模棱两可单词的意思。

  谷歌在其Reaserch Blog中提出,人类非常擅长辨别同一个单词在不同语境下的意思。比如说,当把dodge写成Dodge时,它就是一个车子的品牌,而当写成to dodge的时候,它就是一个动词。

  跟谷歌搜索算法非常类似,Wikilinks Corpus也是由在来自马萨诸塞大学阿默斯特分校的研究人员的协助下完成的,并且它的规模要比以往的数据集合都要来得大。更重要的是,它是免费的。虽然由于版权问题,谷歌无法发布个人网页的实际内容,但是它却可以提供获得这些内容的代码。
发表评论请到:http://bbs.cnitom.com

相关阅读

图文热点

美国研究人员开发可虚拟操作的3D透明计算机
美国研究人员开发可虚拟操作的3D透明计算机TED大会的Jinha Lee一直都在与 微软 公司合作开发3D桌面。他告诉BBC道,以与固体...
IDC:2012年智能终端累计出货量已超12亿台
IDC:2012年智能终端累计出货量已超12亿台月28日消息,随着智能手机,平板电脑的快速普及,全球智能终端市场增长迅猛,据ID...

本类热点