IT运维管理,创造商业价值!
中国IT运维网首页 | 资讯中心 | 运维管理 | 信息安全 | CIO视界 | 云计算 | 最佳案例 | 运维资源 | 专题策划 | 知识库 | 论坛

从守内安“全文检索”看企业数据处理

2010年01月05日
网络/转载

随着计算机产业的发展,以计算机存储设备为载体的信息愈来愈多,这些信息大致可分为两类:结构化数据和非结构化数据,结构化数据指的是诸如企业财务账目和生产数据、学生的分数等等,非结构化数据的则是一些文本数据、图像声音、邮件、聊天信息等数据。

而对于企业来说,可以记录并查询的网络数据90%以上都是非结构化数据,比如我们日常工作中经常用到的邮件、WebmailQQMSN、博客、论坛、上网记录等。但是传统方式,是以信息或报告的方式,对员工的上网行为进行统计,进一步浏览信息内容。而每天产生的数据那么多,如何快速并且准确的从海量数据中得到所要的数据?毕竟系统分析统计的是符合RD逻辑的数据,并不是老板或管理层所需要的。

企业用户的要求是:简单、方便、快速、实时、准确。显然,传统方式已经不能满足按部就班的浏览方式了。理想的方式就是和百度、谷歌那样,可按照新闻、视频、音乐、图片等类别,进行模糊搜索,并且对得到的结果进行分类统计。而对于结构化数据,用RDBMS 关系数据库管理系统技术来管理是目前最好的一种方式。但是由于RDBMS自身底层结构的缘故使得它管理大量非结构化数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢,而通过全文检索技术就能高效地管理这些非结构化数据。

 经过几年的发展,全文检索从最初的字符串匹配程序已经演进到能对超大文本、图像等非结构化数据进行综合管理的大型软件,由于内涵和外延的深刻变化,全文检索技术已成为新一代管理信息系统的代名词。

  而搜索引擎是全文检索技术最主要的一个应用。目前,搜索引擎的使用已成为排在收发电子邮件之后的第二大互联网应用技术。搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的到排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。全文检索技术是搜索引擎的核心支撑技术。

    企业网络面对的是内部员工,网络其主要作用是方便用户进行资料的查询和沟通,相对来说,数据量和数据的类型没有Internet上的丰富,但企业部署的网络内容安全管理系统,需匹配全文检索这样的搜索引擎,才可帮助用户第一时间找出敏感的、机密的、所需的信息。用户登录网络内容安全管理系统使用站内检索,站内检索应是分类目录导航和全文检索的完美结合,具体包括以下几个方面: 

分类目录导航的关键是检索范围,检索范围的限制能使得检索结果准确、简洁;

在通常情况下能够帮助人们很快地找到所要的网页、聊天记录、邮件、博客论坛留言、内网IP地址、时间等;

必须有相关排序功能,因为当检索结果太多时,用户不可能一一浏览,大多数用户只浏览前面几条,没有相关排序,可能准确的检索结果排在后面,用户不能浏览到,而排在前面的检索结果却相关性很少,会造成用户的错误判断;

通过部署“网络内容安全管理系统”,企业可以记录下每天每人的上网行为;通过“全文检索”,管理员或老板可以挖掘所需信息,从而改变传统的通过分析看数据,改善为通过搜索浏览数据,更加符合当前用户的使用习惯。

Softnext守内安信息科技提供网络内容安全管理解决方案(软硬件一体),全面记录、管理、审核、备份、检索企业上网所涉及的内容,其中全文检索的功能以其灵活、弹性、易用的特点,适合各类企业的上网行为管理和网络内容管理。

发表评论请到:http://bbs.cnitom.com

相关阅读

图文热点

以不变应万变 网络虚拟化应对园区网新挑战
以不变应万变 网络虚拟化应对园区网新挑战Forrester Research的分析师Robert Whiteley认为: “十年以来,虚拟化技术与网络...
OpenShift加入更多新元素 友好面对开发者
OpenShift加入更多新元素 友好面对开发者通过网络进行程序提供的服务称之为SaaS(Software as a Service),而将服务器平台...

本类热点