1 数字图书馆个性化服务的含义
近10年来,随着“数字化生存”方式逐渐为人们所接受,数字图书馆因其信息量大、占用空间少、更新速度快、不受时空限制等特点而越来越受到人们的关注。但人们在享受着数字图书馆所带来便捷的同时,也深受其庞大而形式多样的信息资源困扰。因为信息资源具有较强的目标导向性,同样的信息对于不同的个体表现出不同的价值。对单个用户来说,不可能对数字图书馆的所有信息资源都需要,而同样的信息也不一定会满足所有的用户。个性化服务是解决用户“众口难调”问题的关键,它是适应用户多样化需求的重要手段,也是图书馆应对信息资源多样化的一个重要措施。
数字图书馆个性化服务是基于信息用户的信息使用行为、习惯、偏好、特点及用户特定的需求,向用户提供满足其个性化需求的信息内容和系统功能的一种服务。首先,它应该是一种能够满足数字图书馆用户的个体信息需求的服务,即根据用户提出的明确要求提供信息服务,或通过对用户个性使用习惯的分析而主动地向用户提供其可能需要的信息服务;其次,应该是一种培养个性、引导需求的服务,这样可以帮助个体培养个性、发现个性、引导需求,促进社会的多样性和多元化发展。数据挖掘是近年新兴的计算技术与方法,它在科学发现、商业零售以及信用管理、医学等领域已得到广泛应用,并显示出巨大的威力。最近几年,数据挖掘技术开始应用于数字图书馆领域,使数字图书馆的功能有了较大的变化和发展。
2 数据挖掘及相关技术
数据挖掘也称知识发现,是从数据库中获取人们感兴趣的知识,这些知识是隐含的、潜在的。传统的决策支持系统、知识库中的知识和规则是由专家和程序人员由外部输入的,是已知的,决策者可以用联机分析处理等工具直接使用;而数据挖掘是从大量的内部数据库中获取尚未被发现的知识、关系、趋势等信息。数字图书馆的数据挖掘是从数字图书馆大型数据库、数据仓库和浩瀚的网络信息空间中发现并提取隐藏在其中的信息,目的是帮助信息工作人员寻找数据间潜在的关联,发现被忽略的要素,而这些信息对预测趋势和决策行为也许是十分有用的。数据挖掘根据其主要研究对象的数据结构形式的不同,一般粗分为数据挖掘、Web数据挖掘、文本数据挖掘3类。
2.1 数据挖掘(Data Mining)
面向数值数据的数据挖掘,通常称数据挖掘。数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。
(1)关联分析(association analysis):两个或两个以上变量的取值之间存在某种规律性就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联,关联分析的目的是找出数据库中隐藏的关联网,一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。
(2)聚类分析(clustering):聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式以及可能的数据属性之间的相互关系。
(3)分类(classification):分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
(4)预测(predication):预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。
(5)时序模式(time-series pattern):时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
(6)偏差分析(deviation):在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。
常见的数据挖掘方法主要有:统计分析、归纳学习方法、仿生物技术、神经网络、决策树、遗传算法、贝叶斯信念网络、模糊集、粗糙集等,由于各种方法都有自身的功能特点以及应用领域,因此不同方法的选择将影响最后结果的质量和效果,通常是将多种方法结合使用,形成优势互补。
2.2 Web数据挖掘
数据挖掘的对象是传统的数据库或数据仓库,而Web数据挖掘是指针对包括Web页面内容、页面之间的结构、用户访问信息、商务交易信息等在内的各种Web数据,应用数据挖掘方法及技术以发现有用的知识来帮助人们从万维网中提取知识,改进站点设计,更好地开展电子商务或改进服务。Web数据挖掘分为Web内容挖掘、Web访问信息挖掘、Web结构挖掘。
2.3 文本数据挖掘(Text Mining)
面向文本信息的数据挖掘,通常称文本挖掘。当数据挖掘的对象完全由文本类型组成时,结合使用数据挖掘算法与信息检索算法对巨量文本信息进行自动化信息处理与分析的过程叫文本数据挖掘。它包括特征提取、文本摘要、文本分类与聚类、概念操作以及探索性数据分析等工作。文本数据挖掘所应用的技术包含用于表示文档的词频反文献频率(TFIDF)向量表示法、词串表示法,用于文本分类的贝叶斯分类算法(Bayesian classifier)、词集合算法(Bag of word),基于概念的文本聚类算法以及K—最近邻参照分类算法等。
3 数据挖掘在数字图书馆中的应用
3.1 个性化服务
数字图书馆的个性化服务在整个数字图书馆系统中是很关键的部分,如同网络向智能化方向发展一样,信息服务也应“智能化”,即由被动服务转向主动服务,由单纯的信息呈现转向信息生成。数字图书馆的个性化服务主要表现为两个层次:第一层次为按用户要求进行信息订制。例如,慧聪国际I系列应用软件中个性化信息服务软件My info和I get,可以让用户根据自己的需要订制专门信息,其功能包括数字图书馆站内搜索,Internet搜索,时间、日期、重要事件的提示,并可帮助用户建立个性化信息空间。第二层次则是数字图书馆挖掘用户兴趣模式,主动提供服务,使数字图书馆成为一个智能型、主动性的信息提供商。
3.2 提高信息获取速度
数字图书馆中的信息量是庞大的,在堆积如山的数据中包含着许多待提取的有用知识。对于用户来说,他关心自己的需要是不是能够被满足更胜于关心数据图书馆中总的信息量。因此,要想为用户提供更快、更有效的服务,就必须有一套很好的搜索机制。数据挖掘技术为数字化图书馆提供了先进的信息检索工具,在数字图书馆的检索中采用数据挖掘的相关理论和方法,设计的系统将有更大的智能性。
为保证用户在尽可能短的响应时间内获取所需信息,要搜集用户每次阅读的专题集合(浏览模式)作为一个事务,记录所有用户每一次的浏览过程构成事务库,再对事务库进行如下操作:第一,利用关联规则采掘算法找到访问频率超过给定阈值的专题(项目)集,进而用分类算法把客户的浏览模式与频繁项目集进行相似匹配,将具有相似浏览模式的客户组织到一个服务器上,从而减少服务器缓存和传输页面的数量;第二,找到事务库中某频率访问的专题集,利用关联分析得到专题之间的关联规则,存入服务器的知识库,当用户浏览某页面时,网络代理根据规则预先连接其关联页面,从而提高响应速度;第三,也可利用Web挖掘得到用户访问序列模式,根据预测,预先传输用户可能阅读的页面。
3.3 拓展服务形式
数据挖掘可实现信息服务质量的提升和业务的拓展。数字图书馆借助现代信息技术,其意义不仅在于服务媒体和时空的转变,更重要的是能够借助数据挖掘技术,完善其服务结构和提升服务水平。
(1)信息检索服务。信息检索是数字图书馆提供的一个主要功能之一,信息检索服务的质量是衡量数字化图书馆服务质量的一个重要标准。传统的检索工具缺乏结果的友好性、可理解性和交互性,往往将一大堆查询结果线性呈现,令用户不知所云。智能化的信息检索不仅支持概念检索、模糊检索、联想检索及多语言检索等,而且能迅速利用聚类算法将查询结果分析聚类,使之条理化显示,方便用户筛选,同时在此基础上确定进一步的检索定位。例如,系统提示“Limited your research to result within one of the following categories”,从而实现交互式检索。
(2)定题与查新服务。这两种常用的针对科研的信息服务,其传统方式是检索文献或光盘数据库,然而在网络时代,我们更不能忽视对外部网络这一即时便利的信息发布平台的搜索,才能确保查新结果的可靠性。同时,数字图书馆可运用兴趣模式算法判断并争取潜在用户,在服务过程中,还可利用可视化技术帮助用户进行在线实时信息分析。
(3)信息分析服务。有专家指出,“对文本的探索性数据分析(EDA)才是真正的文本挖掘”。它是指直接对文本数据及其相互间的关系进行分析,从而识别出未知的、有用的知识的过程。例如,利用文本EDA形成一些科学假设等。基于此,数字图书馆可提供面向商业用户的信息分析,帮助它们确定发展和竞争策略,实现自身的收益。
4 构建数字图书馆个性化服务系统
利用数据挖掘技术构建数字图书馆个性化服务系统的前提和基础是拥有大量、真实的数据积累,没有数据积累,数据挖掘将无用武之地,因此要踏踏实实做好基础数据库的建设。在建库及数据挖掘的整个过程中,需要各方人员共同参与,通力合作。
4.1 提取原始信息和收集用户特征
用户通过浏览器访问数字图书馆时,系统可以记录下来的用户访问数据有两类:用户信息和用户行为特征。用户信息包括用户的姓名、性别、年龄、职业、爱好、教育程度以及用户访问IP地址等;利用Web日志记录可获得用户的行为特征,如对知识点的点击率、停留时间、访问次数、下载次数、搜索关键词及模式等信息,还有用户的主观信息,如网络调查、BBS留言等。准确把握用户的行为特征和偏好,是提供更精确、更符合用户需求的信息服务的首要条件。
4.2 数据预处理和数据转换
对收集到的数据进行加工处理和组织重构,如检查数据的完整性及数据的一致性、去除噪声或删除无效数据、填补丢失的域、去除空白数据域、考虑时间顺序和数据变化;找到数据的特征,用维变换或转换方法减少有效变量的数目,找到数据的不变式,构建相关主题的数据仓库,为下一步的数据挖掘过程提供基础平台,做好前期准备。
4.3 确定数据挖掘目标
数据挖掘的目标切忌空而大,应结合实际情况,细化、清晰。例如,根据用户兴趣的不断变化,利用数据挖掘技术发现用户的最新需要,或者根据用户的兴趣度,推荐相关专题信息,并提供个性化界面等。
4.4 数据挖掘
根据挖掘目标和数据特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。选择某个特定数据挖掘算法(如汇总、分类、回归、聚类等)用于搜索数据中的模式,进行数据挖掘、搜索或产生一个特定的感兴趣的模式或一个特定的数据集,在此基础上进行分析与评估,检验数据挖掘所得到的知识模式。
4.5 结果分析和知识的运用
对数据挖掘的结果进行解释和评价,用预先、可信的知识检查和解决数据模式中可能的矛盾,以改善数据仓库,转化成为能够最终被用户理解的知识,将分析所得到的知识加载到实际运行系统中。数据挖掘的过程是一个反复进行的过程,很难一步到位,需要对挖掘结果进行不断的实践应用、测试、修改、比对,直到最后达到用户满意为止。
5 结语
数字图书馆个性化服务改变了图书情报机构以往“我提供什么用户就接受什么”的运作方式,开创了“用户需要什么我就提供什么”的发展思路。根据LITA(Library and Information Technology Association)的研究预测,个性化服务将成为未来数字图书馆技术发展的主要趋势。事实也证明,随着网络用户群的日益增长,更多的用户期望能得到具有针对性的、个性化的信息服务和用户支持。数据挖掘技术因其在海量信息资源中的智能表现,能为数字图书馆的个性化服务建设提供不可或缺的技术支撑。尽管数据挖掘作为一门前沿技术,自身还在不断发展完善,还面临着许多问题,如数据挖掘语言的标准化、对多种类型多层次知识的有效挖掘方法、数据的可视化等,但随着研究的深入,数据挖掘技术必将对数字图书馆的建设产生积极的影响。