数据挖掘技术在智能搜索引擎中的应用
 
  随着用户需求的精确性要求,实现个性化、智能化搜索引擎是大数据网络发展的主要趋势。传统的搜索引擎在精确性、个性化服务上存在缺陷。因此本文利用数据挖掘技术的特性设计一款基于数据挖掘的个性化信息检索系统(PIRSB原DM),重点是为用户提供精确化、个性化的信息查询结果。在该系统中主要应用数据挖掘中的类别规则挖掘、基于关键词向量的文档分类挖掘以及基于SOM文档聚类挖掘方法以此满足个性化信息需求。具体的步骤为:首先通过对用户的个人信息的观察后,对用户的兴趣进行提取、描述等建立“用户个性化信息库”,对用户的访问日志采取关联规则的挖掘方法,同时不断地更新用户数据库。用户经过反馈将感兴趣的文档进行聚类挖掘,以此更新用户个性特征向量表。
 
  1、PIRSBDM系统体系结构
 
  基于数据挖掘技术的智能搜索引擎系统的结构运行流程为:首先用户根据自己的信息需求提交查询请求,中介数据库对用户查询主题进行模式化、以此产生精准化的检索模式,结合用户个人的特征向量表、关键词表等给用户提供最佳的搜索引擎模块;其次对于提供的最佳搜索引擎模块信息会提交“信息检索中心”,当然检索中心所提供的信息可能会存在不符合用户兴趣的内容,因此结合用户的个性兴趣等,例如数据挖掘技术中的分类挖掘等技术将重复的信息或者对用户不感兴趣的信息过滤掉,以此得到个性化的信息。
 
  (1)用户。为了帮助用户准确的查询到自己感兴趣的信息,设计用户输入模块,其主要包括:模板、词典、关键词以及同义词。用户模块是智能搜索引擎构建的基础,也是智能搜索引擎设计的关键。
 
  (2)最优检索式最优搜索引擎模块。该模块主要接收经过中介索引库转化的用户请求,将其变为能够被搜索引擎识别的格式,结合用户关键词表,如果用户搜索的关键词在该数据库中说明用户查询过,对此系统就会直接为用户提供相应的查询结果。但是如果该关键词在数据中没有,则表明用户没有查询过,对此系统就会对该关键词进行归类,如果在“关键词表”中存在该类别,则只需要将该关键词作为已有的属性值,如果没有则需要添加,以此更新“关键词表”。本模块主要完成的功能是,接收用户的转换后的“查询请求”,结合“用户个性化信息库”和“搜索引擎信息库”选择最优搜索引擎进行搜索,同时可以不断的更新“用户查询关键词表”。
 
  (3)聚类挖掘模块。该模块的主要功能就是更新“用户信息库”中的用户特征向量表。实现个性化搜索引擎的关键就是根据用户的特征为其提供相应的信息,例如该模块所具备的跟踪用户学习、记忆用户兴趣可以增强搜索引擎的效率。实现该模块的方法主要是用户将自己感兴趣的信息按照特定的格式提交系统或者用户兴趣学习。
 
  (4)关联规则挖掘模块。该模块出于用户与用户数据库之间,其作用主要是通过对用户日志的挖掘,寻求用户各个检索关键词之间的关联规则,以此发现用户潜在的兴趣,并且更新用户关键词表信息。挖掘的对象是以关键词作为列的内容,而以每次的检索事务中所查询的关键词组合成一行,通过对日志的挖掘形成的“用户查询关键词表”,挖掘出的用户的个性化信息。
 
  (5)搜索引擎信息库。信息库是支撑搜索引擎的基础,搜索引擎信息库能够及时根据用户检索需求而提供相应的数据。搜索引擎信息库的构建应该具备网站、中文名字等等信息。
数据挖掘技术在智能搜索引擎中的应用
 
  2、PIRSBDM系统关键技术
 
  构建基于数据挖掘技术的智能搜索引擎需要重点利用以下关键技术:
 
  (1)关联规则挖掘
 
  该技术是数据挖掘技术的重要组成部分,它可以发现数据库中项或属性间的有趣关系。由于这些关系具有隐蔽性或者预先未知,因此难以依靠数据库逻辑实现,必须要通过关联规则挖掘技术进行实现。关联规则挖掘的过程分成两个步骤。第一步发现所有的频繁项目集,即支持度大于给定最小支持度阈值的项集;第二步根据所获得的频繁项目集产生关联规则,根据定义,这些规则必须满足最小置信度阈值。对于关联规则的算法主要采取的是Apriori算法。首先找出频繁1-项集,记为L1;然后利用L1来挖掘L2,即频繁2-项集;不断如此循环下去直到无法发现更多的频繁k-项集为止。每挖掘一层Lk就需要扫描整个数据库一遍。
 
  (2)基于关键词向量的文档分类挖掘
 
  文档分类是实现智能搜索引擎的关键,文档顾名思义就是用来描述一定规则的文档,文档归类就是将大量的文档按照一个主题进行归类的过程。因此文档的分类直接关系到搜索引擎体系的构建。文档分类就是根据数据库信息种类属性进行特征归类,以此准确的为用户提供信息检索服务。当然在文档归类挖掘前必须要对文档相识度进行计算以及保证文档归类的合理性。例如文档相识度越接近,这样就可以更好的对属性相同的文档进行统一归类,便于提高检索速度,提升用户的满意度。
 
  (3)基于SOM的Web文档层次聚类方法
 
  聚类是一种无监督分类法,在聚类之前没有预先指定的类别。SOM网络的优点在于:可以实现实时学习,网络具有自稳定性,无须外界给出评价函数,能够识别向量空间中最有意义的特征,抗噪音能力强。Web文档的聚类:首先训练SOM网络。构造SOM聚类神经网络:以训练样本的N个(N=182)特征词作为SOM网络的输入神经元,人为限定M个(M=10)文档类别作为SOM网络的输出神经元,构成一个二层的Web文档自组织聚类训练SOM网络。提取文档特征词,构造输入向量序列Xk。将输入向量逐一输入SOM网络,进行学习训练;其次聚类用户感兴趣的文档。聚类用户感兴趣文档的处置流程为:中文文档经过预处理提取主题词,然后生成输入模式向量、文档自组织映射。预处理模块的主要作用就是为了利用SOM方法对文档进行有效地编码,例如在预处理模块需要对文档中的图形、非文字等信息进行处理,以此保证可以准确的提取到关键词,最终输入到训练好的SOM网络中进行层次聚类。对于输入向量,则是通过SOM网络所进行点积运算,以此获得相应的输出获胜结点,该结点也就是聚类中心。相应的聚类中心所构成的文档会形成同一类别的文档。如果某文档所包含的文档越多,说明用户对该方面的信息需求比较多。在实际的系统应用设计中需要注意以下两个问题:一是由于SOM属于多层次系统,因此可以采取多层聚类,这样可以减少系统的计算工作任务,以此更好的提高运行效率;二是要对用户的文档进行定时机制设计,例如可以设计夜里执行层次聚类的模式,这样可以增强信息储存量。