电子商务营销搜索引擎的精确度优化设计
图1 精确搜索引擎的基础框架
 
  一、精确搜索引擎的基础框架
 
  收集索引和查询模块是常规搜索引擎的两个主要部分。而精确搜索引擎不但这两个部分,同时增加了分析模块和ISML 语言标志设计的格式转换模块。当前,大多数在互联网上(Internet)的页面是使用HTML和XML 编写的。如果是运用XML 编写的网页,高精确度的搜索引擎需要先XML 数据源转换HTML 文档格式,然后通过分析仪将它转换成一个固定网站主题模式,并将这些网站模型通过转换模块将ISML 语言标记,这是整个转换的基本过程和功能模块。基于电子商务精确搜索引擎模型可以设计成由以下六个模块组成:即蜘蛛机器人、分析模块、转换模块、解析模块、索引模块和查询模块[4]。如图1 所示。
 
  二、精确搜索引擎的实现路径
 
  信息提取算法、文档解析算法、规则匹配算法及相关性文档生成算法是精确搜索引擎设计的主要几个部分,其构思基本逻辑是通过蜘蛛模块收集、掌握电子商务销售网站的相关信息,然后根据规则提取树模型和信息提取算法对信息进行进一步提取,并在人工注释的指向下自动学习信息提取规则,实现提高信息提取精度。
 
  HTML 语言文件解析工具是一个HTML 语言的文件结构,该结构是由使用标识有限自动机的状态转换图描述令牌算法,通过HTML 格式标准考虑膨胀的各种类型的节点而设计的。所以,HTML 文件解析工具是一个包括所有的元素层次结构树且能为自动标记及其他后续工作做准备的集成模块,它应该要同时能够实现,提取、标记、分析等功能。详细如下:
 
  输入:层次结构树的结构元素
 
  输出:XML 文档或解析HTML 文档和相关元素的数组
 
  过程:
 
  New Elem (“ROOT”) :
 
  While {CurToken = GetToken ( ) ) //循环获取HTML 文档中的Token
 
  {switch (CurToken type)
 
  case COMMENT, PI, CDATA, SECTION, JSTE, PHP, ASP, ENDTAG: CONTINUE;
 
  case DOCTYPE:
 
  //在结构树根节点的子节点里加入遇到的第一个文件类型
 
  if
 
  InsertElemAtEnd (ElemArray[0],
 
  NewElem (“DOCTYPE”) ) ;
 
  continue;
 
  case else
 
  html = NewElem (“HTML”) ;
 
  if (CurToken 实施标记非HTML 元素)
 
  设置当前的Token 为未被使用标识;
 
  else
 
  复制CurToken. Attributes 的内容到html attributes;
 
  InsertElemAtEnd (ElemArray[0], html) ;
 
  调用ParseHTML 分析HTML 元素的内容;
 
  Exit while;
 
  }}
 
  信息提取算法可以把良好的预处理器链标记结构格式标签。它的设计主要功能是: 要通过提取规则来确认每个格式标签字符串在相应的内容和链匹配中是否一致,同时还要检查并确认链的第一个标签和提取规则的ID 为0 是否一致。
 
  如< ISML:madefrom ID = 3 / >需求链中在当前标签字符串包含限定符(商品产地:)和中低标签文本之间的链只包含“< /li >”限定符。以此类推,如果链和提取规则的字符串可以相互匹配到最后格式标签,那么则匹配成功;如果匹配不成功,用户再一次进行文档标注,同时形成新的规则,这是由系统和规则库添加到匹配规则,直到最终匹配成功。
 
  此外,因为越多的信息提取会大大增加规则库的更新频率,将导致匹配效率低。解决这个问题可以通过规则匹配算法来解决。以下对基本构想作简要介绍:
 
  构建一个链式结构(如图2),该结构是根据一个根节点为树形模型的初始状态,定义标识各个提取信息规则然后先后加入该链式结构中,用于匹配信息数据标识,匹配若不成功,就将该匹配失败的规则后续部分链接到前一次匹配成功的节点上,让程序完成所有匹配指令;匹配若成功,则由链式结构继续匹配后续内容。
 
  该链式结构能够实现大量缩短匹配时间,提高匹配效率的地方在于:在确保每个节点标签的各路径的节点表识相互匹配的基础上,采用深度遍历搜索路径的原理,当识别到某条路径可以形成关联规则,则系统根据该路径信息提取相关标签链,然后这些所有别提取的标签链将会比存储在规则库中,当发生匹配失败时就可以在当前节点调取规则库进行直接再匹配,不用再从头开始匹配。这种方法当发生海量规则标签的环境下,其效率优势将更为明显。(如图2 所示)
图2 链式结构匹配