垂直搜索引擎的体系结构
 
  垂直搜索引擎(主题搜索引擎)主要目标在于构造面向某一主题领域或学科内容的因特网数据资源库、自主地在网络环境中爬取满足指定专题或科目范围需要的数据。为行业专家、专业机构、学科门户网站、指定行业等用户群,提供一整套互联网信息资源的服务方案。
垂直搜索引擎的体系结构
 
  一、垂直搜索引擎的基本原理
 
  对于全文搜索,利用爬虫对其预先进行一个或者一定地址范围内网站的定义、由爬虫内容抓取模块从该提前设定的初始网站开始,进行网页内容的抓取收集,沿着指定的单个(或多个)初始网站上的URLs进行不停的链接间的跳转,并重复该步骤爬虫所抓取的网页。要先进行页面相关度的分析,根据在分析模块中给定的算法进行计算分析,将其所得结果添加到结果数据库中:搜索引擎根据关键词在数据库中匹配出所有.与搜索主题相关网页,再根据引擎中预设的规则,将用户索引所得的网页信息以列表的形式展示出来。
 
  系统的基本结构主要由信息、采集模块、数据组织模块以及用户查询模块组成.
 
  (1)信息采集模块:该模块主要完成从Internet上发现Web站点和URLs并对其进行采集的功能:
 
  (2)数据组织模块:该模块主要是对采集到的信息进行分析、处理,使搜索数据主题关联性大.在用户检索中提供相对应的索引规范,同时为该主题建立对应的索引数据库_
 
  (3)用户查询模块:该模块的作用是提供用户查询关键词的输人、查询结果的显示等功能
 
  二、主题蜘蛛
 
  爬虫是搜索引擎中的重要组成部分,是一个自主处理网页信息并对信息进行爬取的程序仁:垂直型搜索引擎与综合型搜索引擎相比,最突出的区另!}在于垂直型搜索引擎主要侧重于面向特定主题范围.因而适用于它的爬虫仅爬行于指定领域内容网页的信息,与主题相关性越小的网页越容易被摒弃,将这类的程序称为主题蜘蛛(或主题爬虫、聚焦爬虫)。它会在数据搜索的同时对URLs进行判断与识别,分析待爬行的页面是否为与设定的主题相关网站。主题爬虫的主要目的在于可以尽可能少地遍历网站中的链接,尽可能多地在与预设主题内容相关的网页间爬行。
 
  主题蜘蛛需对页面相关度进行分析,使主题相关度高的网页优先下载,通常使用一些相关度分析的评价算法,如面向网页内容评价算法、基于链接相关度的评价算法等。首先等待待下载URL进行与预设主题相关程度的预估,先不对网页进行下载,分析预判页面内包含的或周边相关的已知信息对URL进行筛选,即计算网页与主题的相关程度。将目标网页下载到本地,然后使用主题判断方法对目标页面的主题关联值进行计算,若数值低于某一阀值的网页将不进人爬取数据库。