搜索引擎相关性技术
 
  1、Map-reduce相关性研究
 
  Map-reduce(映射/规约)理念在于将计算分为Map,reduce两个过程,通过<key, value>键位值对说明数据信息。Map-reduce0是采用并行方式计算大规模数据集的编程模型,也是一种分布式计算模型,其核心组成是Map函数与reduce函数。MaPa过程先对客户端信息进行分割,将其分割为一种<key, value>类型数据块,分别调用Map函数将初始数据转化为新的<keyl , valuel>中间数据。Reduce过程调用Reduce函数对于中间数据按照规约整合,得到返回值。
搜索引擎相关性技术
 
  2、分布式网络爬虫
 
  分布式网络爬虫整体设计重点在于爬虫如何进行通信。目前按通信方式不同,分布式网络爬虫可以分为主从模式、自治模式与混合模式3种,其中主从模式是搜索引擎常用模式。主从模式是指由一台主机作为控制节点负责对所有运行网络爬虫的主机进行管理,爬虫只需要从控制节点那里接收任务,并把新生成任务提交给控制节点。在整个过程中不必与其它爬虫通信,这种方式实现简单,利于管理。而控制节点则需要与所有爬虫进行通信,并用一个地址列表保存系统中所有爬虫信息。当系统中爬虫数量发生变化时,协调者需要更新地址列表里的数据,这一过程对于系统中的爬虫是透明的。
 
  3、倒排索引
 
  倒排索引(Inverted index)常被称为反向索引、置人档案或反向档案,是一种索引方法,被用来存储全文搜索中某个单词在一个文档或者一组文档中存储位置的映射。它是文档检索系统中最常用的数据结构,通过倒排索引,可以根据关键词快速获取包含这个单词的文档列表。倒排索引主要由“单词词典”与“倒排文件”两个部分组成。其主要思想是处理器得到一个网页后,对该网页进行分析,对网页中所有去停用词后的词语进行分析,将其出现次数以及该网页的url一同存储人数据库,最终在数据库中得到一个关键字key。其出现在网页的url以及次数为value的数据库文件,从而实现对所抓取网页关键字的倒排索引构建。