大规模中文搜索日志中查询重复性分析
分析大规模中文搜索日志中的查询重复性,通过对查询重复率和用户个体查询重复率等数据的统计发现:查询串的查询频率、文档的点击频率及用户查询频率均符合Zipf分布,查询重复率较高。查询历史越长,查询重复率越高。高查询频率用户的查询重复率较高。以上数据为中文搜索引擎的改进提供了有力的依据。
搜索引擎日志中记录了用户的查询和点击信息。对搜索引擎日志进行分析,从中挖掘出查询特征和用户行为规律,能够为改进搜索引擎效率、提高搜索精度提供依据和指导方向。随着中文网民数量的增加和中文搜索引擎的发展,对中文搜索引擎中用户查询重复性进行统计分析,成为一项非常有意义的工作。大部分现有搜素日志分析工作[’一7}主要分析查询串长度、查询频率分布、用户平均浏览结果页数、会话长度等,针对查询重复性的分析较为简略,一般仅对日志集上的整体查询重复率进行统计。本文对搜索日志中的重复特征进行了详细的分析,统计了不同历史日志天数下日查询请求中查询重复率的变化、用户个体查询重复率的变化以及不同查询频率的用户的查询重复率分布。

目前关于Web搜索引擎中查询重复特征的研究包括:搜索引擎A1taVista中存在较高的查询重复率,大约有1l3的查询串在6个星期中被用户重复使用,Web搜索引擎查询中具有高度的局部性和重复性,少量查询串被大量用户频繁使用,用户查询内容和URL点击表现出明显的局部性;对天网中文搜索引擎一天的查询日志分析指出,日志中查询串数量满足Heaps定律,少量查询串被频繁查询;搜狗中文搜索引擎2006年2月份的日志进行了统计分析,发现该日志集中整体查询重复比例高达91%。这些研究虽然指出了搜索引擎中存在较高的查询重复率,但它们仅对整体查询重复率进行了简单统计。