基于关键名词短语聚类的中文搜索结果聚类
 
  目前,搜索结果聚类方法大多数采用基于文档的方法,不能生成有意义的聚类标签。为了解决这个问题,提出一种基于关健名词短语聚类的中文搜索结果聚类方法,该方法将名词短语、相关搜索词作为候选聚类标签,利用C-Value算法、IDF值筛选和签,然后使用Chameleon算法将标签聚类,最后将搜索结果划分到最相关的聚类簇。实验证明,该方法把关键名词短语和相关搜傣词作为聚类标签,有效地提高了标签的描述性.降低了聚类算法的时间复杂度。
 
  目前大多数搜索引擎的搜索结果按相关度排序后,以线性列表的形式返回给用户。由于Web的网页数量巨大,查询信息不容易用简短查询词组准确表达,导致一次搜索返回的结果过多,尤其是查询词为热门词、多义词时,搜索会返回许多低质量的结果,这使得用户可能用很长时间才能找到自己需要的结果。如果对搜索结果进行聚类,把搜索结果组织成具有层次的类结构,并给每个类赋予一个具有良好描述性的标签,那么将会大大减少用户查找自己所需要的结果的时间。
基于关键名词短语聚类的中文搜索结果聚类
  聚类算法按聚类标签提取的先后可分为基于文档(document-based)的方法和基于标签(label-based)的方法。基于文档的方法,一般采用向量空间模型(VectorSpaceModel,VSM),将搜索结果向量化后,根据向量之间的相似度大小确定是否将它们归为一类,最后从划分好的类中提取聚类标签。这类算法的优点是易于实现,缺点是聚类标签的质量受聚类准确性的影响,常常产生不可读的标签。基于标签(label-based )的方法,首先从搜索结果中抽取有代表性的词、短语、片段作为聚类标签,然后对聚类标签筛选、聚类,最后将搜索结果划分到最相关的聚类类别中。这类聚类算法的优点是产生的聚类标签描述性强、易于理解,难点在于聚类标签的抽取和筛选。
 
  在借鉴中文术语抽取和文本聚类的基础上,结合搜索引擎自身的特点,提出了一种基于关键名词短语聚类的中文搜索结果聚类方法。经大量数据分析,发现中文术语基本上都是名词短语形式,而搜索引擎返回的“相关搜索”能够补充一些非名词短语形式的专有词、新词,如“熊猫烧香”,因此该文将名词短语和相关搜索词作为候选聚类标签,用C-Value算法和IDF筛选出聚类标签,最后将聚类标签的共现信息作为聚类标签的相似度,用Chameleon算法进行聚类。将关键名词短语和相关搜索词作为聚类标签能显著提高聚类标签的描述性,而且大大降低了聚类算法的数据维度,提高了聚类算法的效率。
 
  针对搜索结果的聚类问题,提出了一种基于关键名词短语聚类的中文搜索结果聚类方法,实验证明与基于词频的关联规则相比,该文的聚类标签质量更好,分类更合理。聚类质量的瓶颈是中文分词,因为中文分词是关键名词短语抽取的基础。未来的工作:引入词典,对候选聚类标签中的同义词、近义词进行处理,可以有效地提高候选标签的质量、降低聚类算法的数据维度等。