在信息全球化的今天,为了主动、快速、高效地获取自己需要的信息,人们对于搜索引擎的使用越来越频繁。当前的通用搜索引擎,对于任意查询,其检索结果都是以线性列表的形式组织展现,导致用户很有可能需要浏览多个页面之后才能找到自己需要的信息,这对于用户来说是十分麻烦而且耗时的。在这种背景下,对检索结果进行聚类是一项非常有现实意义的工作。针对此问题,当前已有许多相关的系统和方法,但是,它们都存在着诸多不足,其中聚类标签质量的欠缺尤为明显,从而导致用户体验较差,使得此类系统和研究不能广泛应用开来。<br> 本文首先调研了该问题的国内外研究现状,并具体探讨了搜索引擎和检索结果聚类相关的关键技术和原理。在分析已有工作不足及原因的基础上,本文实现了一种先提取聚类标签,再根据标签进行聚类的算法框架。该方法以标签良好的可读性、描述性和区分性为目标,从搜索结果的标题和摘要集合中抽取合适的短语作为候选。在抽取短语过程中,先将搜索结果文档集合映射到一棵后缀树上,然后利用词性、词频、短语长度、位置距离、LSA分析等特征和技术来计算并挑选符合期望的候选标签。利用上述结果,根据标签和文档的内容关系形成初步聚类,然后在初步聚类结果的基础上,分别计算聚类内部平均相似度、标签的区分度得分等,进一步改进聚类和标签质量。<br> 基于上述研究工作,针对普通检索结果聚类的一种常见应用场景,人名搜索聚类,本文随后进行了深入的研究。对于人名搜索聚类,它的核心在于消歧,对准确率有着较高的要求,需要利用外部准确有效的信息进行指导。本文提出了一种基于隐含主题信息的人名聚类框架,先利用LDA模型对外部海量文本进行主题分析,再将分析得的主题...