万维网(World Wide Web)已经成为一个最为广泛的信息媒体,以及最丰富和最密集的信息来源.因此,目前知识发现以及本体构建和演化等领域的研究都把万维网作为数据源和驱动力.然而要使得机器能不断地发现知识,数据源中应该隐含知识,而且其中的知识含量越高,浓度越大,越有利于知识的发现.搜索引擎是一种特殊的网络应用,随着WWW的无限扩张而成为了人们访问WWW的重要门户.人们在使用搜索引擎的目的是获取信息,而同时又把自己的知识潜移默化地告诉了计算机.搜索引擎日志中包含了成万上亿人的智慧的点滴,而且范围广,更新快,与整个WWW的信息相比知识含量浓度高.因此,该论文把搜索引擎日志作为知识发现的数据源,在已有研究的基础上,从粗到细,由浅入深地提出了三个模型及相应的方法来计算查询之间的语义相似度——知识发现中最重要最基本的一环.并给出了比较详细的实验结果.二部图(Bipartite)模型把查询的特征值之间的相似度函数连续化,用带权的二部图描述问题,使用二部图中匹配的最大权重和来表示查询的相似度;Hyperlink模型把查询抽象成页面,同特征值一起放回到WWW环境中,通过超级链接拓展成一个有向图,通过通路数的带权求和表示相似度;Hub-Authority模型是Hyperlink模型的进一步细化.核心思想是网页与网页之间的直接的超级链接也存在差别,并使用网页之间的知名度差异来定义这种差别.计算节点知名度采用的是Kleinberg的迭代算法.另外,针对如何进一步识别相似的类型,提出了一些初步的想法.并展望了知识发现在搜索引擎个性化以及提高搜索引擎的查准率等问题上的作用.