基于大规模分布式搜索引擎系统--北大"天网"的用户点击记录,本文研究发现:用户点击不同URL的数量遵从Heaps定律,点击URL的频度频级服从类Zipf分布, 点击URL与页面大小相关,点击URL具有时间局部性,其顺序具有自相似性特征等一些具有普适性的规律.提出了利用点击日志确定相近查询词的一个新的有效算法.这些研究结果对于掌握用户的搜索行为,完善搜索引擎系统的设计,提高检索服务的效率和质量具有重要的意义.国家高技术研究发展计划(863计划); 高等学校博士学科点专项科研项目; 中国博士后科学基金中文核心期刊要目总览(PKU)中国科学引文数据库(CSCD)中国社会科学引文索引(CSSCI)02154-1622
从检索功能(如布尔检索、邻近检索、截词检索等)、查准率、用户负担、输出方式上比较了Google和Ask Jeeves两大搜索引擎的检索性能,测试研究发现Google在查准率以及输出方式上明显地优于As...
网络资源是指通过互联网传播共享、以文件目录为主要存储组织结构的内容,如书、讲义、音乐等.每个资源的内容具有完整独立性.它们是数字图书馆、教学资源库、专业内容库藏的重要组成.网络资源的一大特点是命名模式...
本文根据当前网络检索工具的新变化、新特点,提出了一套对网络检索工具进行性能评价与比较的标准,该标准由5个方面组成,分别是:索引数据库构成(如,标引深度、更新频率)、检索功能(基本检索功能与高级检索功能...
介绍了搜索引擎广告系统的基本运作模式.通过对广告四元组的特征提取、特征值平滑等操作,将广告记录解析成为训练数据,并将数据分为训练集和测试集,使用支持向量机算法并利用训练集训练出的模型将测试集分类,从而...
北大"天网"是一个大规模分布式搜索引擎系统.文中对其用户日志进行了分析和研究.结果显示:用户对系统的访问时间并不均等,一天中早晨、下午和晚上各出现一个波峰;通常用户...
搜索引擎是信息时代人们获取所需信息的重要手段,搜索引擎性能度量方法也成为了一个重要的研究课题.本文分析了国内外搜索引擎检索性能度量的研究状况,提出了一种基于用户路径模型的性能度量方法.从用户搜索行为的...
基于大规模分布式WWW搜索引擎系统---北大"天网"的用户日志,该文研究了搜索引擎用户访问量建模分析和预测的一般方法;将用户的访问量看成按时间次序排列的随机变量序列...
本文介绍了"网络用户搜索中语言使用行为的实验研究"的第一部分工作,包括研究的实验设计、被试征集和对搜索价值的定量研究结果.通过在北大未名BBS公开版面征集,最终有3...
搜索引擎检索系统的质量评估对传统信息检索系统评估带来了新的研究问题.利用Tiangwang搜索引擎查询日志,按类别构造评估查询集,用人工判别相关性的方法对3个搜索引擎进行了检索质量评估.实验用Info...
本文介绍了"网络用户搜索中语言使用行为的实验研究"的第三部分工作,包括用户网络搜索的入口.提示词的利用和评价,用户对首屏检索结果的评价,翻屏行为及它们之间的相互关系...
通过对经济、法律、化学这三类专题型搜索引擎的调查和分析,并与google比较,从技术的角度考察和评价了专题引擎的发展现状,并提出发展建议,以期为专题引擎的发展提供参考.中文核心期刊要目总览(PKU)中...
文章在当前搜索技术研究成果基础上,使用数据挖掘领域前沿技术对海量网页数据进行分析处理,从内容存储、内容检索以及内容排名3个方面对搜索引擎算法进行重新建模,基于用户意图模型构建方式,使得提出的智能搜索算...
【目的】提出一套基于用户搜索意图的智能搜索引擎系统框架理念,并研究核心排序算法。【方法】基于用户搜索意图从内容存储、内容检索以及内容排名三个方面出发对搜索引擎算法进行重构,并在内容排名算法中综合考虑内...
搜索引擎日志记录了用户与系统交互的整个过程.对日志文件进行挖掘,可以发现用户进行Web搜索的行为特征与规律,有效改善搜索引擎系统的性能.在对国内外相关研究进行系统梳理和总结的基础上,文章提出了一个We...
认为移动搜索用户行为特征与规律的发现,对移动搜索服务的改进具有重要的参考价值基于国内某大型学术类网站一批包含300余万条有效记录的日志数据,分析查询串、搜索时间的分布、搜索会话、移动搜索设备终端等我国...
从检索功能(如布尔检索、邻近检索、截词检索等)、查准率、用户负担、输出方式上比较了Google和Ask Jeeves两大搜索引擎的检索性能,测试研究发现Google在查准率以及输出方式上明显地优于As...
网络资源是指通过互联网传播共享、以文件目录为主要存储组织结构的内容,如书、讲义、音乐等.每个资源的内容具有完整独立性.它们是数字图书馆、教学资源库、专业内容库藏的重要组成.网络资源的一大特点是命名模式...
本文根据当前网络检索工具的新变化、新特点,提出了一套对网络检索工具进行性能评价与比较的标准,该标准由5个方面组成,分别是:索引数据库构成(如,标引深度、更新频率)、检索功能(基本检索功能与高级检索功能...
介绍了搜索引擎广告系统的基本运作模式.通过对广告四元组的特征提取、特征值平滑等操作,将广告记录解析成为训练数据,并将数据分为训练集和测试集,使用支持向量机算法并利用训练集训练出的模型将测试集分类,从而...
北大"天网"是一个大规模分布式搜索引擎系统.文中对其用户日志进行了分析和研究.结果显示:用户对系统的访问时间并不均等,一天中早晨、下午和晚上各出现一个波峰;通常用户...
搜索引擎是信息时代人们获取所需信息的重要手段,搜索引擎性能度量方法也成为了一个重要的研究课题.本文分析了国内外搜索引擎检索性能度量的研究状况,提出了一种基于用户路径模型的性能度量方法.从用户搜索行为的...
基于大规模分布式WWW搜索引擎系统---北大"天网"的用户日志,该文研究了搜索引擎用户访问量建模分析和预测的一般方法;将用户的访问量看成按时间次序排列的随机变量序列...
本文介绍了"网络用户搜索中语言使用行为的实验研究"的第一部分工作,包括研究的实验设计、被试征集和对搜索价值的定量研究结果.通过在北大未名BBS公开版面征集,最终有3...
搜索引擎检索系统的质量评估对传统信息检索系统评估带来了新的研究问题.利用Tiangwang搜索引擎查询日志,按类别构造评估查询集,用人工判别相关性的方法对3个搜索引擎进行了检索质量评估.实验用Info...
本文介绍了"网络用户搜索中语言使用行为的实验研究"的第三部分工作,包括用户网络搜索的入口.提示词的利用和评价,用户对首屏检索结果的评价,翻屏行为及它们之间的相互关系...
通过对经济、法律、化学这三类专题型搜索引擎的调查和分析,并与google比较,从技术的角度考察和评价了专题引擎的发展现状,并提出发展建议,以期为专题引擎的发展提供参考.中文核心期刊要目总览(PKU)中...
文章在当前搜索技术研究成果基础上,使用数据挖掘领域前沿技术对海量网页数据进行分析处理,从内容存储、内容检索以及内容排名3个方面对搜索引擎算法进行重新建模,基于用户意图模型构建方式,使得提出的智能搜索算...
【目的】提出一套基于用户搜索意图的智能搜索引擎系统框架理念,并研究核心排序算法。【方法】基于用户搜索意图从内容存储、内容检索以及内容排名三个方面出发对搜索引擎算法进行重构,并在内容排名算法中综合考虑内...
搜索引擎日志记录了用户与系统交互的整个过程.对日志文件进行挖掘,可以发现用户进行Web搜索的行为特征与规律,有效改善搜索引擎系统的性能.在对国内外相关研究进行系统梳理和总结的基础上,文章提出了一个We...
认为移动搜索用户行为特征与规律的发现,对移动搜索服务的改进具有重要的参考价值基于国内某大型学术类网站一批包含300余万条有效记录的日志数据,分析查询串、搜索时间的分布、搜索会话、移动搜索设备终端等我国...
从检索功能(如布尔检索、邻近检索、截词检索等)、查准率、用户负担、输出方式上比较了Google和Ask Jeeves两大搜索引擎的检索性能,测试研究发现Google在查准率以及输出方式上明显地优于As...
网络资源是指通过互联网传播共享、以文件目录为主要存储组织结构的内容,如书、讲义、音乐等.每个资源的内容具有完整独立性.它们是数字图书馆、教学资源库、专业内容库藏的重要组成.网络资源的一大特点是命名模式...
本文根据当前网络检索工具的新变化、新特点,提出了一套对网络检索工具进行性能评价与比较的标准,该标准由5个方面组成,分别是:索引数据库构成(如,标引深度、更新频率)、检索功能(基本检索功能与高级检索功能...