在当今的信息时代,网上每天都有海量的数字化信息在生成、存储、传播和转换.这种趋势不可避免地加剧了信息获取的困难,如何有效地利用这些海量信息也成为了亟待解决的难题.给出了一个自适应式的海量半结构化数据采集引擎(AEEMSI)的框架,提出了自适应数据模板、数据网关等概念,并利用此结构框架,开发设计出了可投入实际商业应用的运行系统,完成了对Web中的海量半结构化信息进行提取和重新整合的工作.中文核心期刊要目总览(PKU)中国科学引文数据库(CSCD)0965-68,902
搜索引擎是一个集多种技术于一体的综合性系统.文章对搜索引擎的工作原理进行剖析,对搜索引擎的各个组成部分所涉及的主流技术进行了详尽的阐述.元搜索引擎作为一种新型的搜索引擎,文中对此进行了分析和比较.在了...
介绍一种建构在PC Windows平台上的轻量级自适应搜索引擎的设计方案,实现了WIC原型系统,它主要由网络搜索器、网页索引器、检索器和用户交互界面等部分组成.同时,针对传统搜索引擎的静态特性等缺陷,...
适应度评价大体可以分成解码和计算适应度值两个部分,是进化计算中运算量最大、重复率最高的过程之一.为了有效利用已有计算结果的角度避免大量重复建树和遍历运算,改进了GEP解码算法基本流程以降低GEP的运算...
随着软件构件技术的发展,作为一种有效的构件获取手段,从现有系统中提取构件因其成本与效率优势而成为软件复用与程序理解领域的重要交叉研究领域.针对构件提取的基本步骤,本文从系统分解和度量两个方面对构件提取...
针对传统搜索引擎在搜索过程中产生的临时文件多、占用磁盘空间大的问题,本文改进了搜索引擎的数据结构,采用索引压缩技术减少了临时文件,提高了检索效率。中文核心期刊要目总览(PKU)中国社会科学引文索引(C...
为了满足当前程序理解工具对效率、容错性和灵活性的要求,提出一种模型驱动的面向对象程序抽取方法.并应用这种方法实现了java程序的信息抽取器.这种方法通过对面向对象程序表示模型的分层,采用宽度优先信息抽...
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战.与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息.过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支...
提出了通过结构模式提取,在信息源对缺失信息进行恢复与重构的思想,给出了结构模式提取模型,并讨论了实现该模型的骤与算法,最后结合基于该模型实现的系统对半结构化文档集的结构模式提取及其应用进行了总结.该研...
指代是自然语言中常见的语言现象,大量出现在篇章或对话中.随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性,并成为自然语言处理上热门的研究问题.针对指代和指代消解的有关问题,本文对基本概念...
通过对经济、法律、化学这三类专题型搜索引擎的调查和分析,并与google比较,从技术的角度考察和评价了专题引擎的发展现状,并提出发展建议,以期为专题引擎的发展提供参考.中文核心期刊要目总览(PKU)中...
本文在MILES算法的基础上,提出了一种利用视觉关键词辞典为特征空间的多示例学习算法,并在示例判定的过程中结合分割实现了目标检测与提取。该方法采用“Bag of Words”模型,将图像作为多示例包,...
基于欧氏距离的局部线性嵌入映射算法(LLE)具有一定的局限性,本文从LLE定义出发,将切空间的概念引入LLE中,提出了基于切空间距离的改进LLE算法——TLLE停法,从而能够更...
基于大规模分布式搜索引擎系统--北大"天网"的用户点击记录,本文研究发现:用户点击不同URL的数量遵从Heaps定律,点击URL的频度频级服从类Zipf分布, 点击...
为从微观到宏观了解、掌握和运用围岩蚀变的特征与原岩特征,寻找大型矿床或大型矿集区,在总结常用遥感蚀变信息提取模型的基础上,结合主成分分析(PCA)和支持向量机(SVM)算法,建立了基于“掩模处理-主成...
在这篇论文中,详细研究了共振慢引出在引出时间和横向束流品质方面的理论。对于慢引出的要求:引出时间长度的估算,束流均匀地被引出,引出束流品质要求发射度小,动量分散小。从研究得到的结论可以说明哪一种引出方...
搜索引擎是一个集多种技术于一体的综合性系统.文章对搜索引擎的工作原理进行剖析,对搜索引擎的各个组成部分所涉及的主流技术进行了详尽的阐述.元搜索引擎作为一种新型的搜索引擎,文中对此进行了分析和比较.在了...
介绍一种建构在PC Windows平台上的轻量级自适应搜索引擎的设计方案,实现了WIC原型系统,它主要由网络搜索器、网页索引器、检索器和用户交互界面等部分组成.同时,针对传统搜索引擎的静态特性等缺陷,...
适应度评价大体可以分成解码和计算适应度值两个部分,是进化计算中运算量最大、重复率最高的过程之一.为了有效利用已有计算结果的角度避免大量重复建树和遍历运算,改进了GEP解码算法基本流程以降低GEP的运算...
随着软件构件技术的发展,作为一种有效的构件获取手段,从现有系统中提取构件因其成本与效率优势而成为软件复用与程序理解领域的重要交叉研究领域.针对构件提取的基本步骤,本文从系统分解和度量两个方面对构件提取...
针对传统搜索引擎在搜索过程中产生的临时文件多、占用磁盘空间大的问题,本文改进了搜索引擎的数据结构,采用索引压缩技术减少了临时文件,提高了检索效率。中文核心期刊要目总览(PKU)中国社会科学引文索引(C...
为了满足当前程序理解工具对效率、容错性和灵活性的要求,提出一种模型驱动的面向对象程序抽取方法.并应用这种方法实现了java程序的信息抽取器.这种方法通过对面向对象程序表示模型的分层,采用宽度优先信息抽...
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战.与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息.过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支...
提出了通过结构模式提取,在信息源对缺失信息进行恢复与重构的思想,给出了结构模式提取模型,并讨论了实现该模型的骤与算法,最后结合基于该模型实现的系统对半结构化文档集的结构模式提取及其应用进行了总结.该研...
指代是自然语言中常见的语言现象,大量出现在篇章或对话中.随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性,并成为自然语言处理上热门的研究问题.针对指代和指代消解的有关问题,本文对基本概念...
通过对经济、法律、化学这三类专题型搜索引擎的调查和分析,并与google比较,从技术的角度考察和评价了专题引擎的发展现状,并提出发展建议,以期为专题引擎的发展提供参考.中文核心期刊要目总览(PKU)中...
本文在MILES算法的基础上,提出了一种利用视觉关键词辞典为特征空间的多示例学习算法,并在示例判定的过程中结合分割实现了目标检测与提取。该方法采用“Bag of Words”模型,将图像作为多示例包,...
基于欧氏距离的局部线性嵌入映射算法(LLE)具有一定的局限性,本文从LLE定义出发,将切空间的概念引入LLE中,提出了基于切空间距离的改进LLE算法——TLLE停法,从而能够更...
基于大规模分布式搜索引擎系统--北大"天网"的用户点击记录,本文研究发现:用户点击不同URL的数量遵从Heaps定律,点击URL的频度频级服从类Zipf分布, 点击...
为从微观到宏观了解、掌握和运用围岩蚀变的特征与原岩特征,寻找大型矿床或大型矿集区,在总结常用遥感蚀变信息提取模型的基础上,结合主成分分析(PCA)和支持向量机(SVM)算法,建立了基于“掩模处理-主成...
在这篇论文中,详细研究了共振慢引出在引出时间和横向束流品质方面的理论。对于慢引出的要求:引出时间长度的估算,束流均匀地被引出,引出束流品质要求发射度小,动量分散小。从研究得到的结论可以说明哪一种引出方...
搜索引擎是一个集多种技术于一体的综合性系统.文章对搜索引擎的工作原理进行剖析,对搜索引擎的各个组成部分所涉及的主流技术进行了详尽的阐述.元搜索引擎作为一种新型的搜索引擎,文中对此进行了分析和比较.在了...
介绍一种建构在PC Windows平台上的轻量级自适应搜索引擎的设计方案,实现了WIC原型系统,它主要由网络搜索器、网页索引器、检索器和用户交互界面等部分组成.同时,针对传统搜索引擎的静态特性等缺陷,...
适应度评价大体可以分成解码和计算适应度值两个部分,是进化计算中运算量最大、重复率最高的过程之一.为了有效利用已有计算结果的角度避免大量重复建树和遍历运算,改进了GEP解码算法基本流程以降低GEP的运算...