互联网的迅速发展,Internet上各种领域的信息越来越丰富,如何对所需求信息进行高效的访问成为日益重要的问题。Web信息集成系统提取来自异种数据源网页中的数据,集成到XML或者关系数据库中,并提供统一的结构化查询、数据挖掘和其他信息服务,是了一种新型的Web访问方式。Web信息集成系统的应用,促进了Web信息提取方法的研究。其中,针对新闻领域信息提取的研究是一个重要的方面。由于Web新闻源的内容更新很快,而信息集成系统保证数据的一致性,需要在较短的时间内完成高质量的数据的提取和集成,这要求信息提取系统具备较高的自动化程度和即时响应的能力。 在本文中分析了Web信息提取相关研究以及应用情况,在当前COMMIX原型系统的基础上,利用了当前Web新闻领域中广泛应用的RSS技术,将人工生成包装器的过程,转化为由系统自动建立从网页的HTML数据到提取结果的结构化数据之间映射的过程,从而实现了Web新闻的自动提取。 此方法的创新处包括: ●提出了利用RSS信息自动生成提取模式的方法,根据RSS与新闻网页之间的映射关系,在网页中自动定位兴趣域节点,取代了人工在样本网页进行标注的方式,实现了提取模式生成过程的自动化; ●设计了基于特征的段落匹配算法——FPM算法,针对提取模式生成过程中的正文段落识别问题,利用了同类节点之间结构和样式的特征构造启发式的匹配算法,根据初始的节点识别其他所有同类段落节点; ●设计了扩展样式路径——XSPath的模型,在XPath的基础上,将HTMLDOM结点的XPath拆分为基本路径和扩展样式用于编写提取模式并应用于整个提取过程中,改进了网页提取的灵活性。 此方法已经在COMMIX原型系统的基础上实现。实验证明,我...