半壳优胜

云彩店邀请码|半壳|优胜

当前位置：首页 » 论文摘要 » 正文

免费论文：面向科技领域的Web对象抽取技术的研究与实现

9657 人参与 2022年03月25日 15:07 分类 : 论文摘要评论

随着互联网技术的快速发展，Web信息量急剧增加，而用户获取所需信息却越来越难。Web信息抽取能够按照用户需求，从海量Web页面中自动抽取出高质量的结构化数据。Web对象抽取技术是近年来Web信息抽取领域的一个研究热点。该技术专注于如何从不同网站中抽取出同类对象信息，为特定用户提供更加准确的信息服务。本文通过研究传统抽取方法的不足，结合Web对象在页面结构中的特点，提出一种基于页面标签相似度的Web对象块挖掘方法。该方法首先对页面建立DOM树，然后通过比较标签相似度来挖掘Web对象块，并通过分析挖掘结果中噪音数据的特点，通过一种冗余信息剪枝策略，避免了大量噪音的出现。实验表明该方法在Web页面的挖掘中取得较好的效果。本文研究并实现了一种自动抽取Web对象属性信息的方法，该方法用于从Web对象块中抽取用户感兴趣的属性信息。本文对几种常用的统计机器学习模型的优缺点进行分析比较后，选用条件随机场模型作为Web对象属性信息抽取的概率统计模型。根据Web对象自身的特点，制定出用于区分各种属性的特征模板。然后将Web对象块中的属性信息进行中文分词等自然语言处理，结合特征模板提取出相应的特征函数。针对特征函数数量巨大的情况，本文采用一种有限内存BFGS算法对模型的参数进行二阶迭代优化估计。最后通过Viterbi算法对Web对象块的属性字段进行序列化标注，抽取出所需信息。本文通过多组实验确定出最优的参数估计迭代次数与特征模板，并通过与不同模型进行实验比较，分析并验证了该抽取方法的有效性。本文将对象级别信息抽取技术引入到国家科技基础条件平台项目中，结合课题所依托项目——国家科技基础条件平台门户应用系统的特定需求，设计实现了面向科技资源的Web对象信息抽取系统。该系统实现了科技领域的跨网站自动化抽取，为平台门户的科技资源检索提供数据支持。在论文的最后，本文进行了总结并对未来的工作进行了展望，指出在Web对象信息集成方面需要深入的研究。

来源：半壳优胜鲸鱼幸运星转载请保留出处和链接！

本文链接：http://87cpy.com/265455.html