客服联系方式

当前位置:首页 » 论文摘要 » 正文

免费论文:面向科技领域的Web对象抽取技术的研究与实现

9621 人参与  2022年03月25日 15:07  分类 : 论文摘要  评论

随着互联网技术的快速发展,Web信息量急剧增加,而用户获取所需信息却越来越难。Web信息抽取能够按照用户需求,从海量Web页面中自动抽取出高质量的结构化数据。Web对象抽取技术是近年来Web信息抽取领域的一个研究热点。该技术专注于如何从不同网站中抽取出同类对象信息,为特定用户提供更加准确的信息服务。本文通过研究传统抽取方法的不足,结合Web对象在页面结构中的特点,提出一种基于页面标签相似度的Web对象块挖掘方法。该方法首先对页面建立DOM树,然后通过比较标签相似度来挖掘Web对象块,并通过分析挖掘结果中噪音数据的特点,通过一种冗余信息剪枝策略,避免了大量噪音的出现。实验表明该方法在Web页面的挖掘中取得较好的效果。本文研究并实现了一种自动抽取Web对象属性信息的方法,该方法用于从Web对象块中抽取用户感兴趣的属性信息。本文对几种常用的统计机器学习模型的优缺点进行分析比较后,选用条件随机场模型作为Web对象属性信息抽取的概率统计模型。根据Web对象自身的特点,制定出用于区分各种属性的特征模板。然后将Web对象块中的属性信息进行中文分词等自然语言处理,结合特征模板提取出相应的特征函数。针对特征函数数量巨大的情况,本文采用一种有限内存BFGS算法对模型的参数进行二阶迭代优化估计。最后通过Viterbi算法对Web对象块的属性字段进行序列化标注,抽取出所需信息。本文通过多组实验确定出最优的参数估计迭代次数与特征模板,并通过与不同模型进行实验比较,分析并验证了该抽取方法的有效性。本文将对象级别信息抽取技术引入到国家科技基础条件平台项目中,结合课题所依托项目——国家科技基础条件平台门户应用系统的特定需求,设计实现了面向科技资源的Web对象信息抽取系统。该系统实现了科技领域的跨网站自动化抽取,为平台门户的科技资源检索提供数据支持。在论文的最后,本文进行了总结并对未来的工作进行了展望,指出在Web对象信息集成方面需要深入的研究。

来源:半壳优胜育转载请保留出处和链接!

本文链接:http://87cpy.com/265455.html

云彩店APP下载
云彩店APP下载

本站部分内容来源网络如有侵权请联系删除

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

站内导航

足球简报

篮球简报

云彩店邀请码54967

    云彩店app|云彩店邀请码|云彩店下载|半壳|优胜

NBA | CBA | 中超 | 亚冠 | 英超 | 德甲 | 西甲 | 法甲 | 意甲 | 欧冠 | 欧洲杯 | 冬奥会 | 残奥会 | 世界杯 | 比赛直播 |

Copyright 半壳优胜体育 Rights Reserved.