客服联系方式

当前位置:首页 » 论文摘要 » 正文

免费论文摘要:构造化数据记载去重算法的接洽与优化

8290 人参与  2022年05月18日 19:44  分类 : 论文摘要  评论

一致反复记载检验和测定和废除是数据荡涤范围里特殊要害的一个上面,它的手段是荡涤冗余数据,普及数据品质。正文辨别对反复记载检验和测定算法、荡涤反复记载算法和数据荡涤的品质评价举行了接洽,归纳领会了反复记载检验和测定算法和荡涤反复记载算法生存的优缺陷,并提出了矫正计划。结果正文鉴于文中提出的矫正算法安排了考证体例,对矫正功效举行了考证。对于反复记载检验和测定算法,正文中心接洽了余弦一致度算法及其三种矫正算法,并计划了各矫正算法的重要奉献。在三次矫正中,一次矫正引入文本掩盖度,对包括沟通特性项的文本计划出的一致度更精确;另一次矫正提出鉴于 权重计划计划两个文本的一致度;再有一次矫正提出鉴于Q-Gram举行特性项的切分,明显贬低了拼写缺点对文本一致度计划形成的感化。正文在上述矫正的普通上,提出限制词频和全部词频的观念,而后据此计划限制权重和全部权重,并最后计划出归纳权重。对于荡涤反复记载算法,重要接洽了两种鉴于索引的算法,领会了其优缺陷。商量到鉴于索引的两个算法本来现都较搀杂,正文鉴于Lucene从新实行了荡涤反复记载的算法。正文精细计划了Lucene创造索引和查问索引进程中所用到的表面普通,而后简直实行了索引的创造和探求。试验截止表白正文的矫正是有功效的,在掩盖率基础普遍的前提下,矫正算法比原算法有更高的精确率。从运转功夫上看,矫正算法在运转功效上的上风不鲜明;然而商量到在检验和测定反复记载算法举行一致度计划时减少了对限制权重的计划,单从荡涤反复记载算法的实行功效上看,矫正算法仍旧优于矫正前算法。

来源:半壳优胜鲸鱼幸运星转载请保留出处和链接!

本文链接:http://87cpy.com/290002.html

鲸鱼幸运星云彩店APP下载
鲸鱼幸运星APP下载

本站部分内容来源网络如有侵权请联系删除

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

站内导航

足球简报

篮球简报

云彩店邀请码54967

    云彩店app|云彩店邀请码|云彩店下载|半壳|优胜|鲸鱼|幸运星

NBA | CBA | 中超 | 亚冠 | 英超 | 德甲 | 西甲 | 法甲 | 意甲 | 欧冠 | 欧洲杯 | 冬奥会 | 残奥会 | 世界杯 | 比赛直播 |

Copyright 半壳优胜体育 Rights Reserved.