云彩店邀请码|半壳|优胜
一致反复记载检验和测定和废除是数据荡涤范围里特殊要害的一个上面,它的手段是荡涤冗余数据,普及数据品质。正文辨别对反复记载检验和测定算法、荡涤反复记载算法和数据荡涤的品质评价举行了接洽,归纳领会了反复记载检验和测定算法和荡涤反复记载算法生存的优缺陷,并提出了矫正计划。结果正文鉴于文中提出的矫正算法安排了考证体例,对矫正功效举行了考证。对于反复记载检验和测定算法,正文中心接洽了余弦一致度算法及其三种矫正算法,并计划了各矫正算法的重要奉献。在三次矫正中,一次矫正引入文本掩盖度,对包括沟通特性项的文本计划出的一致度更精确;另一次矫正提出鉴于 权重计划计划两个文本的一致度;再有一次矫正提出鉴于Q-Gram举行特性项的切分,明显贬低了拼写缺点对文本一致度计划形成的感化。正文在上述矫正的普通上,提出限制词频和全部词频的观念,而后据此计划限制权重和全部权重,并最后计划出归纳权重。对于荡涤反复记载算法,重要接洽了两种鉴于索引的算法,领会了其优缺陷。商量到鉴于索引的两个算法本来现都较搀杂,正文鉴于Lucene从新实行了荡涤反复记载的算法。正文精细计划了Lucene创造索引和查问索引进程中所用到的表面普通,而后简直实行了索引的创造和探求。试验截止表白正文的矫正是有功效的,在掩盖率基础普遍的前提下,矫正算法比原算法有更高的精确率。从运转功夫上看,矫正算法在运转功效上的上风不鲜明;然而商量到在检验和测定反复记载算法举行一致度计划时减少了对限制权重的计划,单从荡涤反复记载算法的实行功效上看,矫正算法仍旧优于矫正前算法。
来源:半壳优胜鲸鱼幸运星转载请保留出处和链接!
本文链接:http://87cpy.com/290002.html
本站部分内容来源网络如有侵权请联系删除