半壳优胜

云彩店邀请码|半壳|优胜

当前位置：首页 » 论文摘要 » 正文

免费论文摘要：鉴于LSH算法的高维华文文本检索体例的接洽和实行

6211 人参与 2022年02月02日 14:07 分类 : 论文摘要评论

文本检索是文本发掘本领的要害目标之一。连年来，跟着计划机本领和搜集本领的赶快兴盛以及数据发掘本领的老练，人们对消息检索功效和实用性的诉求也越来越高。暂时，对大略、低维的数据检索普遍运用倒排表举行索引。然而，对于高维文本数据，尚无卓有成效的检索本领。近几年，高维数据的赶快检索题目已接受到越来越多的关心。当数据集很大、向量空间维度很高时，线性检索、R-tree、Kd-tree、SR-tree都不许到达令人合意的检索功效。LSH（Locality Sensitive Hashing，缩写为LSH）算法胜利地处置了高维隔壁数据的赶快检索题目，所以遭到国表里学术界的莫大关心。正文旨在将LSH算法引入高维文本检索范围，运用LSH算法检索高维隔壁数据赶快、高效的特性，实行一个高维文本的赶快检索体例。其基础思维是，开始对文本索取特性，将其变化到向量空间模子下，再运用LSH算法创造检索库，结果按照索引库中预先生存的隔壁联系，举行高维文本的赶快检索。正文开始实行二进制向量的LSH算法，而后实行了文本特性采用、IDF计划、文本权重计划、文本一致度计划等功效，并将LSH算法调整到检索体例中。前台步调运用了B/S框架，实行了一个完备的鉴于LSH算法的高维华文文本检索体例。正文在对LSH算法举行深刻领会和接洽之后，运用检索模子中保存数据的散布顺序，对多个场所举行检索，从而对二进制向量的LSH算法做出了矫正。结果，经过精细的试验数据表白：矫正后的算法可经过减少多个检索场所，普及检索的调回率，并在不减少功夫搀杂度的情景低沉低了算法的空间搀杂度。正文对准LSH算法处置稠密数据高效赶快的个性，矫正了华文检索的特性采用算法。矫正后的特性采用算法，不妨使文本向量散布越发稠密，从而普及了LSH算法的调回率。

来源：半壳优胜鲸鱼幸运星转载请保留出处和链接！

本文链接：http://87cpy.com/210252.html