云彩店邀请码|半壳|优胜
文本检索是文本发掘本领的要害目标之一。连年来,跟着计划机本领和搜集本领的赶快兴盛以及数据发掘本领的老练,人们对消息检索 功效和实用性的诉求也越来越高。暂时,对大略、低维的数据检索普遍运用倒排表举行索引。然而,对于高维文本数据,尚无卓有成效的检索本领。 近几年,高维数据的赶快检索题目已接受到越来越多的关心。当数据集很大、向量空间维度很高时,线性检索、R-tree、Kd-tree、SR-tree都不许到达令人合意的检索功效。LSH(Locality Sensitive Hashing,缩写为LSH)算法胜利地处置了高维隔壁数据的赶快检索题目,所以遭到国表里学术界的莫大关心。 正文旨在将LSH算法引入高维文本检索范围,运用LSH算法检索高维隔壁数据赶快、高效的特性,实行一个高维文本的赶快检索体例。其基础思维是,开始对文本索取特性,将其变化到向量空间模子下,再运用LSH算法创造检索库,结果按照索引库中预先生存的隔壁联系,举行高维文本的赶快检索。 正文开始实行二进制向量的LSH算法,而后实行了文本特性采用、IDF计划、文本权重计划、文本一致度计划等功效,并将LSH算法调整到检索体例中。前台步调运用了B/S框架,实行了一个完备的鉴于LSH算法的高维华文文本检索体例。正文在对LSH算法举行深刻领会和接洽之后,运用检索模子中保存数据的散布顺序,对多个场所举行检索,从而对二进制向量的LSH算法做出了矫正。结果,经过精细的试验数据表白:矫正后的算法可经过减少多个检索场所,普及检索的调回率,并在不减少功夫搀杂度的情景低沉低了算法的空间搀杂度。 正文对准LSH算法处置稠密数据高效赶快的个性,矫正了华文检索的特性采用算法。矫正后的特性采用算法,不妨使文本向量散布越发稠密,从而普及了LSH算法的调回率。
来源:半壳优胜鲸鱼幸运星转载请保留出处和链接!
本文链接:http://87cpy.com/210252.html
本站部分内容来源网络如有侵权请联系删除