云彩店邀请码|半壳|优胜
本舆论在散布式平台Hadoop的普通上接洽分门别类、关系发掘算法,实行大数据下的散布式数据发掘算法,结果以发掘品牌检索词为试验来考证算法的可行性。本舆论对散布式算法模子做了接洽,散布式算法的中心是要满意散布式和并行性两个前提。Hadoop散布式文献体例处置了洪量数据的散布式保存题目,而MapReduce并行计划框架实行了工作的并行计划。正文在典范的数据发掘算法普通上,对保守的俭朴贝叶斯分门别类及Apriori关系发掘算法做了窜改和矫正。在分门别类发掘中,沿用俭朴贝叶斯算法来演练和尝试分门别类模子。在特性采用上,沿用卡方检查来剔除与类明显不关系的特性,模子精确率普及了1%安排。俭朴贝叶斯分门别类的精确率和先验几率的散布出色关系,舆论安排了一个自符合的模子演练算法来安排和优化演练样品的先验几率散布,使得模子的精确率由92.98%普及到96.08%。按照这个分门别类模子实行了散布式分门别类算法,使之符合散布式情况下的分门别类发掘。在关系发掘中,为了贬低典范的Apirori算法对外存的控制,把算法分红两个办法,先统计限制一再项集再考证能否全部一再。结果实行了散布式的关系发掘算法,使之符合散布式情况下的关系发掘。舆论经过对洪量检索词举行散布式的分门别类及关系发掘试验,考证了在Hadoop散布式平台长进行散布式并行发掘的可行性。对数据发掘的截止举行了领会,阐明了对洪量检索词举行数据发掘的要害性。同声对舆论的处事做了归纳,对下一步的接洽目标提出了几点构想。
来源:半壳优胜鲸鱼幸运星转载请保留出处和链接!
本文链接:http://87cpy.com/290534.html
本站部分内容来源网络如有侵权请联系删除