客服联系方式

当前位置:首页 » 论文摘要 » 正文

论文摘要:基于向量空间模型的文本聚类方法研究与实现

7718 人参与  2022年05月18日 20:33  分类 : 论文摘要  评论

近年来随着Internet的大规模普及和大型数字化知识资源库的兴起,以电子形式存在的文本信息飞速增长,针对大规模知识数据的管理、数字化加工、知识获取、资源检索等信息处理技术得到了广泛的重视。文本聚类作为文本挖掘技术的重要内容,能够根据数据内在分布将文本划归不同的类别,以达到更好地把握整个文本集的目的,在对文本数据的分析、组织和管理中具有重要意义。然而文本数据固有的无结构或半结构化特性加之自然语言的丰富性,使得文本数据存在高维度、内在稀疏等特点,给聚类算法的应用带来了很大困难。 本论文针对文本数据的以上特点,研究文本聚类中特征选择、数据降维、降低运算复杂度等关键问题,研究出一种有效的文本聚类机制,以达到改善聚类效果、提高聚类效率的目的。 本文的主要工作和取得的成果如下: 利用数据场方法实现了多代表点的提取,并在此基础上提出了一种基于多代表点方法的聚类模型。该方法通过拟合数据的势场分布,提取核心代表点参与聚类,达到了提取核心文本、简化数据集、提高算法运算效率的目的。 在分析和研究了常用特征选择方法的基础上,改进了特征强度特征选择方法以适应文本聚类处理的要求。其特征选择效果明显好于常用无指导特征选择方法,实现了文本数据集的有效降维。 结合文本预处理和具体聚类算法设计并实现了基于向量空间模型方法的文本聚类工具,可实现文本的分词、词干提取、向量表示、特征提取、代表点提取、聚类分析、结果评价、关键词提取等功能,实现了文本聚类的全过程。

来源:半壳优胜育转载请保留出处和链接!

本文链接:http://87cpy.com/296332.html

云彩店APP下载
云彩店APP下载

本站部分内容来源网络如有侵权请联系删除

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

站内导航

足球简报

篮球简报

云彩店邀请码54967

    云彩店app|云彩店邀请码|云彩店下载|半壳|优胜

NBA | CBA | 中超 | 亚冠 | 英超 | 德甲 | 西甲 | 法甲 | 意甲 | 欧冠 | 欧洲杯 | 冬奥会 | 残奥会 | 世界杯 | 比赛直播 |

Copyright 半壳优胜体育 Rights Reserved.