客服联系方式

当前位置:首页 » 论文摘要 » 正文

论文摘要:文本层次分类研究与实现

6464 人参与  2022年04月04日 16:50  分类 : 论文摘要  评论


高效的信息技术使互联网积累了大量文本数据,先进的信息检索和数据分析技术使人们热衷于对数据的挖掘和利用。为组织和利用数据,人们往往借助主观经验将文本进行归类。然而,扁平的类别结构难以满足现代信息管理的需要。有的机构甚至在数据积累之前,就提出复杂的类别层次体系。这种无标注语料的层次分类问题,使传统分类方法陷入了窘境。

针对缺少监督训练数据的层次分类问题,本文分别从层次分类算法的角度、文本表示的角度和如何解决监督数据稀缺的角度展开研究。

在研究层次分类的算法中,本文提出了一种候选者策略,用于缓解层次分类过程中的阻塞问题。该方法能够在F值上提升层次朴素贝叶斯和层次Logistic回归的分类效果,并且在阈值选择方面有很高的灵活性。

本文将词向量技术应用于文本表示,提出基于语义向量均值的表示方法,并在文本分类任务进行验证。通过公式推导,我们指出语义向量均值模型与基于矩阵投影降维技术的关系。在与传统的向量空间模型对比中,语义均值方法在低维空间中具有巨大优势。同时,本文发现了语义向量方差对文本分类的提升作用。

本文通过词向量技术为类别描述词和文本之间建立语义联系,并将层次Logistic回归分类算法和最近邻算法应用于无标注语料的层次分类任务中。在层次分类指标分析中,我们指出词向量表示在主题抽象的类别中具有较大优势;而TF-IDF表示则倾向于主题具象的类别。本文方法在互信息指标上比K均值算法较好,并与使用一定数量监督数据的线性支持向量机效果相当,验证了方法在针对无标注数据文本层次分类任务中的有效性。

来源:半壳优胜鲸鱼幸运星转载请保留出处和链接!

本文链接:http://87cpy.com/279691.html

鲸鱼幸运星云彩店APP下载
鲸鱼幸运星APP下载

本站部分内容来源网络如有侵权请联系删除

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

站内导航

足球简报

篮球简报

云彩店邀请码54967

    云彩店app|云彩店邀请码|云彩店下载|半壳|优胜|鲸鱼|幸运星

NBA | CBA | 中超 | 亚冠 | 英超 | 德甲 | 西甲 | 法甲 | 意甲 | 欧冠 | 欧洲杯 | 冬奥会 | 残奥会 | 世界杯 | 比赛直播 |

Copyright 半壳优胜体育 Rights Reserved.