半壳优胜

云彩店邀请码|半壳|优胜

当前位置：首页 » 论文摘要 » 正文

论文摘要：文本层次分类研究与实现

6468 人参与 2022年04月04日 16:50 分类 : 论文摘要评论

高效的信息技术使互联网积累了大量文本数据，先进的信息检索和数据分析技术使人们热衷于对数据的挖掘和利用。为组织和利用数据，人们往往借助主观经验将文本进行归类。然而，扁平的类别结构难以满足现代信息管理的需要。有的机构甚至在数据积累之前，就提出复杂的类别层次体系。这种无标注语料的层次分类问题，使传统分类方法陷入了窘境。

针对缺少监督训练数据的层次分类问题，本文分别从层次分类算法的角度、文本表示的角度和如何解决监督数据稀缺的角度展开研究。

在研究层次分类的算法中，本文提出了一种候选者策略，用于缓解层次分类过程中的阻塞问题。该方法能够在F值上提升层次朴素贝叶斯和层次Logistic回归的分类效果，并且在阈值选择方面有很高的灵活性。

本文将词向量技术应用于文本表示，提出基于语义向量均值的表示方法，并在文本分类任务进行验证。通过公式推导，我们指出语义向量均值模型与基于矩阵投影降维技术的关系。在与传统的向量空间模型对比中，语义均值方法在低维空间中具有巨大优势。同时，本文发现了语义向量方差对文本分类的提升作用。

本文通过词向量技术为类别描述词和文本之间建立语义联系，并将层次Logistic回归分类算法和最近邻算法应用于无标注语料的层次分类任务中。在层次分类指标分析中，我们指出词向量表示在主题抽象的类别中具有较大优势；而TF-IDF表示则倾向于主题具象的类别。本文方法在互信息指标上比K均值算法较好，并与使用一定数量监督数据的线性支持向量机效果相当，验证了方法在针对无标注数据文本层次分类任务中的有效性。

来源：半壳优胜鲸鱼幸运星转载请保留出处和链接！

本文链接：http://87cpy.com/279691.html