云彩店邀请码|半壳|优胜
高效的信息技术使互联网积累了大量文本数据,先进的信息检索和数据分析技术使人们热衷于对数据的挖掘和利用。为组织和利用数据,人们往往借助主观经验将文本进行归类。然而,扁平的类别结构难以满足现代信息管理的需要。有的机构甚至在数据积累之前,就提出复杂的类别层次体系。这种无标注语料的层次分类问题,使传统分类方法陷入了窘境。
针对缺少监督训练数据的层次分类问题,本文分别从层次分类算法的角度、文本表示的角度和如何解决监督数据稀缺的角度展开研究。
在研究层次分类的算法中,本文提出了一种候选者策略,用于缓解层次分类过程中的阻塞问题。该方法能够在F值上提升层次朴素贝叶斯和层次Logistic回归的分类效果,并且在阈值选择方面有很高的灵活性。
本文将词向量技术应用于文本表示,提出基于语义向量均值的表示方法,并在文本分类任务进行验证。通过公式推导,我们指出语义向量均值模型与基于矩阵投影降维技术的关系。在与传统的向量空间模型对比中,语义均值方法在低维空间中具有巨大优势。同时,本文发现了语义向量方差对文本分类的提升作用。
本文通过词向量技术为类别描述词和文本之间建立语义联系,并将层次Logistic回归分类算法和最近邻算法应用于无标注语料的层次分类任务中。在层次分类指标分析中,我们指出词向量表示在主题抽象的类别中具有较大优势;而TF-IDF表示则倾向于主题具象的类别。本文方法在互信息指标上比K均值算法较好,并与使用一定数量监督数据的线性支持向量机效果相当,验证了方法在针对无标注数据文本层次分类任务中的有效性。
来源:半壳优胜鲸鱼幸运星转载请保留出处和链接!
本文链接:http://87cpy.com/279691.html
本站部分内容来源网络如有侵权请联系删除