云彩店邀请码|半壳|优胜
随着互联网数字化信息的迅猛增长,对互联网上大量文本进行分类整理的需求变得越来越迫切。因而海量文本自动分类技术引起了研究者强烈的兴趣。从上世纪90年代起,计算机的性能有了日新月异的提高,这使得利用计算机处理大数据量文本成为可能。利用机器学习的方法进行文本分类是从已分好类的文本集中自动创建文本分类器,该方法与人工文本分类相比,更节省人力物力,更方便快捷。 本论文主要研究了各种自动文本分类方法和针对阿拉伯文的文本预处理技术。论文的研究工作主要涉及: 阿拉伯文形态分析器,词干抽取方法,单词加权,维度缩减,停止词列表创建,特征选择,词性标注和变音模型(diacritics)等。 本文考察了不同的预处理技术例如词干抽取方法,单词加权策略和停止词列表创建等对最终阿拉伯文文本分类结果的影响。本文考察了三种单词加权策略,布尔模型、词频和TFIDF对文本分类结果的影响;提出了一种基于模式的阿拉伯文词干抽取方法BUAA Arabic stemmer,并将该方法与Buckwalter stemmer方法进行比较,实验表明,使用BUAA Arabic stemmer的文本分类系统的精确度可达到95%左右,优于使用Buckwalter stemmer的文本分类系统的精确度;本文还创建了三个不同的阿拉伯文停止词列表;提出了一个新的快速特征选择方法QFS和一个新的基于最大熵的变音模型DIAC。 本论文实现了两个基于不同分类器的阿拉伯文本分类系统,一个是基于最大熵模型的MEATC系统,另一个是基于支持向量机的文本分类系统。 研究以及实验表明,综合TFIDF、BUAAArabic stemmer、ASL300(Advance Stop List 300)、POS-3(Part-of-Speech-3)、QFS和DIAC等文本处理技术以及基于最大熵原理的阿拉伯文本分类系统MEATC的性能较优。MEATC在SAC2009上的分类精确度为93.7%,召回率为94.1%。而基于支持向量机的阿拉伯文本分类系统在SAC2009上的分类精确度是89.6%,召回率是88.4%。
来源:半壳优胜鲸鱼幸运星转载请保留出处和链接!
本文链接:http://87cpy.com/209926.html
本站部分内容来源网络如有侵权请联系删除