云彩店邀请码|半壳|优胜
随着互联网的飞速发展,越来越多的用户在互联网上分享自己的观点或经验,网络观点信息对人们生活的影响不容忽视。这些信息量巨大,主观性强,表达方式相当自由,不规范。如何对其进行检索和挖掘,从中发现有价值的知识,对于传统的主要针对客观文本的信息检索、挖掘和提取技术来说,是一个新的挑战和机遇。本文以产品评论为研究对象,通过对情感分析相关技术和理论的研究,分析情感分析的主要研究内容、技术路线和技术难点,并对观点抽取、文本极性分析和多文档观点摘要进行分析。技术等。对关键问题进行了深入讨论。在此基础上,本文构建了一个基于知网的可扩展情感词典。通过对评论文本进行预处理,提取其中的情感特征。与传统研究方法中基于主题(属性)寻找情感特征的方法不同,本文利用情感特征寻找对应的主题属性。在我们的研究中,我们发现情感词与其主语之间的句法依赖具有非常明显的特征,少数依赖模式出现频率很高。因此,我们提出了一种基于情感特征和主题词之间句法依赖模式的观点提取方法,该方法具有很高的准确性。与传统观点抽取研究中使用的基于人工的规则编写方法不同,我们通过训练自动发现那些高频的句法依赖模式,效率更高,更易于泛化。由于上述方法只考虑高频句法依赖模式,它们不能涵盖所有情况。本文进一步提出了一种基于语料库的频繁项挖掘方法,建立情感词与主题的共现关系,并在此基础上进行主题识别和意见。提取方法。实验表明,两种方法的结合取得了良好的提取效果。然后,本文使用情感词典来判断意见的极性。对于未注册的情感词,采用基于知网和同义词词林的相似度计算方法计算未注册词的极性。为了提高判断的准确性,本文还综合考虑了情感词的上下文对其极性的影响,并对其极性进行了调整。对于具有动态极性的词,通过训练找出其与其他词在不同搭配中的极性值概率,并结合实际上下文判断其极性。在上述工作的基础上,本文提出了一种基于评价文本的文本特征和情感特征的文本级极性分类方法。通过提取待分类文本中的观点,构建面向情感特征的文本向量,适当突出其情感特征的权重,使用SVM算法进行分类,取得了良好的分类效果。然后,本文采用基于词频的句子权重计算方法来有效地选择候选摘要句子。通过意见抽取和意见极性计算构建每句的意见集,并在此基础上形成多评价文本的核心意见。然后,设计了一种基于意见的句子相似度计算方法。根据句子权重的顺序,通过计算每个候选摘要句子与核心意见的相似度,找到最合适的句子形成摘要。该方法结合了多文档摘要技术、意见抽取技术、意见极性计算技术等,同时兼顾词频特征和情感特征,可以生成良好的摘要信息。此外,根据评价信息的检索要求,基于上述方法生成的摘要和领域本体,设计了评价信息的排序算法,并取得了良好的实验结果。最后,基于收集和研究相关语料库、整合科技资源的目的,本章设计了一个一种 Web 对象挖掘算法。该算法根据Web对象的丰富内容,采用信息熵剪枝方法对导航、广告等非Web对象进行过滤。情况决定了 Web 对象所在的区域。实验证明取得了良好的效果。
来源:半壳优胜鲸鱼幸运星转载请保留出处和链接!
本文链接:http://87cpy.com/257341.html
本站部分内容来源网络如有侵权请联系删除