半壳优胜

云彩店邀请码|半壳|优胜

当前位置：首页 » 论文摘要 » 正文

论文摘要：面向信息检索的Web文本内容分析方法研究

7112 人参与 2022年01月30日 22:32 分类 : 论文摘要评论

随着Web2.0技术的兴起，Blog、Wiki等用户原创内容（UGC, User Generated Content）大量涌现，Internet在开放性得到进一步提升的同时，其信息总量的增长速度进一步加快。为了准确、快捷的从海量的Internet资源中找到需要的信息，用户对Web信息检索的需求日益提高。目前，在信息检索过程中对信息内容进行深加工、不断优化信息检索机制并提高检索结果质量，已经成为信息检索研究中的重要课题，并得到越来越多研究者的关注。如何基于现有的查询扩展方法进一步提高检索的准确率、如何更好的表示和更新用户兴趣、如何获得有效的协同检索机制以及高效的Web文档聚类方法是其中的研究热点。本论文针对面向信息检索的多种Web文本内容分析方法进行了深入探索和研究，主要工作内容如下：1. 比较了查询扩展和文档重构两种方法所反映的不同检索思路，提出了一种改进的文档重构方法IDR-SQE（Improved Document Refinement based on Semantic Query Expansion）。现有的文档重构方法只注重词语之间的语义相似度，这使得方法本身对语义词典十分依赖，方法的准确性也很容易受到“一词多义”等现象的影响。针对这些问题，提出的IDR-SQE方法综合考虑了词语之间的语义相似性和统计相关性。统计相关性建立在文档数据集的统计结果之上，可以稳定描述词语之间的相关关系，弥补现有方法因过度依赖语义词典而准确性易受影响的不足。经实验验证，与现有的文档重构方法相比，IDR-SQE方法在查询准确率和稳定性两方面都得到了提高。2. 基于概念聚类技术，提出了一种用户兴趣建模方法UIM2C2（User Interest Modeling Method based on Conceptual Clustering）。通过分析用户访问的历史文档，利用改进的后缀树聚类算法建立描述用户兴趣的层次化结构。在改进的后缀树聚类算法中，原本二值的相似度度量方法的值域变为[0,1]实数区间，而不同的相似度阈值决定了算法中基本簇的合并粒度，并与兴趣模型中的层次对应：较小的阈值对应于兴趣层次中靠近根节点、较概括的概念；较大的阈值对应于兴趣层次中靠近叶节点、较具体的概念。根据不同层次概念之间的包含关系，生成层次化的用户兴趣模型。对于兴趣漂移问题，给出了一种在数值标签反馈条件下的学习机制。该机制能够处理连续数值形式的用户反馈，因此，当反馈中包含比二值标签更多的信息时，相对于二值反馈条件下的传统方法，能够更准确的描述用户兴趣。3. 提出一种协同的Web检索结果重排序方法CRRA（Collaborative Re-Ranking Approach），用于提高检索结果的排序质量。首先分析Web查询日志中用户的历史检索活动，建立查询-特征词关系矩阵作为潜在知识库；然后从用户的查询会话片段中学习每个用户的兴趣模型。综合用户的兴趣模型和潜在知识库，动态的确定用户社区范围。最后，根据社区内各成员与活动用户之间的相似度，为各成员的检索经验赋予不同的权重，用于调整检索结果的顺序。实验结果表明，CRRA可以获得比现有的RRCF方法更优的排序质量。4. 为避免传统的文档聚类方法在选择文档相似度算法时存在的随意性，并提高文档聚类的准确率和效率，提出了一种基于信息瓶颈理论的文档增量聚类方法ICIB（Incremental Clustering using Information Bottleneck）。其主要思想是利用信息瓶颈理论计算文档之间的“相似度”，并采用增量聚类算法对文档进行聚类。最后，利用改进的SIB算法对增量聚类结果进行调整。信息瓶颈理论的引入，使得两两文档之间的相似度计算转化为两两簇之间进行，提高了聚类效率；同时，适度的调整过程降低了不同的文档顺序对增量聚类结果的影响，增强了算法的稳定性。实验结果表明，ICIB聚类算法在聚类准确率和效率上均优于K-Means算法和AIB算法。

来源：半壳优胜鲸鱼幸运星转载请保留出处和链接！

本文链接：http://87cpy.com/208519.html