云彩店邀请码|半壳|优胜
随着Web2.0技术的兴起,Blog、Wiki等用户原创内容(UGC, User Generated Content)大量涌现,Internet在开放性得到进一步提升的同时,其信息总量的增长速度进一步加快。为了准确、快捷的从海量的Internet资源中找到需要的信息,用户对Web信息检索的需求日益提高。目前,在信息检索过程中对信息内容进行深加工、不断优化信息检索机制并提高检索结果质量,已经成为信息检索研究中的重要课题,并得到越来越多研究者的关注。如何基于现有的查询扩展方法进一步提高检索的准确率、如何更好的表示和更新用户兴趣、如何获得有效的协同检索机制以及高效的Web文档聚类方法是其中的研究热点。本论文针对面向信息检索的多种Web文本内容分析方法进行了深入探索和研究,主要工作内容如下:1. 比较了查询扩展和文档重构两种方法所反映的不同检索思路,提出了一种改进的文档重构方法IDR-SQE(Improved Document Refinement based on Semantic Query Expansion)。现有的文档重构方法只注重词语之间的语义相似度,这使得方法本身对语义词典十分依赖,方法的准确性也很容易受到“一词多义”等现象的影响。针对这些问题,提出的IDR-SQE方法综合考虑了词语之间的语义相似性和统计相关性。统计相关性建立在文档数据集的统计结果之上,可以稳定描述词语之间的相关关系,弥补现有方法因过度依赖语义词典而准确性易受影响的不足。经实验验证,与现有的文档重构方法相比,IDR-SQE方法在查询准确率和稳定性两方面都得到了提高。2. 基于概念聚类技术,提出了一种用户兴趣建模方法UIM2C2(User Interest Modeling Method based on Conceptual Clustering)。通过分析用户访问的历史文档,利用改进的后缀树聚类算法建立描述用户兴趣的层次化结构。在改进的后缀树聚类算法中,原本二值的相似度度量方法的值域变为[0,1]实数区间,而不同的相似度阈值决定了算法中基本簇的合并粒度,并与兴趣模型中的层次对应:较小的阈值对应于兴趣层次中靠近根节点、较概括的概念;较大的阈值对应于兴趣层次中靠近叶节点、较具体的概念。根据不同层次概念之间的包含关系,生成层次化的用户兴趣模型。对于兴趣漂移问题,给出了一种在数值标签反馈条件下的学习机制。该机制能够处理连续数值形式的用户反馈,因此,当反馈中包含比二值标签更多的信息时,相对于二值反馈条件下的传统方法,能够更准确的描述用户兴趣。3. 提出一种协同的Web检索结果重排序方法CRRA(Collaborative Re-Ranking Approach),用于提高检索结果的排序质量。首先分析Web查询日志中用户的历史检索活动,建立查询-特征词关系矩阵作为潜在知识库;然后从用户的查询会话片段中学习每个用户的兴趣模型。综合用户的兴趣模型和潜在知识库,动态的确定用户社区范围。最后,根据社区内各成员与活动用户之间的相似度,为各成员的检索经验赋予不同的权重,用于调整检索结果的顺序。实验结果表明,CRRA可以获得比现有的RRCF方法更优的排序质量。4. 为避免传统的文档聚类方法在选择文档相似度算法时存在的随意性,并提高文档聚类的准确率和效率,提出了一种基于信息瓶颈理论的文档增量聚类方法ICIB(Incremental Clustering using Information Bottleneck)。其主要思想是利用信息瓶颈理论计算文档之间的“相似度”,并采用增量聚类算法对文档进行聚类。最后,利用改进的SIB算法对增量聚类结果进行调整。信息瓶颈理论的引入,使得两两文档之间的相似度计算转化为两两簇之间进行,提高了聚类效率;同时,适度的调整过程降低了不同的文档顺序对增量聚类结果的影响,增强了算法的稳定性。实验结果表明,ICIB聚类算法在聚类准确率和效率上均优于K-Means算法和AIB算法。
来源:半壳优胜鲸鱼幸运星转载请保留出处和链接!
本文链接:http://87cpy.com/208519.html
本站部分内容来源网络如有侵权请联系删除