云彩店邀请码|半壳|优胜
互联网上信息每天都在不断的增长,面对如此浩瀚的资源,搜索引擎作为提供资源检索服务的工具已经成为人们获取信息的重要途径,正在深刻影响着我们的生活,但是随着互联网信息多元化的增长,搜索引擎在满足搜索全面性要求的同时很难兼顾专业性的查询需求,所以面向主题的、数据全面深入、更新及时的垂直搜索引擎应运而生。与通用搜索引擎不同之处在于,垂直搜索引擎凭借明确的检索目标定位,对网页进行选择性收集,信息采集量小,更新及时,能有效解决通用搜索引擎的弊端。垂直搜索引擎正在以其日趋精准化、人性化的信息检索服务提升着人们对搜索引擎的使用率和认同度,助推了搜索引擎的快速发展。而聚焦爬虫作为垂直搜索引擎的重要组成部分,也广泛应用于各个领域中。聚焦爬虫通过对网页的主题相关度进行预测和判断,避开与主题无关的网页和信息,从而采集到专注该领域的有价值的信息为垂直搜索引擎提供精准数据。本文主要研究聚焦爬虫的实现方法,分析目前常用的聚焦爬虫的爬行策略,同时在常用爬行策略基础之上,提出了一种新的爬行策略,将基于文本内容的启发式策略与基于web超链接分析策略相结合,既可以通过链接分析扩大主题搜索面积,又可以保证搜索结果与主题的相关度。此外通过分析和研究Google经典的PageRank算法,根据PageRank算法的特点,提出一种改进的算法,通过改进后的算法预测站点的主题相关度,从而有效避免主题漂移现象。
来源:半壳优胜鲸鱼幸运星转载请保留出处和链接!
本文链接:http://87cpy.com/261369.html
本站部分内容来源网络如有侵权请联系删除