云彩店邀请码|半壳|优胜
豆芽网:随着Internet的快速发展,供人们使用的电子信息资源越来越丰富,但要快速有效地获取所需的相关信息却变得越来越困难。
随着Deep Web概念的提出,人们发现Deep Web资源内容更为丰富, 专业性强,质量比一般网络资源也即Surface Web好得多并且还在迅速地增长。人们要在因特网上快速准确地查找到自己所需要的信息,就像大海捞针一样。
搜索引擎就是Web上最常见的知识发现的工具,可以部分地解决Web上资源发现的问题,但是由于其查准率不是很高,其效果尚不能令人满意。为了解决上述问题,网页自动分类技术被用到信息检索领域中。
通过文本分类器自动将检索结果快速分类,大大降低用户需要浏览的检索结果数量,方便用户快速找到跟检索请求相关的信息。
本文研究了Deep Web资源的现状,形成原因和我国Deep Web分布情况,论述了研究Deep Web资源的重要性;分析了文本分类相关技术,阐述了网页分类技术和文本分类的联系和区别,总结了网页分类中的关键技术,包括网页过滤,网页内容提取,特征选择方法,特征表示方法,常用的文本表示模型。总结文本分类算法的类型,包括基于词匹配法,基于知识工程的方法,基于统计学习的方法,在大量前人研究的基础上得出基于统计学习的方法实现在分类算法中效果、稳定性、应用范围最好的方法,重点介绍了向量距离分类法,贝叶斯算法,KNN算法,支持向量机4种基于统计学习的分类算法。
分析研究了Deep Web网络文本资源的网页结构特点,指出传统网页预处理阶段中网页过滤和网页内容提取方法应用在Deep Web网络文本资源上的局限性,提出了基于Deep Web的网页预处理和内容提取方法。
通过实验,证明这种新方法比使用传统方法提高了分类的准确率,具有很好的实用性。结合国家科技基础条件平台门户应用系统的特定需求,设计了基于Deep Web的网络文本资源分类系统的整体设计方案和系统结构,并实现了基于Deep Web的网络文本资源分类原型系统。
来源:半壳优胜鲸鱼幸运星转载请保留出处和链接!
本文链接:http://87cpy.com/270987.html