云彩店邀请码|半壳|优胜
随着网络音视频行业的发展,人们对网页音视频节目进行离线观看和统计分析的需求增强,快速便捷地采集存储网页音视频资源成为研究的热门。网页种类多样,页面中音视频资源个数、播放与呈现方式不同,现有的采集工具无法自动化、批量化地发现及筛选各类型页面中的主题音视频。鉴于此,本文研究基于视觉特征与流还原的方法,设计实现自动化、批量化、适用范围广的音视频采集系统。
网页种类不同,音视频资源呈现及传输方式亦不同,使用单一传统的方法无法对所有种类网页实现自动化批量化的音视频采集。由于网页中音视频资源的存在形式、播放载体、是否为主题、是否自动播放等因素的影响,在无需人工操作的情况下自动地判定、播放主题音视频是采集的前提。本文采用基于视觉特征的页面解析方法,依据网页元素的颜色、大小、间距等视觉因素分割页面,获取网页正文结构块,提取正文结构块中的播放载体或链接,并通过模拟点击等操作实现音视频的播放。同时捕获网络数据包,通过数据流还原技术解析提取音视频资源地址,在整合完善现有的下载工具和方法的基础上,设计通用的采集方法,自动化批量化采集大部分网页中的音视频资源。为进一步提高采集系统的适用范围,应对特殊的网页类型,本文对采用特殊传输方式和协议的网页,针对网页特性制定专门的音视频采集方法。
本文设计实现的音视频资源采集系统适用于国内外绝大多数页面中使用Flash和HTML5播放器播放音视频以及含有音视频地址的网站。对国内外数百个网站进行了系统测试,音视频资源地址提取成功率可达70%,音视频资源下载成功率可达90%,突破了现有音视频采集工具的局限性。但对目前尚未解决和采用新技术的网站,还需要不断研究完善采集方法来实现音视频资源采集。
来源:半壳优胜鲸鱼幸运星转载请保留出处和链接!
本文链接:http://87cpy.com/280113.html
本站部分内容来源网络如有侵权请联系删除