云彩店邀请码|半壳|优胜
计算机软件的规模越来越大、复杂程度越来越高,为了使它们更加容易被理解、维护以及更新升级等,不仅需要为软件代码书写相应的文档,同时还需要在文档与代码间建立关联以便追踪。发现和维护源代码和软件文档间的关联关系,有助于需求追踪、变更分析、程序理解等诸多软件工程活动。 本文调研了国内外在提取软件文档与程序源代码之间关联关系方面的研究现状,分析了研究中存在的问题。旨在研究中文软件文档与源代码之间关联关系的提取方法,并实现一个自动提取中文软件文档与源代码间关联关系的原型工具。 经过调研分析,本文提出了一种基于主题模型的中文软件文档与源代码间关联关系的提取方法。该方法基于潜在狄利特雷分配(LDA)主题模型,通过分析代码段和文档段的主题信息获得其对应的主题词,利用这些主题词来发掘文档与代码之间的关联链。整个分析过程可分为三个部分:预处理、主题词提取与相关性计算、结果处理与展示。首先,在预处理阶段,针对中文软件文档,本文提出了按其章节进行自动分段的方法,实现了对文档更合理的自动划分。另外,本文引入同义词词典辅助进行英文词汇的翻译以提高翻译效率。其次,本文使用LDA主题模型对预处理阶段的输出进行分析,获得每个代码段和文档段对应的主题词,使用这些主题词来计算文档段和代码段之间的相关性。最后,利用Cut-Point方法对相关性计算结果进行筛选过滤。 基于上述方法,本文设计实现了一个自动提取中文软件文档与源代码间关联关系的原型工具QESTA。QESTA是一个Eclipse插件,它提供了配置页面供用户输入待分析项目信息以及LDA模型所需的必要参数,并提供相关视图展示文档段与代码段的关联关系。 具体实验表明,本文提出的基于主题模型的主题词分析方法在发掘中文软件文档和代码的关联关系方面是可行的,并且与基于信息检索模型的分析方法相比,在分析效率上有一定程度的提升。
来源:半壳优胜鲸鱼幸运星转载请保留出处和链接!
本文链接:http://87cpy.com/262101.html
本站部分内容来源网络如有侵权请联系删除