首页
项目
数据
教育
大赛
态势
博客
论坛
登录
注册
克隆检测代码样本数据集
冯晨辉
开发数据
开发过程
32.0 GB
2019-10-25 17:04
返回
<!-- * @Author: coder_0xFC * @Date: 2019-10-25 15:51:17 * @LastEditors: FCH@hhh * @LastEditTime: 2019-10-25 17:01:43 * @version: 1.0 --> 本数据集是进行代码克隆检测技术、代码演化及代码溯源技术的代码样本数据集。 #####数据背景 [代码克隆检测技术]():代码克隆检测技术致力于检测出软件中的代码克隆。代码克隆,通常是指软件系统中存在的相同或相似的代码片段率,软件系统中都存在一定数量的相同或相似的代码。代码克隆的存在会给软件带来一定的危害,会给软件管理和维护等工作带来困难。因此,找出克隆的代码对软件开发人员进行软件维护和分析有着极其重要的意义。 [代码演化]():研究开源软件代码在开发过程中代码的增加、删除、更改、未更改等的演化情况,及版本库之间的演化情况。基于代码克隆检测技术,找出代码克隆对,研究并分析其演化情况。结合开发进程,可分析版本库之间的演化情况。 [代码溯源技术]():在软件开发过程中,通常软件开发者会复用其它作者的开源代码。代码溯源技术,基于代码克隆检测技术,可查找出软件中的复用代码,和数据库进行比对可检索出软件中是否使用了已声明代码版权的代码。对软件版权,知识产权的维护有着重要的意义。 #####数据来源 该数据集收集自[Github](https://github.com)。主要包括Java语言,stars>2000从高到低排序的1000项目 #####数据格式 实验数据:各个项目的master分支最新版本库,内包含项目完整的文件及代码。 #####数据应用 用户可以使用该数据集进行代码克隆检测技术的测试,代码演化及代码溯源溯源的研究。 #####数据下载 数据下载地址:[GitHub版本库](https://github.com/search?p=1&q=language%3Ajava+stars%3A%3E2000&type=Repositories)
附件:
GitHub上Java项目stars大于2000.xlsx
( 40.067 KB)
冯晨辉
, 2019-10-25 17:04