1. 实验数据:issue > 400 且 bug_ratio 在(0.2-0.8): 874个项目。
2. 目标: 目前项目内的bug分类已经有了结果,下一步工作是找到多种方法构建项目依赖关系网络,对某一个项目,找到相关联的项目族群,并使用项目族群的issue训练的模型对该项目issue分类,看最终得到的结果能否逼近使用项目本身的数据进行分类的准确度。
3. 如何构建项目间的关系网络?
1. issue, pull request, and commit 的评论信息中对其他项目的交叉引用(文本链接)反映了项目间的技术依赖,关联权重为项目间交叉引用的数量。
2.项目的核心成员(owner)的开发行为能够反映项目的技术依赖。
【a】项目 A的owner follow 项目 B的owner,则A & B有关联,关联权重0表示没有关联,1表示单向follow,2表示双向follow
【b】任意一个项目的owner star了项目A和B,则A & B有关联,关联权重有同时star这两个项目的owner数量决定。3.项目的外围贡献者(Contributors )不能反映项目间的技术关联。