11879?1461414358

【任务】 【日常进展-构建项目关系网络】 正常


曾雅蓉添加于 2017-07-23 17:31

1. 实验数据:issue > 400  bug_ratio 在(0.2-0.8):  874个项目。


2. 目标: 目前项目内的bug分类已经有了结果,下一步工作是找到多种方法构建项目依赖关系网络,对某一个项目,找到相关联的项目族群,并使用项目族群的issue训练的模型对该项目issue分类,看最终得到的结果能否逼近使用项目本身的数据进行分类的准确度。


3. 如何构建项目间的关系网络?

  • 参考论文MSR15:【Ecosystems in GitHub and a Method for Ecosystem Identification using Reference Coupling 】

1. issue, pull request, and commit 的评论信息中对其他项目的交叉引用(文本链接)反映了项目间的技术依赖,关联权重为项目间交叉引用的数量。

2.项目的核心成员(owner)的开发行为能够反映项目的技术依赖。     

【a】项目 Aowner follow 项目 Bowner,则A & B有关联,关联权重0表示没有关联,1表示单向follow2表示双向follow

b】任意一个项目的owner star了项目AB,则A & B有关联,关联权重有同时star这两个项目的owner数量决定。

3.项目的外围贡献者(Contributors )不能反映项目间的技术关联。

  • 从某一类入手,比如ruby的或python的项目,另外现在github上ruby的项目有直接dependents数据,显示前100页依赖于该项目的项目数据,可以直接爬下来分析一下,看能否构建关系网络,但是874个项目中ruby的项目只有43个,可能会很稀疏。
  • 关于comment信息,ghtorrent中有commmit的comment信息,但是只有前256个字符,可能还是需要重新爬取,issue和pr也需要重新爬,现在可以利用爬取的时间先分析owner的开发行为。
  • 其他可以考虑的还有编程语言,项目描述的文本相似度等。


回复(1)
  • 10?1449542945
    余跃 6年前

    怎么只有1万多个项目呢?你是不是限制语言了啊?

    这样的话,生态系统建立起来会不会特别稀疏?

0?1470885445
登录后可添加回复
  • 当前状态 新增
  • 选定优先级 正常
  • 指派给 --
  • 里程碑 --
  • 开始日期 2017-07-23
  • 结束日期
  • 预计工时(H) 0.00 小时
  • 完成度 0%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×