4200?1442652663

【任务】 11.25汇报 正常


陈梦雯添加于 2015-11-26 00:03

今天终于有一个突破性的进展了今后用于实验的数据集已经完全准备好了。

总项目列表:130082个项目

依赖集项目列表:44272个项目

被依赖集项目列表:92405个项目

二者重复列表:6595个项目

依赖关系列表:802413对关系


另外:由于以后要找同类软件,因此我没有将同名项目删除,而是根据id和name唯一确定一个项目。依赖集项目因为没有id,所以对id进行补充,在重复列表的id设置为被依赖集中同名的项目id,其余设置为默认值-1

回复(7)
  • 4200?1442652663
    陈梦雯 8年前


           嗯,谨记~

    jacknudt 写到: 很好!状态很好!大数据集的测试一定要注意:先在一个小规模测试上验证,同时增加运行阶段性结果的输出,同时尽可能是可退出后接着执行。这样会节省大量时间。

  • 5?1460204756
    尹刚 8年前

    很好!状态很好!大数据集的测试一定要注意:先在一个小规模测试上验证,同时增加运行阶段性结果的输出,同时尽可能是可退出后接着执行。这样会节省大量时间。

  • 4200?1442652663
    陈梦雯 8年前

    程序出了点问题,正在重新跑构造矩阵部分。电脑跑起程序太卡了,今天就批改了半天教辅作业,学了半天雅思

  • 4200?1442652663
    陈梦雯 8年前

    根据程序跑的结果看到,给依赖集赋id值已经完成,正在运行构造矩阵部分

  • 4200?1442652663
    陈梦雯 8年前

    我将给依赖项目集赋id值、扩充依赖关系对字段将id+name作为项目的唯一标识、构造PageRank输入所需的矩阵、PageRank基本算法写在一个程序里了,所以运行效率不是很高,程序还在跑,好激动也好忐忑的等待着结果。同时,我学习了一下networkx的相关用法,为下一步实验做准备,另外与杨程师兄互相做了进展的阐述,并进行了深入讨论,明确了目标。(今天时间不是很多,上午开了会,下午政教体能写年终总结写学院大型活动的解说词)

  • 4200?1442652663
    陈梦雯 8年前


    1、数据集是来自github上的Java项目,筛选了根目录下中含有pom文件的项目。

    2、项目指的是project.(我理解的github上project和repository是同一个意思)

    3、依赖指的的是,Java项目用maven管理,会有一个pom文件,里边详细注释了该项目依赖了哪些包,(我理解的是该项目使用了、集成了其他一些项目)

    jacknudt 写到:

    很好!我们每一步的进展都应该像这样:用数据说话

    注意:请在issue的标题中就给出“突破性进展”这样的提示,容易抓眼球。


    我有几个问题:

    1、数据集是什么?

    2、你的项目具体是指什么?是项目(project)还是版本库(repository)?

    3、你说的依赖,是指什么?



  • 5?1460204756
    尹刚 8年前

    很好!我们每一步的进展都应该像这样:用数据说话

    注意:请在issue的标题中就给出“突破性进展”这样的提示,容易抓眼球。


    我有几个问题:

    1、数据集是什么?

    2、你的项目具体是指什么?是项目(project)还是版本库(repository)?

    3、你说的依赖,是指什么?


0?1470885445
登录后可添加回复
  • 当前状态 新增
  • 选定优先级 正常
  • 指派给 陈梦雯
  • 里程碑 --
  • 开始日期 2015-11-25
  • 结束日期
  • 预计工时(H) 0.00 小时
  • 完成度 0%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×