11?1648889181

【任务】 开源项目筛选机制设计


王涛添加于 2015-08-04 11:38
对SourceForge、OpenHub等几个开源协同开发社区中的项目属性包括下载量、加星数量、贡献者人数等进行分析,设计相应的机制筛选出真正的好项目。
回复(10)
  • 3091?1442652665
    湛云 8年前

    > wangtao 写到: > > zhanyun 写到: > > openhub中没有code location的有39704,如果只根据这一个字段筛选会保留22万项目。加上OSChina3万,SourceForge15万,总共就有40万左右的项目,去重之后估计也会有38万往上。这样会不会太多了? > > 有code location且contributorNum>0的有138008。有code location且contributorNum=0的有8万多,这些项目的activity都是“Activity Not Available” ,其中有88个项目的followers_num>0。 > > 我的建议是按照:有code location,并且满足contributorNum>0或者followers_num>0,这样共留下138053。 > 我觉得去重之后不会有38万项目,OpenHub的数据源应该涵盖了Sourceforge,因此SourceForge中有的在OpenHub中应该大部分都会有。你可以随机选择sourceForge中的十几个项目看一下 我看了下SourceForge中是有很多项目在openhub中存在的。那openhub的项目我们先初步按照把没有代码库的去掉。

  • 11?1648889181
    王涛 8年前

    > zhanyun 写到: > openhub中没有code location的有39704,如果只根据这一个字段筛选会保留22万项目。加上OSChina3万,SourceForge15万,总共就有40万左右的项目,去重之后估计也会有38万往上。这样会不会太多了? > 有code location且contributorNum>0的有138008。有code location且contributorNum=0的有8万多,这些项目的activity都是“Activity Not Available” ,其中有88个项目的followers_num>0。 > 我的建议是按照:有code location,并且满足contributorNum>0或者followers_num>0,这样共留下138053。 我觉得去重之后不会有38万项目,OpenHub的数据源应该涵盖了Sourceforge,因此SourceForge中有的在OpenHub中应该大部分都会有。你可以随机选择sourceForge中的十几个项目看一下

  • 3091?1442652665
    湛云 8年前

    openhub中没有code location的有39704,如果只根据这一个字段筛选会保留22万项目。加上OSChina3万,SourceForge15万,总共就有40万左右的项目,去重之后估计也会有38万往上。这样会不会太多了? 有code location且contributorNum>0的有138008。有code location且contributorNum=0的有8万多,这些项目的activity都是“Activity Not Available” ,其中有88个项目的followers_num>0。 我的建议是按照:有code location,并且满足contributorNum>0或者followers_num>0,这样共留下138053。

  • 3178?1442652658
    侯翔 8年前

    > wangtao 写到: > Freecode应该有4万7千多个项目,为什么OSSEAN中只有4万?请候翔核实一下@houxiang 师兄抽取框架还需改进,对没有抽取成功的页面没有进行再处理,这个还在想办法

  • 3091?1442652665
    湛云 8年前

    > wangtao 写到: > > zhanyun 写到: > > > wangtao 写到: > > > 1、2中两个因素求并集得到的项目数量是多少?@zhanyun > > 1中,followers_num>0且contributorNum>0的有8164, followers_num>0且contributorNum>1的有5856。 > > 2中取并集是26779。 > 求并集而不是交集 额抱歉师兄,定向思维了。。1 中followers_num>0或contributorNum>0的有138322,followers_num>0或contributorNum>1的有120030,followers_num>0或contributorNum>2的有58848。 2中,取并集是150573。

  • 11?1648889181
    王涛 8年前

    > zhanyun 写到: > > wangtao 写到: > > 1、2中两个因素求并集得到的项目数量是多少?@zhanyun > 1中,followers_num>0且contributorNum>0的有8164, followers_num>0且contributorNum>1的有5856。 > 2中取并集是26779。 求并集而不是交集

  • 3091?1442652665
    湛云 8年前

    > wangtao 写到: > 1、2中两个因素求并集得到的项目数量是多少?@zhanyun 1中,followers_num>0且contributorNum>0的有8164, followers_num>0且contributorNum>1的有5856。 2中取并集是26779。

  • 11?1648889181
    王涛 8年前

    1、2中两个因素求并集得到的项目数量是多少?@zhanyun

  • 11?1648889181
    王涛 8年前

    Freecode应该有4万7千多个项目,为什么OSSEAN中只有4万?请候翔核实一下@houxiang

  • 3091?1442652665
    湛云 8年前

    初步统计结果如下: 1.openHub:平台共有261923,contributorNum>0的138185,contributorNum>1的119321,contributorNum>2的57625;followers_num>0的8301。 2.SourceForge:平台共有364965,download>0的145551,stars>0的31801,download和stars都大于0的26779。 3.OSChina:平台共有29971。 4.FreeCode:平台共有40705。

0?1470885445
登录后可添加回复
  • 当前状态 新增
  • 选定优先级
  • 指派给 湛云
  • 里程碑 --
  • 开始日期 2015-08-04
  • 结束日期 2015-08-05
  • 预计工时(H) 0.00 小时
  • 完成度 0%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×