项目简介

基于复用网络的开源软件推荐技术研究

4200?1442652663
指派给   陈梦雯
发布时间: 10/12/2016 10:47
更新时间:10/12/2016 20:46

一、背景

        找到软件后,快速便捷的复用,哪些搭配,哪些冲突

二、相关工作

        数据挖掘领域,频繁项集发现三种算法算法,aprior、FP-growth、使用垂直格式挖掘

三、同现网络构造

        由复用网络转化为同现网络,同现网络其实是2频繁项集,两顶点如果有边,则说明两顶点同现过。

四、同现网络分析

        没写,不知道用什么对这个网络进行分析,不知道分析的目标是什么,预期结果是什么。

五、同现关系量化模型

        在网络图中依据路径计算项集的支持度和置信度

六、组合软件推荐方法

        在网络图中用广度优先或深度优先,根据迭代或递归次数找n元环发现n项集,用项集的支持度和置信度去判断是否频繁

七、实验结果分析

        还没写,不知道怎么筛选项目,也不知道怎么判断好坏

        目前筛选是watch!=0 and star!=0 and fork!=0 and pom_number >10 的项目,如果最小支持度设为0.2,出现的频繁项集比较少,只能依次减小支持度。

        还有没有其他好的方法筛选项目,缩小原始数据集?

( 532 KB) 陈梦雯, 10/12/2016 10:39
回复 ︿ (2)
  • 用户头像
    陈梦雯 3年前
    5?1460204756
    尹刚 3年前

    缩小项目集可以从去掉不活跃,动态少的项目。

    其他还有什么困难吗?

    已经去掉了不活跃的项目,并且要复用了10个以上的项目,效果还是一般

    困难:1、同现网络不知道用什么方法来分析,不知道预期目标能分析出什么

              2、组合推荐怎么来评估推荐的好坏?人为推荐的话大多数时候我的知识还不够判断是不是应该一起复用。

0?1470885445
登录后可添加回复
4200?1442652663
指派给   陈梦雯
发布时间: 09/29/2016 20:24
更新时间:10/07/2016 20:58

主要内容

1、开源软件复用生态系统 (小论文)

       构造 - 数据爬取、处理、建模为网络

       分析 - 社交网络分析方法、复用网络分析结果

2、相似开源软件推荐

        以依赖包为软件项目的特征

        模拟TF-IDF模型构建项目空间向量  Project = {dependency1, dependency2,...,dependencyk}

        利用余弦模型计算相似度  

实验测试集 

        选取了watch !=0 and fork !=0 and star !=0 and 复用依赖包数量 >10 的软件项目,共 6652个


目前,实验结果分析还没有写。

没有想好怎么去对实验结果进行评测分析

( 481 KB) 陈梦雯, 09/29/2016 17:39
回复 ︿ (2)
  • 用户头像
    陈梦雯 3年前
    39?1442652658
    15ZhangY 3年前

    实验测试集,那些deleted=1的项目有去掉吧?

    最初的数据集已经去掉了deleted=1,fork=1这些了

0?1470885445
登录后可添加回复
问题和建议
还能输入50个字符 Submit

加入QQ群

关注微信APP


×