1、找现成的PageRank算法的过程:百度搜Python PageRank,浏览网页,主要是一些附有实现代码的博客详细介绍了PageRank,选择一个短小的,易懂的,便于测试的代码进行复用。通常来讲,我作为一个用户,我常在CSDN或是博客园里边搜代码,所以有先选择它们里边的代码。
2、项目列表整理:之前我将同名项目进行删除,但是今天早晨跟师兄就关于同类软件进行讨论的时候我有了一个新的思路,我将从pom中提取的项目加id,如果是该项目在项目列表中,则id值赋列表中的id,如果该项目不在项目列表中,则id值赋0。这样就把没有id的项目和有id的项目对应起来了,得到了实验数据集上的总项目列表。其中同名项目选择哪一id的原则有a)forks、watchers、subscribers_count数非常大;b)size数非常大;c)pom文件较多的;4)项目有描述信息的,这四点的优先级依次递减。
收到,正在整理全部项目列表,周日教辅,周二上了一天雅思,有些耽误进度了
wangtao 写到:开源搜索首先要使用OSSEAN看能不能搜到,没有的话在学术方面的搜索请使用google:http://www.guge.link/,百度就是垃圾。
梦雯的工作建议:
1. 今天必须完成jUnit所在连通图的pagerank实验,分析不同软件的PageRank值,并以数据库类型的软件为例,分析比较数据库类型的软件PageRank值排序,并与DB Engine进行对比。
2. 基于依赖网络结构特性的分析:各个项目的betweeness centrality, degree以及其他一些结构性的属性,不同的结构特征是否反映出一个项目不同的属性侧面,并基于此进行质量度量?对连通图网络特征的分析可使用NetworkX (python)进行,分析在该连通图中软件节点的degree、betweeness centrality等属性。
开源搜索首先要使用OSSEAN看能不能搜到,没有的话在学术方面的搜索请使用google:http://www.guge.link/,百度就是垃圾。
梦雯的工作建议:
1. 今天必须完成jUnit所在连通图的pagerank实验,分析不同软件的PageRank值,并以数据库类型的软件为例,分析比较数据库类型的软件PageRank值排序,并与DB Engine进行对比。
2. 基于依赖网络结构特性的分析:各个项目的betweeness centrality, degree以及其他一些结构性的属性,不同的结构特征是否反映出一个项目不同的属性侧面,并基于此进行质量度量?对连通图网络特征的分析可使用NetworkX (python)进行,分析在该连通图中软件节点的degree、betweeness centrality等属性。