项目简介

开源软件已经成为软件产业的重要支柱,因此了解开源软件本身以及其发展趋势,可以对推动软件产业的发展产生极大的助力。本研究拟定从开源软件的软件社区热度和市场需求两个维度,对开源软件进行态势分析,给出开源软件在两种维度下的排名情况,以达到了解开源软件在软件社区中活跃程度和开源软件的就业需求市场,最终达到为开发人员推荐可用可信的开源软件,为求职者预测最具市场竞争力、最值得学习研究的开源软件。

3675?1667865017
【周报】 OW2竞赛最终PPT 正常
指派给   张迅晖
发布时间: 2015-10-25 22:06
更新时间:2015-10-25 22:06
回复 ︿
0?1470885445
登录后可添加回复
3091?1442652665
【任务】 ow2汇报ppt第一版 正常
指派给   湛云
发布时间: 2015-10-13 21:59
更新时间:2015-10-13 22:51
回复 ︿ (1)
  • 用户头像
    尹刚 8年前

    好的,明天要在组内交流一下!

0?1470885445
登录后可添加回复
283?1442652654
【缺陷】 论文 正常
指派给   刘冰珣
发布时间: 2015-10-03 08:59
更新时间:2015-10-03 20:05
附件里的是我的两篇论文,供大家参考。
回复 ︿ (2)
  • 用户头像
    尹刚 8年前

    另外,这两篇论文的重复度有多少?一般要求是:不能超过30%,否则就是一稿多投了!

  • 用户头像
    尹刚 8年前

    整体上不错!但Internetware2015摘要中的reliable应该是名词形式吧?

0?1470885445
登录后可添加回复
1201?1450166659
【支持】 系统设计文档 正常
指派给   宋晨希
发布时间: 2015-10-02 15:53
更新时间:2015-10-03 20:07

ow2竞赛提交的系统设计文档。

( 2.239 MB) 宋晨希, 2015-10-02 15:53
回复 ︿ (1)
  • 用户头像
    尹刚 8年前

    很好!希望能够拿到好成绩!

0?1470885445
登录后可添加回复
5?1460204756
发帖时间:2015-09-14 08:31
更新时间:2015-09-14 08:31
大家是如何区分这两个OSSEAN项目的?
回复 ︿
0?1470885445
登录后可添加回复
3091?1442652665
指派给   湛云
发布时间: 2015-09-12 22:50
更新时间:2015-09-13 23:05

1.已完成职位需求(neitui、lagou)数据汇总到数据处理缓冲数据库的程序,正在测试;

2.已完成项目与职位需求的匹配程序, 正在测试;

3.已将态势分析展示代码提交到平台代码的版本库,还未上线测试。

回复 ︿ (1)
  • 用户头像
    尹刚 8年前

    很好!辛苦了!

0?1470885445
登录后可添加回复
3675?1667865017
【缺陷】 项目去重存在的问题
指派给   张迅晖
发布时间: 2015-08-28 16:14
更新时间:2015-08-28 17:38
1.     项目别名提取做的不好:

a)       目前采用的策略:提取项目描述信息中be动词之前的部分,进行一系列去噪(包括:去除定语描述信息——逗号限定定语,去除定语描述信息——定冠词the限定定语,去除从句描述信息——thatwhichwhat限定词,去除指示代词——itthethis等,去除单纯的项目表示词——projectapplication,去除指示代词和单纯项目表示词的笛卡尔积——this project等)

b)      出现的问题:

                      i.            这样提取出来的项目别名一般性不好,在程序运行中发现会出现提取出WhatThere等这样的特殊词,而且统计结果表现出很多项目都存在这样的情况,因此在后面的匹配过程执行完后会出现包含这中项目别名的项目大量聚合形成程序默认的相同项目(聚合的原因还与我们下面的第二个问题有密切关联),因此出现错误的聚合。

                    ii.            这样提取还存在别名提取不到或别名中包含大量项目描述信息的问题:例如这样的项目描述(目前的很多的项目中都用到了GIS 软件,然而在开源的GIS软件中有SharpMap在工程应用中开始被人发觉。)用我们的别名提取策略就不能提取出有效信息,因为无法找到有效的be动词;而对于下面这个描述信息(关于 BeautyEye L&F BeautyEye is a Java Swing cross-platform look and feel.),我们程序中会提取到“关于 BeautyEye L&F BeautyEye”这样的别名,而实际上前面一部分只是描述信息。

2.     项目相似度计算阈值的设置:

a)       目前采用的策略:对具有相同项目别名的项目进行TFIDF算法的相似度计算,如果两个项目都有标签信息,则采用标签信息进行计算;如果两者之一没有标签信息,则采用项目描述信息进行文本相似度计算。对于来自同一社区的项目我们认为只有相似度大于0.9才能算确实是同一个项目;对于不同社区的项目我们认为只要相似度大于0.1,就认为是相同的项目。

b)      出现的问题:这两个阈值设置的没有科学依据,因为在上一个问题的基础上,我们有了一个来自openhub社区的项目一,它提取出的别名是“There”,在实际的匹配中会出现很多来自非openhub社区提取出“There”作为项目别名的项目与项目一匹配上了,这就说明在这种情况下这个阈值设置的过低。

3.     IK分词器的分词效果不理想:

a)       目前采用的策略:目前在计算文本相似度的时候我们会用到ik分词器对项目描述信息进行分词。

b)      出现的问题:

                      i.            ik分词器智能分词选项智能比较好地处理中文,对于英文只是简单采取空格分割的方法,对于这个问题我们目前增加了一步人工处理(对于每一个分词用正则表达式提取中英文,中间用空格连接)。

                    ii.            ik分词器中停用词过少,分词结果中有很多常用词,影响最后相似性的计算(目前的停用词词库采用的是项目帖子匹配程序中ik分词器停用词词库)。

 

回复 ︿ (2)
  • 用户头像
    张迅晖 8年前

    好的 师兄

  • 用户头像
    王涛 8年前

    描述 已更新。 (查看差别)

    我认为项目别名目前应该采用从严的策略,保证发现的别名绝大部分是正确的,以免错误传递到后面的处理。具体处理策略你回来后我们一起讨论解决。

0?1470885445
登录后可添加回复
3675?1667865017
指派给   张迅晖
发布时间: 2015-08-23 08:08
更新时间:2015-08-23 08:08

1. 某地区工作经验需求饼图

2. 某地区工作经验与薪资对比分析图

3. 某地区职位需求对比分析饼图

4. 某软件工作经验需求对比分析饼图

5. 某软件工作经验与薪资关系对比图


关于地区的图,目前采用ajax查询加载;

其中第三个图由于数据差异不大,无法显示对比情况

( 126.384 KB) 张迅晖, 2015-08-23 08:07
( 245.673 KB) 张迅晖, 2015-08-23 08:07
( 76.491 KB) 张迅晖, 2015-08-23 08:07
回复 ︿
0?1470885445
登录后可添加回复

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×