项目简介

将github的isssues信息爬取下来,然后进行分析

2528?1489140759
【任务】 本科毕业设计论文初稿 正常
指派给   王涛
发布时间: 05/11/2016 21:28
更新时间:05/14/2016 01:43

本科毕设论文初稿,请王涛老师帮忙把下关,提出宝贵意见,我好修改修改


上传了基于范强学长意见的修改稿

回复 ︿ (1)
  • 用户头像
    曾令斌 3年前

    attachment 曾令斌_初稿_本科毕业设计论文.docx added

    attachment 曾令斌毕业设计_第一次修改.docx added

    Description updated (diff)

0?1470885445
登录后可添加回复
2528?1489140759
【周报】 ~0328工作终结 正常
指派给   王涛
发布时间: 03/28/2016 09:19
更新时间:03/28/2016 09:19

pr代指pull request

1.获取1000多个项目的issues和pr的评论

2.获取1000多个项目的针对代码行的特定评论

3.获取1000多个项目中全部用户的信息

4.对每个项目,每个评论者的评论数量和针对评具体代码行的数量进行分析,如下图


5.对每个用户的e_mail进行合并分类,提取出前缀一样的 e_mail,并进行分析,

6.对pr下面的comments进行分类,初步如下图:



回复 ︿
0?1470885445
登录后可添加回复
10?1449542945
【任务】 相关文献-peer review 正常
指派给   曾令斌
发布时间: 03/22/2016 10:10
更新时间:03/22/2016 20:09
可参考其中的方法
回复 ︿ (2)
0?1470885445
登录后可添加回复
10?1449542945
【任务】 论文翻译 正常
指派给   曾令斌
发布时间: 02/20/2016 19:23
更新时间:03/14/2016 21:24
以下两篇文章,请翻译。   
回复 ︿ (9)
  • 用户头像
    曾令斌 3年前

    attachment 代码审阅中自动推荐审查者的系统.docx added

  • 用户头像
    曾令斌 3年前

    @尹刚(jacknudt)‍ ,据说交上去没人看,那我就

  • 用户头像
    曾令斌 3年前

    @尹刚(jacknudt)‍ ,谢谢老师,没事的

0?1470885445
登录后可添加回复
2528?1489140759
【任务】 开题报告 正常
指派给   王涛
发布时间: 01/13/2016 14:31
更新时间:01/18/2016 15:12
回复 ︿ (13)
  • 用户头像
    曾令斌 3年前

    王涛老师,这是第二次修改

  • 用户头像
    曾令斌 3年前

    @王涛(wangtao)‍ 收到

  • 用户头像
    王涛 3年前

    请令斌按照我和余跃的批注认真修改。具体的包括社会化编程模式及pull-request流程可借鉴和参考余跃的开题报告相关资料

0?1470885445
登录后可添加回复
2528?1489140759
发帖时间:12/04/2015 23:35
更新时间:12/04/2015 23:35

本周的情况在于完成一个多线程的爬虫,已经粗略的爬过一遍,不过较为粗略,一部分issues和comments由于超时问题和access_token耗尽的问题,而未能爬下来,未来三天打算进行查漏补缺。

下周,学习R语言,掌握R语言的基本操作和与mysql数据库的交互

回复 ︿ (1)
  • 用户头像
    尹刚 4年前
    很好!但请用问题跟踪来介绍你的进展。论坛不适合发布工作进展,更适合发布问题或技术观点

0?1470885445
登录后可添加回复
2528?1489140759
发帖时间:12/01/2015 00:28
更新时间:12/01/2015 00:28
今晚mysql服务器报错,百度上竟然没有,最后只能看英文的,最后发现是,是由于短时间开启的线程太多,insert太频繁。最后给insert操作加了锁,才初步解决问题。进度有点慢,老师学长们多包容包容
回复 ︿ (5)
  • 用户头像
    曾令斌 4年前
    yuyuenudt 写到:
    把你的代码传到版本库,我找人进行代码审查。
    刚看到,,传上去了,最新的,名字叫做,github spider.py,谢谢学长

  • 用户头像
    余跃 4年前
    把你的代码传到版本库,我找人进行代码审查。

  • 用户头像
    曾令斌 4年前
    OK,get it,谢谢老师

0?1470885445
登录后可添加回复
2528?1489140759
发帖时间:11/30/2015 16:10
更新时间:11/30/2015 16:10

过去一个星期,主要是指余跃学长的指导下,编写爬虫,完成了一个单线程的python爬虫,掌握了数据库的相关操作。但是单线程的爬虫速度过慢,没办法完成预期目标,所以现在正在进行多线程爬虫的编写

本周:写完多线程爬虫,并将数据爬取下来

回复 ︿ (3)
  • 用户头像
    尹刚 4年前
    很好!这个数据非常重要!张洋师兄和余跃师兄都做过类似工作,可以经常请教。

  • 用户头像
    曾令斌 4年前
    jacknudt 写到:
    很好!目前你在爬取什么网站的什么数据板块?
    github的issues的大部分内容

  • 用户头像
    尹刚 4年前
    很好!目前你在爬取什么网站的什么数据板块?

0?1470885445
登录后可添加回复
2528?1489140759
指派给   曾令斌
发布时间: 11/25/2015 01:11
更新时间:11/25/2015 10:33
加油
回复 ︿ (1)
  • 用户头像
    尹刚 4年前

    有问题请在项目讨论区中随时提问,有进展就随时在问题跟踪里发布,我们都你看到。

0?1470885445
登录后可添加回复
2528?1489140759
发帖时间:11/24/2015 12:23
更新时间:11/24/2015 12:23

本周任务:完成对开源社区数据的爬取,并将其转存到数据库中。

状态:进行中。

回复 ︿ (2)
  • 用户头像
    曾令斌 4年前
    收到,好滴

  • 用户头像
    尹刚 4年前

    很好!请在问题跟踪里面发布一个任务类型的问题,然后师兄和老师们可以对你进行指导。


    另外,请把你的代码发布到版本库中。

    我待会吧本项目的模式改为开发模式,请创建版本库,并提交代码。具体参见帮助中心。

0?1470885445
登录后可添加回复
问题和建议
还能输入50个字符 Submit

加入QQ群

关注微信APP


×