Gantt

months from Query Cancel query

功能 #13637: 【前端】部署solrcloud集群服务
功能 #13639: 【前端】整合solrcloud服务至前端rails
缺陷 #13636: 【抽取】stackoverflow站点抽取规则变更
功能 #13635: 【爬虫】ossean爬虫全面替换成pyspider版
功能 #12954: ossean前端相关配置说明
缺陷 #12017: 王威周报(4-28)
周报 #11943: 曾雅蓉周报-2017/4/22
缺陷 #11942: 王威周报(4-22)
周报 #11940: 李耀宗周报4-22
缺陷 #11921: 王威周报(4-15)
周报 #11919: 张智雄周报(4-15)
周报 #11920: 於杰周报 2017-04-15
周报 #11918: 周报&“项目搜索”进展&规划
周报 #11914: 李志星周报-17-04-15
周报 #11917: 李乾坤周报4月15日
周报 #11916: 曾雅蓉周报_2017-4-15
周报 #11915: 张迅晖周报_2017-4-15
缺陷 #11383: 爬虫内存优化
缺陷 #11375: 项目去重:默认同社区识别为不同项目的判断有误
任务 #11358: github汇总去重初探
功能 #11328: 去重优化问题
支持 #11275: 关于项目代码编写及管理的意见
支持 #11284: OSSEAN前端开发环境配置简要说明
缺陷 #11276: OSSEAN技术文档 - 部署篇
支持 #11273: 项目匹配流程简图
支持 #11272: 项目、帖子汇总流程简图
支持 #11271: 项目抽取流程简图
支持 #11270: 项目汇总过程中,执行pk_control_posts/pk_control_projects插入时,测试平台、正式平台同时执行汇总操作同一表时出现插入相同数据时导致报错
支持 #11268: bundle install相关报错
缺陷 #11267: 项目抽取时会遇到因实际项目标签太长而数据库设计标签字段长度不足而导致抽取失败
支持 #11079: OSSEAN项目结构整理小结(待完善优化)
任务 #9969: OSSEAN运维规范化
任务 #10096: 克隆抽取GitHub仓库信息
任务 #9978: OSSEAN前端代码整理和加载效率优化
任务 #9970: 汇总程序优化
功能 #9955: OSSEAN近期升级优化
周报 #8642: 汇报 - OSSEAN架构及问题介绍
周报 #8212: 对OSSEAN技术架构介绍的思考
任务 #8038: OSSEAN目前待解决的问题
周报 #8097: OSSEAN阶段讨论报告
支持 #7889: 目前在线服务的OSSEAN前端代码已转到pre分支
任务 #7447: github 数据爬取
缺陷 #7324: The requested URL returned error: 401 while accessing
缺陷 #7202: 项目去重问题
缺陷 #6874: OSSEAN点击项目详情页面加载慢的问题
任务 #5864: 属性字段查询
缺陷 #5860: 项目社区中没有抽取到的页面元素统计
缺陷 #5814: 去重程序重构
任务 #5702: OSSEAN数据流重构
缺陷 #5671: 关于OSSEAN数据流重构的问题
缺陷 #5436: OSSEAN界面设计问题
缺陷 #5517: OSSEAN后台数据流动问题汇总
支持 #5513: 爬虫1.0稳定性
缺陷 #5498: 项目详情页点击“更多”出现帖子数量为0,只有1页的帖子
缺陷 #5188: OSSEAN显示问题汇总
缺陷 #5187: 目前版本的项目别名识别与去重还存在问题
支持 #5172: 开源软件推荐系统的前端界面可以参考下这个网站
任务 #5125: 匹配算法优化迭代过程的处理
任务 #5106: 陈梦雯____研究情况进展记录及汇报
任务 #4678: 匹配算法改进策略
任务 #5072: OsChina博客等板块数据爬取
缺陷 #4637: 帖子和项目的一些属性数据计算方法有问题
支持 #5056: 冰珣关注了开源软件的薪酬水平和什么因素有关系吗?
支持 #4936: OSSEAN平台各开源社区数据抽取率统计
功能 #4934: 集成分类系统
缺陷 #4713: 首页最火项目Winforms Calendar影响力仅1034却排在前面?
任务 #4745: 55服务器的自动ADSL拨号重置实现
任务 #4682: 抽取模板的改善
缺陷 #4709: 提高OpenHub社区的抽取成功率
缺陷 #4845: openhub社区抽取问题
功能 #4705: 改进项目相关帖子的展示
缺陷 #4712: 项目概述信息及标签信息显示需规范长度
任务 #4670: OSSEAN平台部署的调整
缺陷 #4684: ossean跑服务的服务器断网现象还没解决。
任务 #4669: 单机爬虫更新
任务 #4685: 对师兄们的研究成果在平台的部署。
任务 #2989: 新增爬取网站
任务 #4683: 对新爬下来的帖子的进行更新处理
任务 #4681: 对每个站点的抽取率进行分析,及时的放到monitor上去
缺陷 #4680: 抽取程序优化
缺陷 #4605: OSSEAN平台在其他系统和浏览器下的显示问题
缺陷 #1670: 某些项目点进去后报500错
缺陷 #4573: OSSEAN搜索结果页面显示几个完全重复的项目
缺陷 #4575: “更多”帖子显示错误
任务 #4538: OpenHub社区项目下载数量与该网站标注的项目总量不符
缺陷 #4627: OsChina社区数据不够实时
缺陷 #4626: openhub数据抽取问题
任务 #4537: 开源项目筛选机制设计
缺陷 #4559: 项目详情页左侧标签栏下方默认有滚动条
缺陷 #4357: 添加标签的js有问题
任务 #3583: 网站http://www.ibm.com/developerworks/cn/opensource/ 抽取任务
任务 #3291: 项目排序进展报告
缺陷 #3370: cnblogs_news和openhub_projects数据流动出现问题
任务 #3234: 互联网领域招聘平台拉勾网数据抽取
缺陷 #3290: 抽取程序停掉了,无法启动
任务 #3264: 关于知识分享社区的抽取结果表规范
任务 #3243: 开发进展
缺陷 #3247: Monitor数据监控中每个站点的数据有冗余
缺陷 #3248: 抽取服务器的内存不够
任务 #3246: 抽取结果的表结构统一
缺陷 #3245: softpedia的抽取率不是很高
缺陷 #3233: 51CTO_Blogs 抽取的字段格式不正确
任务 #3220: 内推网数据抽取任务
任务 #3102: 分布式爬虫框架调研
功能 #3099: tFlow改造
任务 #2988: 适应论坛模式的爬虫
支持 #3067: 爬取部分,性能分析
缺陷 #3038: 项目热度显示
缺陷 #3031: 项目标签排序显示
任务 #3028: 知识共享社区http://www.51cto.com/博客板块抽取任务
任务 #3027: 开源项目网站http://projects.apache.org抽取任务
任务 #3029: 数据监控部分加入对应网站爬虫和抽取模块的完成人信息
缺陷 #3002: 帖子排序问题
缺陷 #2991: 抽取任务分配及数据库表设计规范
任务 #2995: DB-Engines分析
缺陷 #2917: 系统响应时间太长
缺陷 #2916: 项目主页中的帖子应该按时间倒排
缺陷 #2918: ossean数据源检测系统能否指定日期?
缺陷 #2711: “技术创新趋势”板块的帖子都是2010年10月份的
缺陷 #2710: 进入具体项目后的搜索框是否应变为针对这个项目的搜索而不是针对整个OSSEAN站点的搜索
任务 #2528: 维护MySQL表数据迁移自动化程序
缺陷 #2344: UrlExtractor抽取url出错后不应该打标记
缺陷 #2342: pageMd5不一致问题
缺陷 #2343: ListHtmlCrawler下载页面为null并存入数据库
缺陷 #2317: 链接抽取不灵活
缺陷 #2320: UrlExtractor抽取url效率有问题
缺陷 #2321: HtmlCrawler爬取抛异常
缺陷 #2319: UrlExtractor向数据库存入重复url时候会陷入死循环
缺陷 #2318: UrlExtractor存在不能返过去更新已抽取htnl_list的问题!
缺陷 #2316: 配置文件domain属性不能带“:”
支持 #2312: 增加openhub社区
缺陷 #2307: post_url表的时间戳标记混乱
缺陷 #2289: Charset autodetect failed
缺陷 #2290: 自动发现url的爬取策略存在风险
功能 #2294: 有序爬取列表页
缺陷 #2293: 基于请求频率的503反爬取策略
缺陷 #2278: 配置文件不能直接含有“&”符号
缺陷 #2279: 爬虫模拟osc登录用户失效
缺陷 #2272: 爬虫下载时候自动解析了html的转义字符
缺陷 #2267: 爬虫遇到大量404页面会陷入死循环
功能 #2046: 通用html爬虫
缺陷 #2244: 爬虫爬取策略问题
功能 #2198: 通用html爬虫改造
功能 #2028: 一种大规模爬取博客类数据的方法
功能 #1981: 爬虫代理模块开发
功能 #1983: 爬虫参数的随机化改造
缺陷 #1858: 项目页面的浏览数为0,是否应该为其所有帖子的浏览数之和?
支持 #1592: solr重建索引过程中,数据仍然可用
缺陷 #1824: 爬虫在16服务器上部署后无法启动
缺陷 #1793: 自动爬取的OrderUrl类生成URL逻辑异常
功能 #1745: 存储过程部分的修改
缺陷 #1780: 匹配结果没有对应帖子
缺陷 #1802: t_proejct到osp_info的存储过程有问题
缺陷 #1789: bbs_csdn 准确对post标题进行抽取,使之不含【置顶】,【推荐】等标签
缺陷 #1728: 关于history的设置问题
缺陷 #1768: Notepad++ Plugin Manager 的项目来源是错的
缺陷 #1777: 抓取页面html的bbs_csdn和question_lupaword的爬取模板已完成,准备部署爬取
缺陷 #1709: 主页的项目数显示有错误吧:“共 10 个开源项目”
缺陷 #1710: 用户登陆是不是要访问user.trustie.net呢?
缺陷 #1711: 标签搜索问题
缺陷 #1770: 实现项目搜索以及修改列表页实现
缺陷 #1769: 首页项目的数据使用新的排序方式使得显示不为0或空
缺陷 #1767: 首页显示帖子内容修改
缺陷 #1727: oschina_question爬虫问题
缺陷 #1662: 知识共享社区的post,有空字符串标题
缺陷 #1707: 国际化工作
缺陷 #1704: 项目列表页中不同分页面的访问速度差距太大
缺陷 #1702: 项目列表页从16680页起无数据显示
缺陷 #1672: 项目的独立问题
缺陷 #1671: 项目主页的链接需要修改
支持 #1654: 大家记得把昨天开会的PPT上传到网站上,设为私有
缺陷 #1664: 项目与帖子匹配问题
缺陷 #1666: 项目内的热词没有添加链接
缺陷 #1663: 页面相应时间过长
缺陷 #1665: 主页推荐信息需要修改
缺陷 #1661: 在对知识共享社区的爬取中,未抽取"作者"这一必要信息
缺陷 #1660: 全球热点和热帖的展示内容不合理
缺陷 #1659: ossean的项目搜索不全面且帖子搜索功能不可用
缺陷 #1521: 关于存储过程中发现的一些问题
任务 #1337: 将所有数据中的时间改成date类型
任务 #1518: 关于爬取任务的规范化
任务 #1505: 审查表单与存储过程,修改字段,使之标准化
缺陷 #1511: github项目表中没有pageMD5,要不要加上去
任务 #1503: 重新爬取CSDN论坛模块,增加对页面html的爬取
缺陷 #1476: tags表中有一个name为“”(空字符串)的记录
支持 #1506: 平台表单修改
任务 #1419: 项目综合排名算法
任务 #1502: 数据库表单结构剖析
任务 #1495: 增量爬取后数据的导入
缺陷 #1496: 平台部分数字过大显示丑
任务 #1484: 人工过滤一遍匹配结果
任务 #1489: 在爬取时删除name为'空的项目
任务 #1417: 将zdnet_news导入到标准化表单t_knowledge中
缺陷 #1477: open_source_projects表id为16561的项目名称异常
任务 #1468: OSS数据库转储
任务 #1416: 管理缺陷
任务 #1275: 将分散的表整理到一个数据库中
缺陷 #1236: HackerNews的urlMD5和pageMD5取值有误
任务 #1235: Github最新data dump获取
任务 #1200: 对csdn网站博客模块进行爬取
任务 #1201: savannah-gnu&no-gnu项目爬取
任务 #1205: LUPA开源社区技术论坛模块抽取规则以及数据库表的设计
任务 #1206: 项目及知识共享社区数据整合导入总表
缺陷 #1195: OSC技术问答的爬取模板逻辑有误
任务 #1187: 提供构建合并表单(统一数据库表单)的测试数据
任务 #1183: OSC项目列表爬取模板的设计
缺陷 #1446: tagging表的存储过程太慢
缺陷 #1447: 重新设计bug模块
缺陷 #1452: 修改页面的顶部
缺陷 #1466: 数据库t_knowledge表被锁
支持 #1445: 数据导入和分离关系图
任务 #1401: 知识共享社区tag分离
任务 #1170: “知识共享社区”数据源的合并工作
缺陷 #1316: tags表单数据重复问题
任务 #1169: 站点重要性和性价比综合排序列表
支持 #1300: 修改后的osp主要三张表
缺陷 #1406: tag分离解析程序异常
缺陷 #1305: 关于爬取数据的质量问题
缺陷 #1319: iteye问答社区标签抽取问题
功能 #1339: 测试从帖子中提取关键字
功能 #1386: github项目描述问题
任务 #1335: 对项目和贴子匹配部分进行测试
任务 #1334: 平台稳定性
支持 #1379: 关于平台的开发环境问题
任务 #1393: 项目内描述性信息
功能 #1415: 开始对项目和贴子进行匹配操作
缺陷 #1384: 标签云接口设计
缺陷 #1378: 项目数据的导入
任务 #1389: 完成展示的bug功能所需的model
缺陷 #1286: zdnet的news没有抽取内容,只抽了摘要
缺陷 #1338: 在平台上加入标签云模块
缺陷 #1372: 最新版的存储过程(PROCEDURE)无法执行查询
缺陷 #1301: 知识共享社区导入数据的时间格式不统一
缺陷 #1336: 将launchpad的缺陷数据导入到缺陷表中
缺陷 #1333: OSSCEAN上的缺陷表还没有建立
缺陷 #1282: segmentfault的reply应该只抽取文字内容,不保留html
任务 #1274: 知识共享社区数据导入总表工作
缺陷 #1285: lupaworld的bbs抽取问题逻辑有问题,应该只保存主贴内容
缺陷 #1296: 存储过程(PROCEDURE)执行过程不能跳过错误数据
缺陷 #1287: cnblogs的question板块内容,只抽取了一个<p>标签之间的内容
缺陷 #1288: csdn的question板块抽取的tags处理逻辑有误,tag没有分开
任务 #1297: 爬虫脱离eclipse运行的改造计划
缺陷 #1280: 第三版设计的数据导入存储过程(PROCEDURE)不全
支持 #1144: 关于版本库的调整
缺陷 #1284: HackerNews的抽取信息太少,没有抽取评论
功能 #1272: project表单分化
缺陷 #1257: MD5问题
功能 #1218: git项目归类
任务 #1262: 完成Iteye资讯爬取模板,并部署至服务器进行爬取
任务 #1258: 因为MD5对于显示是无用的,所以删除了标准表的md5字段
缺陷 #1249: 修改模板
任务 #1232: 知识社区表单pageMD5
缺陷 #1251: LUPA开源社区技术论坛模块爬取出错
缺陷 #1245: 爬取模板设计错误-cnblogs-news
任务 #1233: HackerNews爬取
支持 #1240: 软件体系结构图
任务 #1234: CSDN网站资讯模块数据爬取
任务 #1226: segmentfault数据爬取
支持 #1228: 处理表
功能 #1172: 数据库表单设计
支持 #1219: project标准表单字段含义的更改
缺陷 #1186: 修改图表设计
功能 #1198: 完善日志记录功能
任务 #1196: OSC讨论区的数据爬取不能停止
任务 #1191: 整合开源软件漏洞预测功能
任务 #1143: 关于知识分享社区的数据采集
任务 #1148: 整合爬虫框架
任务 #1142: 争取在8月15日平台的测试版上线!
功能 #11502: OSSEAN用户行为记录
 
 
45
46
47
48
49
50
51
52
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Trustie-OSSEAN
已解决 100%
已解决 100%
已解决 100%
已解决 100%
正在解决 40%
新增 0%
正在解决 40%
新增 0%
新增 0%
新增 0%
已解决 0%
已解决 0%
新增 0%
新增 0%
新增 0%
新增 0%
关闭 100%
正在解决 90%
已解决 100%
新增 0%
关闭 100%
关闭 100%
关闭 100%
关闭 100%
已解决 100%
已解决 100%
新增 40%
关闭 0%
已解决 100%
关闭 100%
新增 50%
新增 0%
OSSEAN新版将在月底前上线 50%
已解决 0%
 
« Previous Next »
问题和建议
还能输入50个字符 Submit

加入QQ群

关注微信APP


×