3178?1442652658

【缺陷】 OSSEAN后台数据流动问题汇总 正常


侯翔添加于 2015-10-23 10:19

1、爬虫:爬虫55那台服务器的性能出现问题,主要在内存方面,甘谊昂昨天开始时已经提过。爬虫吃了stackoverflow的站点爬取稳定外,对其他站点的爬取不是很稳定。同时我感觉应该对爬虫的结果进行监控,之前就发生过:列表页的爬取频率过大,详情页的url积累过多,导致详情页面的爬取始终没有赶上最新的页面。

2、抽取:抽取已经按照师兄的意思改成了多线程的模式:当有站点又抽取任务时,启动对应的抽取线程。抽取程序还是放在55那台的服务器上,还没移植到104那台服务器上,目前抽取还有改进的地方,基于线程池抽取程序的日志,还没有解决好,现在是所有的站点的日志放到了一起,这样不利于对各个站点的维护,不利于单个站点的维护与修改。

3、汇总:汇总各个站点的抽取结果到一种总表,目前发现的问题是:在对帖子汇总的时候对帖子的分类没有做好,导致最后前端展示的时候无法很好的展示帖子内容。

4、帖子的去重:程序有待改进,可维护性与扩展性不是很好,比如之前的数据转移时,源数据表与目的数据表的字段没有对齐,导致了前端的现实出了问题。

5、推荐系统:目前的推荐系统只是对平台现有的项目进行了推荐,开源项目之间的推荐也仅仅是有了两个项目之间的相似度与相关度两个权重,结果过于单一。推荐系统展示的前端展示还有问题:项目的具体描述时,有些描述信息出现了不应该出现的字段。

6、监控系统:整个监控系统需要升级,有很多问题,比如我发现每个环节的程序都没有很好的实时监控,与通知环节的相应负责人,这个现在都是人为查询监控。

7、55的服务器ADSL轮询ip重置也发现了一个问题,由于爬虫组对每次重启服务器时没有进行重新拨号,应该把这个写入脚本,重新开机时自动执行拨号。

回复(4)
  • 3178?1442652658
    侯翔 8年前

    谢谢尹老师,王涛师兄的指导肯定,我们一定继续努力,把ossean做大做好

  • 11?1648889181
    王涛 8年前

    模块化和模块重用是OSSEAN要重点进行的工作,我们针对前面湛云候翔总结的问题进行这项工作,争取尽快完成。

  • 5?1460204756
    尹刚 8年前

    侯翔和湛云都很有全局观,又注重细节,是难得的人才!

    这些工作我们要:

    1、进行模块化重构,使各模块之间的独立性越来越强,减少模块之间的耦合;

    2、将各个模块指定具体责任人,由具体的责任人承担相应的责任;

    3、侯翔和湛云要逐步聚焦到特定技术点的研究和开发中,同时兼顾系统架构和运行。


    @王涛 @侯翔 @湛云

  • 11?1648889181
    王涛 8年前

    候翔总结的很好,你们针对这些问题考虑下简洁高效的解决办法,我找时间和你们具体讨论解决。

0?1470885445
登录后可添加回复
  • 当前状态 新增
  • 选定优先级 正常
  • 指派给 侯翔
  • 里程碑 --
  • 开始日期 2015-10-23
  • 结束日期
  • 预计工时(H) 0.00 小时
  • 完成度 0%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×