929?1442652660

【功能】 一种大规模爬取博客类数据的方法 正常


甘谊昂添加于 2014-11-08 21:29
在无明显列表页的情况下,整站的爬取博客数据。 思路: 1、漫延式爬取。 2、链接发现和保存。 3、url队列采用数据库进行管理。 4、时间戳。
回复(2)
  • 929?1442652660
    甘谊昂 9年前

    状态新增 变更为 关闭

    % 完成0 变更为 50

    有个简单实现,因为爬取策略改变,尝试整合到新的框架中去。

  • 5?1460204756
    尹刚 9年前

    有没有见过类似的blog爬取方法?

0?1470885445
登录后可添加回复
  • 当前状态 关闭
  • 选定优先级 正常
  • 指派给 甘谊昂
  • 里程碑 --
  • 开始日期 2014-11-08
  • 结束日期
  • 预计工时(H) 0.00 小时
  • 完成度 50%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×