37?1442652656

【缺陷】 爬虫爬取策略问题 正常


16FanQ添加于 2014-12-08 09:27
在新的爬虫框架里还是会出现信息丢失的问题,比如说在iteye里,浏览数是在列表界面才可以取到,但是进入具体的帖子页面,就没有浏览数了,目前的做法会导致这部分数据无法抓取到 相关链接: http://www.iteye.com/problems/55080 http://www.iteye.com/problems/search?query=急求一些搜索引擎的相关技术%28不是站内,而是用爬虫的那种!%29 http://ossean.trustie.net/open_source_projects/59549
回复(1)
  • 929?1442652660
    甘谊昂 9年前

    主题爬虫框架问题 变更为 爬虫爬取策略问题

    状态新增 变更为 已解决

    指派给 被设置为 gyiang

    % 完成0 变更为 100

    已经将列表页自身的url也加入了爬取队列,列表页自身html也会保存。 非框架问题,是爬取方案没有考虑到的情况,已经调整。 在抽取的环节需要继续处理。

0?1470885445
登录后可添加回复
  • 当前状态 已解决
  • 选定优先级 正常
  • 指派给 甘谊昂
  • 里程碑 --
  • 开始日期 2014-12-08
  • 结束日期
  • 预计工时(H) 0.00 小时
  • 完成度 100%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×