241?1445561792

【支持】 博客类资源爬取相关方法及论文的调研结果 正常


张方添加于 11/23/2015 17:08

  08年山东大学的硕士论文《博客资源的爬取与检索》中介绍了两种博客类数据的爬取方法:1.全网页爬取,2.根据博客网页主题与用户检索主题的相关度进行爬取,感觉很有启发。文章链接http://www.doc88.com/p-74588159534.html

 另外发现了csdn官方提供的一个博客导出工具,http://blog.csdn.net/blogdevteam/article/details/27084771

 该工具现支持的网站包括:

CSDN、ITEYE、博客园、新浪、搜狐、和讯、ChinaUnix、网易、51CTO、开源中国、百度空间、QQ空间等站点

支持3种导出方式:个人博客、博客专栏和指定文章URL。

可以导出CHM、PDF、HTML、TXTEPUB 5种格式文档。


回复
0?1470885445
登录后可添加回复
  • 当前状态 新增
  • 选定优先级 正常
  • 指派给 张方
  • 里程碑 --
  • 开始日期 11/23/2015
  • 结束日期
  • 预计工时(H) 0.00 hour
  • 完成度 0%
  • 关联Commit
问题和建议
还能输入50个字符 Submit

加入QQ群

关注微信APP


×