项目简介

开源社区中博客数据的爬取方法研究

241?1445561792
指派给   张方
发布时间: 11/23/2015 17:08
更新时间:11/23/2015 17:08

  08年山东大学的硕士论文《博客资源的爬取与检索》中介绍了两种博客类数据的爬取方法:1.全网页爬取,2.根据博客网页主题与用户检索主题的相关度进行爬取,感觉很有启发。文章链接http://www.doc88.com/p-74588159534.html

 另外发现了csdn官方提供的一个博客导出工具,http://blog.csdn.net/blogdevteam/article/details/27084771

 该工具现支持的网站包括:

CSDN、ITEYE、博客园、新浪、搜狐、和讯、ChinaUnix、网易、51CTO、开源中国、百度空间、QQ空间等站点

支持3种导出方式:个人博客、博客专栏和指定文章URL。

可以导出CHM、PDF、HTML、TXTEPUB 5种格式文档。


回复 ︿
0?1470885445
登录后可添加回复
问题和建议
还能输入50个字符 Submit

加入QQ群

关注微信APP


×