08年山东大学的硕士论文《博客资源的爬取与检索》中介绍了两种博客类数据的爬取方法:1.全网页爬取,2.根据博客网页主题与用户检索主题的相关度进行爬取,感觉很有启发。文章链接http://www.doc88.com/p-74588159534.html
另外发现了csdn官方提供的一个博客导出工具,http://blog.csdn.net/blogdevteam/article/details/27084771
该工具现支持的网站包括:
CSDN、ITEYE、博客园、新浪、搜狐、和讯、ChinaUnix、网易、51CTO、开源中国、百度空间、QQ空间等站点。
支持3种导出方式:个人博客、博客专栏和指定文章URL。
可以导出CHM、PDF、HTML、TXT和EPUB 5种格式文档。