241?1445561792

【任务】 网站http://www.ibm.com/developerworks/cn/opensource/ 抽取任务 正常


张方添加于 2015-05-26 15:31
该网站包括项目,博客、论坛三个模块,完成三个模块的抽取模板,部署运行。
回复(8)
  • 241?1445561792
    张方 9年前

    > wangtao 写到: > 志星分析的很对,咱们目前主要关注“文档”中“所有专区”这一个模块就可以了,软件项目暂不考虑@starlee,@zhangfang 好的,师兄,那志星你就把筛选条件为所有专区的帖子爬下来吧,刚看了下共有帖子13869个,数量不小。之前爬的博客url都是不同主题的列表页链接,有239个主题,每个主题里面都有不少的博客,所以总的博客量还是比较大的,问题是我们怎样能够找到一个统一的入口,把这些博客的详情页一网打尽。PS:王涛师兄,实验室的无线网卡没有流量了,干不了活,大家都挺着急的,请师兄解决一下,嘿嘿@wangtao

  • 241?1445561792
    张方 9年前

    > starlee 写到: > 好的师兄,我尽早重新爬取 志星,http://bytes.com/answers/的问答模块请你也爬取下来吧 @starlee

  • 241?1445561792
    张方 9年前

    > wangtao 写到: > 张方你编写的项目、博客和论坛三个模块对应的URL分别是什么? 分析发现,项目的url直接链到了很多个不同网站,所以软件项目的抽取模板就没有写了。博客的url是这样的https://www.ibm.com/developerworks/community/blogs/Wc94215ea1fb1_47ff_8125_356a7eaad5c1/entry/d%25c3%25a9veloppement_d_une_plateforme_permettant_d_impliquer_les_citoyens_dans_la_gestion_des_ressources_budg%25c3%25a9taires_de_l_etat_et_recommandant_des_solutions_optimales_aux_minist%25c3%25a8res1?lang=zh 论坛也分了很多主题,每个主题下面都有子论坛,最后抽取的详情页链接是这样https://www.ibm.com/developerworks/community/forums/html/topic?id=a717b150-6d04-4e55-984d-61371518dabd&ps=25

  • 3213?1442652660
    LiZX 9年前

    好的师兄,我尽早重新爬取

  • 11?1648889181
    王涛 9年前

    志星分析的很对,咱们目前主要关注“文档”中“所有专区”这一个模块就可以了,软件项目暂不考虑@starlee,@zhangfang

  • 11?1648889181
    王涛 9年前

    张方你编写的项目、博客和论坛三个模块对应的URL分别是什么?

  • 3213?1442652660
    LiZX 9年前

    我刚才看了一下,帖子的详细页url提取问题是:1,抽取的csspath没有限制好,导致一些非详细页的url也被提取了2,bbs和blog的混在一起了,忽略了提取规则不同。另外,我发现之前确定的论坛和博客的列表页入口有些问题,这个是不是更合适呢(http://www.ibm.com/developerworks/cn/views/opensource/libraryview.jsp?sort_by=&show_abstract=true&show_all=&search_flag=&contentarea_by=Open+source&search_by=&product_by=-1&topic_by=-1&type_by=%E6%89%80%E6%9C%89%E7%B1%BB%E5%88%AB&ibm-search=%E6%90%9C%E7%B4%A2,或者筛选条件选为“所有专区”),请师兄进一步确定要抽取的页面,我再重新安排爬取。

  • 241?1445561792
    张方 9年前

    状态新增 变更为 反馈

    https://www.ibm.com/developerworks/网站存在的问题主要有:开源项目爬到的html页面有130个,但是有一半来自我们之前已经爬取过的Apache和sourceforge网站,另外项目来自将近70个同的网站,页面结构不一致,抽取代价太大。帖子爬到的html页面有239个,但是爬到的是列表页面,而不是详情页面,另外详情页面的页面也有不同的页面结构。

0?1470885445
登录后可添加回复
  • 当前状态 反馈
  • 选定优先级 正常
  • 指派给 张方
  • 里程碑 --
  • 开始日期 2015-05-26
  • 结束日期
  • 预计工时(H) 0.00 小时
  • 完成度 0%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×