241?1445561792

【缺陷】 项目社区中没有抽取到的页面元素统计 正常


张方添加于 11/23/2015 20:52

经过统计项目社区中没有抽取到的页面元素分别是:


Oschina: 没有抽取的页面元素是软件首页链接,软件文档链接,软件下载链接;


Sourceforge: 没有抽取的页面元素是 Reviews number


 Openhub:  页面元素Project links中包含homepage, download

Forums link ,其中的forums link没有抽取。

另外未抽取的还有 LicensesSimilar projectslast_update_time(其形式有十几种,处理成datetime类型的字符串很复杂,处理不好会严重降低抽取成功率,之前讨论过)。


Freecode:页面元素Links中包含的homepage demo等链接没有抽取;


softpedia :没有抽取的页面元素是Starts of level ,Last_update_time;


gnaApache两个项目社区现在无法访问。

回复(6)
  • 241?1445561792
    张方 4年前

    wangtao 写到: 重新抽取完成后数据表直接切换到_copy吗?
    师兄,原表的表名加_copy,如:sourceforge_project改为sourceforge_project_copy,原表中数据不动,新抽取的数据存到新数据库表中(表名和原表的表名一致,增加了新抽字段),重新抽完后把数据表切换到新表,这个过程中不会影响ossean的服务。

  • 11?1507961147
    王涛 4年前

    重新抽取完成后数据表直接切换到_copy吗?

  • 241?1445561792
    张方 4年前

    测试结果:每个项目社区中的homepage元素都成功抽取,项目社区中的有些元素还需要进一步处理才能存储到数据库表中,如softpedia中的reviews_num和sourceforge中的lastupdatetime等。

    和湛云沟通后确定的数据更新方案是:项目社区的数据重新抽取一遍,原表的数据保留,表名改为加后缀_copy的命名格式,新抽取的数据存放到新建的表中,数据更新的过程不影响OSSEAN的服务。

  • 241?1445561792
    张方 4年前

    zhanyun 写到: 去重部分会用到各项目社区的homepage字段,麻烦方哥能将这个字段抽取出来,方便新的项目数据尽快流动,感谢!
    好的,项目中只要含有homepage字段都会抽取出来,程序这边已经改好了,接下来会以一种可行的方式部署,尽量减小对ossean服务产生的影响。

  • 11?1507961147
    王涛 4年前

    这些属性与其他已抽属性在抽取上有差别吗,能否明天抽取并更新数据库?

  • 3091?1442652665
    湛云 4年前

    Description updated (diff)

    去重部分会用到各项目社区的homepage字段,麻烦方哥能将这个字段抽取出来,方便新的项目数据尽快流动,感谢!

0?1470885445
登录后可添加回复
  • 当前状态 新增
  • 选定优先级 正常
  • 指派给 张方
  • 里程碑 --
  • 开始日期 11/23/2015
  • 结束日期
  • 预计工时(H) 0.00 hour
  • 完成度 0%
  • 关联Commit
问题和建议
还能输入50个字符 Submit

加入QQ群

关注微信APP


×