241?1445561792

【缺陷】 提高OpenHub社区的抽取成功率 立刻


张方添加于 2015-08-19 10:08

在之前的统计中,Openhub社区中总的项目数量是660755,但是抽取成功的数量仅为261923,抽取成功率只有40%,需要找到问题所在,大幅提高本网站的抽取成功率。

回复(6)
  • 11?1648889181
    王涛 8年前

    尽快确定原因,分析属性位置发生变动的那些页面的页面结构是否一致,如果一致可尽快完成抽取。今晚前请给我明确结果

  • 11?1648889181
    王涛 8年前

    张方:对openhub社区的抽取结果进行分析,发现有部分项目的属性没有完全抽取,出现这种问题的原因主要是:1.该项目的这些属性信息缺失,从而不能抽取到,这属于正常情况;2.项目的创建时间不同,时间跨度比较大,有一些项目的页面布局和其他项目不一致,对其进行抽取时某些页面元素定位失败,导致抽不到内容。接下来会统计出项目信息不能完整抽取的项目个数,对不能抽取的数据项逐个进行分析,设法改进现有的抽取模板,或者针对这些抽取不完整的项目再重新写一个新的抽取模板进行二次抽取

  • 11?1648889181
    王涛 8年前

    好的,修改完成测试后,在推送前给我和侯翔讲清楚问题在哪里,如何修改的,我们确认后在推送

  • 241?1445561792
    张方 8年前

    > wangtao 写到: > 你前两天的实验不是已经取消了对这两个元素不能为空的限制吗,为什么还有那么多抽取失败的? 取消了对这两个元素不能为空的限制之后发现抽取的成功率仍然没有上去,进一步分析发现对抽取到的licenses数据元素处理存在问题,注释掉对licenses数据元素处理到代码,利用error表中的html页面作为测试数据,发现之前抽取失败的页面都可以抽取成功,证明问题是出在这里。接下来要重新改写数据处理相关代码,抽取率会上去

  • 11?1648889181
    王涛 8年前

    你前两天的实验不是已经取消了对这两个元素不能为空的限制吗,为什么还有那么多抽取失败的?

  • 241?1445561792
    张方 8年前

    根据之前对抽取失败页面结构的分析,description和license 为空的页面都不能抽取成功,是由于将这两个数据元素作为必须不能为空的项,如果为空,则验证时将该页面作为错误页面存放到OpenHub_error_page表中,所以首先解除对这两个数据元素不能为空的限制条件。

0?1470885445
登录后可添加回复
  • 当前状态 正在解决
  • 选定优先级 立刻
  • 指派给 张方
  • 里程碑 --
  • 开始日期 2015-08-19
  • 结束日期 2015-08-19
  • 预计工时(H) 0.00 小时
  • 完成度 40%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×