11879?1461414358

【功能】 去重优化问题 正常


曾雅蓉添加于 2017-01-13 22:42

去重优化:

 1.  去重算法特别耗时

a.扫全表问题,查询相同homepage,相同名称及别名。

   解决方案:扫表时加入判断字段,减少查询量。

b. 数据库查询字符串的时候,索引失效问题, 比较耗时。mysql在使用like查询的时候只有不以%开头的时候,才会使用到索引。

c. 实验计量其他耗时模块。

2.  通过项目之间相似度比较的算法还需改进,准确率不高。目前的算法是先比较tag信息,如果没有比较则描述信息。tag比照是直接计算相同tag的数目,描述信息是用TF/IDF算法计算相似度,阈值设定也有问题。后续探索如何综合名称、标签及描述信息来比较。

3.      项目别名的提取模块化。

 

目前的算法是通过别名查找相关软件项目。如果别名越来越精简(只要简称和全称),可能会漏掉一些重复项目,但是计算效率会有很大提高。或者使用相关词(区别于别名)进行相关项目查询,但是会加大计算量,但是覆盖更全面。具体需要进行实验比较,综合算法功能性和时间复杂度多方面考量。将之前算法得到的具有重复关系的数据作为测试集,后续将对程序进行改善。感谢湛大哥@湛云(zhanyun)‍ 的提点,后续会和坤坤@李乾坤(kevinli)‍ 一起改进算法。

 

回复(2)
  • 5?1460204756
    尹刚 8年前

    很好!加油,希望早日看到更好的结果,这是一个核心技术。 

  • 15712?1471931897
    李乾坤 8年前

    撸起袖子加油干!

0?1470885445
登录后可添加回复
  • 当前状态 新增
  • 选定优先级 正常
  • 指派给 --
  • 里程碑 --
  • 开始日期 2017-01-13
  • 结束日期
  • 预计工时(H) 0.00 小时
  • 完成度 0%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×