241?1445561792

【周报】 汇报1.09 正常


张方添加于 01/09/2016 21:41
     今天主要研究了应用聚类技术对HTML文件中的信息进行抽取的过程中3个主要算法的算法思想,这三个算法和其作用分别是:Algorithm ParseHTML,用于解析HTML文件并标记文本信息;Algorithm RulExt,用于获取抽取规则--PAT;Algorithm refine,用于优化聚类并输出抽取结果。
回复(4)
  • 5?1460204756
    尹刚 4年前

    另外,你的实验进展如何?你准备如何做实验?用那些数据做实验?

  • 5?1460204756
    尹刚 4年前

    这一周没有任何进展吗?为什么不能坚持每天一报?

  • 241?1445561792
    张方 4年前

       这三个算法是《采用聚类技术从HTML文件自动提取信息》这篇文章中的,读这些算法的目的视为了深入理解文中作者给出的一种HTML文件自动提取信息的方法--clustex,想解决的问题是如何自动化的生成网页中页面元素的抽取规则。

  • 5?1460204756
    尹刚 4年前

    这些算法的来源是?你读这些算法的目的是?你想解决的问题是?

0?1470885445
登录后可添加回复
  • 当前状态 新增
  • 选定优先级 正常
  • 指派给 张方
  • 里程碑 --
  • 开始日期 01/09/2016
  • 结束日期
  • 预计工时(H) 0.00 hour
  • 完成度 0%
  • 关联Commit
问题和建议
还能输入50个字符 Submit

加入QQ群

关注微信APP


×