241?1445561792

【周报】 汇报1.08 正常


张方添加于 2016-01-08 22:53

   今天重读了文章王涛师兄给的文章《采用聚类技术从HTML文档自动提取信息》在本文中,作者将信息抽取定义为一个从文件中自动化的识别一类预定义的相关项的过程,并提出信息抽取的问题实质上是一个聚类的问题,在对html文件中的数据信息进行抽取时,利用用户提供的特定领域的信息,抽取系统解析并标记html文件中的数据信息, 将它们划分为包含相似元素的不同的数据簇,在这个过程中作者应用了一个多目标的基于遗传算法的聚类方法进行聚类,然后根据其中出现的数据符号类型生成一个抽取规则,这个抽取规则接下来会用来进一步改进聚类,并输出数据抽取的结果。

  文中将这个的方法称为CLUSTEX,它的总体流程分为四个步骤:1.给定要进行信息抽取的HTML文件作为输入,通过页面解析算法,数据会被处理成原始数据簇 2.通过Muti-Objective GA算法这些数据被聚类 3.抽取规则生成,并利用该抽取规则对聚类进行优化 4.输出抽取到的数据.

回复
0?1470885445
登录后可添加回复
  • 当前状态 新增
  • 选定优先级 正常
  • 指派给 张方
  • 里程碑 --
  • 开始日期 2016-01-08
  • 结束日期
  • 预计工时(H) 0.00 小时
  • 完成度 0%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×