今天重读了文章王涛师兄给的文章《采用聚类技术从HTML文档自动提取信息》,在本文中,作者将信息抽取定义为一个从文件中自动化的识别一类预定义的相关项的过程,并提出信息抽取的问题实质上是一个聚类的问题,在对html文件中的数据信息进行抽取时,利用用户提供的特定领域的信息,抽取系统解析并标记html文件中的数据信息, 将它们划分为包含相似元素的不同的数据簇,在这个过程中作者应用了一个多目标的基于遗传算法的聚类方法进行聚类,然后根据其中出现的数据符号类型生成一个抽取规则,这个抽取规则接下来会用来进一步改进聚类,并输出数据抽取的结果。
文中将这个的方法称为CLUSTEX,它的总体流程分为四个步骤:1.给定要进行信息抽取的HTML文件作为输入,通过页面解析算法,数据会被处理成原始数据簇 2.通过Muti-Objective GA算法这些数据被聚类 3.抽取规则生成,并利用该抽取规则对聚类进行优化 4.输出抽取到的数据.