本课题的研究目标是构建一个面向开源社区的Web数据抽取系统,研究基于Xpath的抽取规则自动生成方法,从而自动生成待抽取页面元素的抽取规则,提高Web数据抽取系统的自动化程度。另一方面,不断对抽取系统的性能进行优化,尽可能的提高对开源社区数据的抽取效率,降低数据抽取过程中的人力成本和时间消耗。最终研究目标是使该Web数据抽取系统具有抽取自动化程度高,抽取准确性强,并能有对不同开源社区站点具有良好的适应性,健壮性,从而能够顺利完成对开源软件领域中众多的协同开发社区和知识共享社区所包含的海量的开源资源数据的精确抽取,为OSSEAN平台的稳定服务和后续基于开源数据的数据挖掘和数据分析提供数据支持。
1.Web数据具体指的是什么,为什么要对Web数据进行抽取?
2.课题研究的是面向开源社区的数据抽取技术,与面向其他领域的数据抽取相比主要区别在哪里,需要对它们加以对比和说明。
3.为什么要实现Web数据的自动化抽取?这里的自动化主要体现在哪里,具体通过什么方法实现?
4.当待抽取的开源站点页面结构发生变化时,该抽取系统能否做到快速的学习并调整抽取规则,抽取规则的学习过程是监督的还是非监督的?
5.该Web数据抽取系统的性能要求之一是抽取准确性强,达到怎样的程度才算实现了这一指标,应该给出一个量化的数据指标进行衡量。
6.研究内容中有对抽取数据的完整性进行验证,这里的数据完整性指的是?自己可以对数据的完整性进行定义,但是一定要解释清楚。
7.研究课题的题目:由《面向开源软件领域的Web信息自动抽取技术研究与实现》改为《面向开源社区的Web数据自动抽取技术研究与实现》。
8.开题报告中的参考文献引用的不是太好,文献普遍偏老,近两年的较少,需要多引用近两年的参考文献,关注该研究领域最新的发展和相关工作。
今天重读了文章王涛师兄给的文章《采用聚类技术从HTML文档自动提取信息》,在本文中,作者将信息抽取定义为一个从文件中自动化的识别一类预定义的相关项的过程,并提出信息抽取的问题实质上是一个聚类的问题,在对html文件中的数据信息进行抽取时,利用用户提供的特定领域的信息,抽取系统解析并标记html文件中的数据信息, 将它们划分为包含相似元素的不同的数据簇,在这个过程中作者应用了一个多目标的基于遗传算法的聚类方法进行聚类,然后根据其中出现的数据符号类型生成一个抽取规则,这个抽取规则接下来会用来进一步改进聚类,并输出数据抽取的结果。
文中将这个的方法称为CLUSTEX,它的总体流程分为四个步骤:1.给定要进行信息抽取的HTML文件作为输入,通过页面解析算法,数据会被处理成原始数据簇 2.通过Muti-Objective GA算法这些数据被聚类 3.抽取规则生成,并利用该抽取规则对聚类进行优化 4.输出抽取到的数据.
按照已经规范化的数据库表来对抽取程序进行改进并进行测试,主要实现两个目的:1.使抽取的页面元素更加全面,增加了之前抽取中遗漏的字段,2.有一些社区的网页结构有更新,使得先前的页面元素抽取规则失效,导致抽取不到内容,现在对抽取规则进行改进,使其适应最新的页面结构。主要更改的有:dao中的字段名,使其与数据库表一致;model中的各变量抽取规则,检测其是否能成功抽取;补齐变量的set和get方法。项目社区的规范改进在之前的已经完成,这次主要是针对知识共享社区,有:
51cto_blog
cnblog_news
codeproject
csdn_question
csdn_bbs
csdn_blogs
dewen_question
lagou
neitui
slashdot
stackoverflow
oschina_question
cnblog_question
遇到的问题:cnblog_question 社区中的view_num 和oschina_question 中的reply_num和view_num等元素为动态加载,抽取不到。