项目简介

本课题的研究目标是构建一个面向开源社区的Web数据抽取系统,研究基于Xpath的抽取规则自动生成方法,从而自动生成待抽取页面元素的抽取规则,提高Web数据抽取系统的自动化程度。另一方面,不断对抽取系统的性能进行优化,尽可能的提高对开源社区数据的抽取效率,降低数据抽取过程中的人力成本和时间消耗。最终研究目标是使该Web数据抽取系统具有抽取自动化程度高,抽取准确性强,并能有对不同开源社区站点具有良好的适应性,健壮性,从而能够顺利完成对开源软件领域中众多的协同开发社区和知识共享社区所包含的海量的开源资源数据的精确抽取,为OSSEAN平台的稳定服务和后续基于开源数据的数据挖掘和数据分析提供数据支持。

241?1445561792
指派给   张方
发布时间: 03/31/2016 10:32
更新时间:03/31/2016 10:32

1.Web数据具体指的是什么,为什么要对Web数据进行抽取?

2.课题研究的是面向开源社区的数据抽取技术,与面向其他领域的数据抽取相比主要区别在哪里,需要对它们加以对比和说明。

3.为什么要实现Web数据的自动化抽取?这里的自动化主要体现在哪里,具体通过什么方法实现?

4.当待抽取的开源站点页面结构发生变化时,该抽取系统能否做到快速的学习并调整抽取规则,抽取规则的学习过程是监督的还是非监督的?

5.该Web数据抽取系统的性能要求之一是抽取准确性强,达到怎样的程度才算实现了这一指标,应该给出一个量化的数据指标进行衡量。

6.研究内容中有对抽取数据的完整性进行验证,这里的数据完整性指的是?自己可以对数据的完整性进行定义,但是一定要解释清楚。

7.研究课题的题目:《面向开源软件领域的Web信息自动抽取技术研究与实现》改为《面向开源社区的Web数据自动抽取技术研究与实现》。

8.开题报告中的参考文献引用的不是太好,文献普遍偏老,近两年的较少,需要多引用近两年的参考文献,关注该研究领域最新的发展和相关工作。

回复 ︿
0?1470885445
登录后可添加回复
241?1445561792
【周报】 汇报1.22 正常
指派给   张方
发布时间: 01/22/2016 23:29
更新时间:01/23/2016 06:47
    今天向大家报告了《基于Xpath模式学习的抽取规则的自动生成》和《基于自动生成模板的网页信息抽取技术》,第一篇提出了Xpath模式的概念,其生成的规则并不是待抽取页面元素的抽取路径,而是Xpath模式之间的映射规则,与预想了解的抽取规则生成方法存在一定偏差;第二篇中重点介绍了xpath的特性,以及如何对不同网站构建不同的抽取模板的方法,但是却没有体现到题目中的“自动”。根据和余跃师兄以及其他同学的讨论,抽取工作接下来要聚焦的问题是:1.如何实现页面元素定位规则的自动生成 2.当网站因升级或改版导致页面结构发生变化时如何对自动检测并调整抽取模板 3.对抽取到的数据进行处理并验证存储格式正确性。接下来的工作,一方面是继续维护好当前抽取程序,为OSSEAN平台的服务稳定性提供保障,另一方面还是要继续阅读相关论文,找问题解决思路,并开展实验。
回复 ︿ (1)
  • 用户头像
    尹刚 3年前

    很好!请进一步描述:

    1、页面元素定位规则自动生成面临的挑战是什么?相关工作如何?我们的基础如何?

    2、抽取模板的自动检测是更靠谱的方法,其挑战是什么?相关工作如何?我们的基础如何?

    3、数据验证最重要,其挑战是什么?相关工作如何,我们的基础如何?

    对于问题1,我认为完全生成定位规则可能不太靠谱,但是自动给出一个大概的规则推荐,是可能的。

    请聚焦问题,把问题的细节搞清楚,同时带着问题阅读论文。

0?1470885445
登录后可添加回复
241?1445561792
【周报】 汇报 1.20 正常
指派给   张方
发布时间: 01/20/2016 23:27
更新时间:01/20/2016 23:48
    在读王涛师兄给的论文时发现文章中描述的问题与我们的实际工作相关度并不是很高,于是自己也搜索了Web数据自动化抽取方面的文章,找到了几篇与我们工作紧密相关,与当前数据抽取过程中遇到的问题十分契合的论文,重点阅读了《基于自动生成模板的Web信息抽取技术》和《Automatic Extraction Rules Generation Based on XPath Pattern Learning》这两篇(附件),准备在周五报告。在读论文的过程中体会到文章一定要有针对性的看,这些文章的内容一定要紧密贴合实际工作中想要解决的问题,这样才不会浪费时间,这一点王涛师兄之前也多次强调。
回复 ︿ (1)
  • 用户头像
    尹刚 3年前

    很好!尽快理顺思路,形成问题,开展实验。寒假期间要完成开题报告的初稿的撰写。

0?1470885445
登录后可添加回复
241?1445561792
【周报】 汇报1.09 正常
指派给   张方
发布时间: 01/09/2016 21:41
更新时间:01/16/2016 10:23
     今天主要研究了应用聚类技术对HTML文件中的信息进行抽取的过程中3个主要算法的算法思想,这三个算法和其作用分别是:Algorithm ParseHTML,用于解析HTML文件并标记文本信息;Algorithm RulExt,用于获取抽取规则--PAT;Algorithm refine,用于优化聚类并输出抽取结果。
( 44.1 KB) 张方, 01/09/2016 21:38
( 45.2 KB) 张方, 01/09/2016 21:39
( 35.6 KB) 张方, 01/09/2016 21:39
回复 ︿ (4)
  • 用户头像
    尹刚 3年前

    另外,你的实验进展如何?你准备如何做实验?用那些数据做实验?

  • 用户头像
    尹刚 3年前

    这一周没有任何进展吗?为什么不能坚持每天一报?

  • 用户头像
    张方 3年前

       这三个算法是《采用聚类技术从HTML文件自动提取信息》这篇文章中的,读这些算法的目的视为了深入理解文中作者给出的一种HTML文件自动提取信息的方法--clustex,想解决的问题是如何自动化的生成网页中页面元素的抽取规则。

0?1470885445
登录后可添加回复
241?1445561792
【周报】 汇报1.08 正常
指派给   张方
发布时间: 01/08/2016 22:53
更新时间:01/08/2016 22:53

   今天重读了文章王涛师兄给的文章《采用聚类技术从HTML文档自动提取信息》在本文中,作者将信息抽取定义为一个从文件中自动化的识别一类预定义的相关项的过程,并提出信息抽取的问题实质上是一个聚类的问题,在对html文件中的数据信息进行抽取时,利用用户提供的特定领域的信息,抽取系统解析并标记html文件中的数据信息, 将它们划分为包含相似元素的不同的数据簇,在这个过程中作者应用了一个多目标的基于遗传算法的聚类方法进行聚类,然后根据其中出现的数据符号类型生成一个抽取规则,这个抽取规则接下来会用来进一步改进聚类,并输出数据抽取的结果。

  文中将这个的方法称为CLUSTEX,它的总体流程分为四个步骤:1.给定要进行信息抽取的HTML文件作为输入,通过页面解析算法,数据会被处理成原始数据簇 2.通过Muti-Objective GA算法这些数据被聚类 3.抽取规则生成,并利用该抽取规则对聚类进行优化 4.输出抽取到的数据.

回复 ︿
0?1470885445
登录后可添加回复
241?1445561792
【周报】 汇报 正常
指派给   张方
发布时间: 01/07/2016 23:57
更新时间:01/08/2016 08:43

按照已经规范化的数据库表来对抽取程序进行改进并进行测试,主要实现两个目的:1.使抽取的页面元素更加全面,增加了之前抽取中遗漏的字段,2.有一些社区的网页结构有更新,使得先前的页面元素抽取规则失效,导致抽取不到内容,现在对抽取规则进行改进,使其适应最新的页面结构。主要更改的有:dao中的字段名,使其与数据库表一致;model中的各变量抽取规则,检测其是否能成功抽取;补齐变量的setget方法。项目社区的规范改进在之前的已经完成,这次主要是针对知识共享社区,有:

51cto_blog 

cnblog_news

codeproject

csdn_question

csdn_bbs  

csdn_blogs

dewen_question 

lagou

neitui

slashdot

stackoverflow

oschina_question  

cnblog_question

遇到的问题:cnblog_question 社区中的view_num oschina_question 中的reply_numview_num等元素为动态加载,抽取不到。

回复 ︿ (2)
  • 用户头像
    张方 3年前

    老师,我听成周一和周四汇报了,好的!

  • 用户头像
    尹刚 3年前

    请把湛云,侯翔,谊昂也加到这个项目里。


    另外,同时开始阅读一下相关论文,结合你的实践工作,准备开题的研究方向和研究内容。

    上次我和你说了,每周两报,周三你没有报吧?


    从现在起,请你每天一报。

0?1470885445
登录后可添加回复
问题和建议
还能输入50个字符 Submit

加入QQ群

关注微信APP


×