面向开源社区的Web数据自动抽取技术研究与实现

登录注册

【周报】汇报1.22 正常

由张方添加于 2016-01-22 23:29

今天向大家报告了《基于Xpath模式学习的抽取规则的自动生成》和《基于自动生成模板的网页信息抽取技术》，第一篇提出了Xpath模式的概念，其生成的规则并不是待抽取页面元素的抽取路径，而是Xpath模式之间的映射规则，与预想了解的抽取规则生成方法存在一定偏差;第二篇中重点介绍了xpath的特性，以及如何对不同网站构建不同的抽取模板的方法，但是却没有体现到题目中的“自动”。根据和余跃师兄以及其他同学的讨论，抽取工作接下来要聚焦的问题是:1.如何实现页面元素定位规则的自动生成 2.当网站因升级或改版导致页面结构发生变化时如何对自动检测并调整抽取模板 3.对抽取到的数据进行处理并验证存储格式正确性。接下来的工作，一方面是继续维护好当前抽取程序，为OSSEAN平台的服务稳定性提供保障，另一方面还是要继续阅读相关论文，找问题解决思路，并开展实验。

回复（1）▪ 赞（1）

尹刚 10年前

很好！请进一步描述：

1、页面元素定位规则自动生成面临的挑战是什么？相关工作如何？我们的基础如何？

2、抽取模板的自动检测是更靠谱的方法，其挑战是什么？相关工作如何？我们的基础如何？

3、数据验证最重要，其挑战是什么？相关工作如何，我们的基础如何？

对于问题1，我认为完全生成定位规则可能不太靠谱，但是自动给出一个大概的规则推荐，是可能的。

请聚焦问题，把问题的细节搞清楚，同时带着问题阅读论文。

赞回复︿

登录后可添加回复

当前状态新增
选定优先级正常
指派给张方
里程碑 --
开始日期 2016-01-22
结束日期
预计工时(H) 0.00 小时
完成度 0%
关联Commit 无

Trustie(确实)
QQ群：1071514693

头像设置