面向开源社区的Web数据自动抽取技术研究与实现 - 确实激发创新

Trustie_r

登录注册

张方/ 面向开源社区的Web数据自动抽取技术研究与实现

【周报】汇报1.09 正常

由张方添加于 2016-01-09 21:41

今天主要研究了应用聚类技术对HTML文件中的信息进行抽取的过程中3个主要算法的算法思想，这三个算法和其作用分别是：Algorithm ParseHTML，用于解析HTML文件并标记文本信息；Algorithm RulExt，用于获取抽取规则--PAT；Algorithm refine，用于优化聚类并输出抽取结果。

Algorithm-ParseHTML.PNG

( 44.076 KB) 张方, 2016-01-09 21:38

Algorithm RulExt.PNG

( 45.204 KB) 张方, 2016-01-09 21:39

Algorithm Refinement.PNG

( 35.58 KB) 张方, 2016-01-09 21:39

Algorithm-parsehtml

Algorithm%20rulext

Algorithm%20refinement

回复（4）▪ 赞

尹刚 10年前

另外，你的实验进展如何？你准备如何做实验？用那些数据做实验？

赞回复︿

尹刚 10年前

这一周没有任何进展吗？为什么不能坚持每天一报？

赞回复︿

张方 10年前

这三个算法是《采用聚类技术从HTML文件自动提取信息》这篇文章中的，读这些算法的目的视为了深入理解文中作者给出的一种HTML文件自动提取信息的方法--clustex,想解决的问题是如何自动化的生成网页中页面元素的抽取规则。

赞回复︿

尹刚 10年前

这些算法的来源是？你读这些算法的目的是？你想解决的问题是？

赞回复︿

登录后可添加回复

当前状态新增
选定优先级正常
指派给张方
里程碑 --
开始日期 2016-01-09
结束日期
预计工时(H) 0.00 小时
完成度 0%
关联Commit 无

Trustie(确实)
QQ群：1071514693

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议

加入QQ群

关注微信APP

提
问

×