241?1445561792

【周报】 汇报 正常


张方添加于 01/07/2016 23:57

按照已经规范化的数据库表来对抽取程序进行改进并进行测试,主要实现两个目的:1.使抽取的页面元素更加全面,增加了之前抽取中遗漏的字段,2.有一些社区的网页结构有更新,使得先前的页面元素抽取规则失效,导致抽取不到内容,现在对抽取规则进行改进,使其适应最新的页面结构。主要更改的有:dao中的字段名,使其与数据库表一致;model中的各变量抽取规则,检测其是否能成功抽取;补齐变量的setget方法。项目社区的规范改进在之前的已经完成,这次主要是针对知识共享社区,有:

51cto_blog 

cnblog_news

codeproject

csdn_question

csdn_bbs  

csdn_blogs

dewen_question 

lagou

neitui

slashdot

stackoverflow

oschina_question  

cnblog_question

遇到的问题:cnblog_question 社区中的view_num oschina_question 中的reply_numview_num等元素为动态加载,抽取不到。

回复(2)
  • 241?1445561792
    张方 4年前

    老师,我听成周一和周四汇报了,好的!

  • 5?1460204756
    尹刚 4年前

    请把湛云,侯翔,谊昂也加到这个项目里。


    另外,同时开始阅读一下相关论文,结合你的实践工作,准备开题的研究方向和研究内容。

    上次我和你说了,每周两报,周三你没有报吧?


    从现在起,请你每天一报。

0?1470885445
登录后可添加回复
  • 当前状态 新增
  • 选定优先级 正常
  • 指派给 张方
  • 里程碑 --
  • 开始日期 01/07/2016
  • 结束日期
  • 预计工时(H) 0.00 hour
  • 完成度 0%
  • 关联Commit
问题和建议
还能输入50个字符 Submit

加入QQ群

关注微信APP


×