项目简介

This project is to build an platform for OSS Evaluating, Analying and Networking. This project uses webmagic framework and many open source data analysis tools for monitoring and mining open source software community data.

11879?1461414358
指派给   曾雅蓉
发布时间: 09/05/2017 11:19
更新时间:09/28/2017 16:34

一、分别对项目数据和帖子数据构建collection:

项目:TestCollection,对应本地配置文件为ConfOsp

帖子:TestMemos,对应本地配置文件为MemosOsp

建索引步骤(以建立项目索引为例)


1.上传配置文件

java -classpath .:/root/solr/solrcloud/solrhome1/server/solr/WEB-INF/lib/* org.apache.solr.cloud.ZkCLI -cmd upconfig -zkhost 127.0.0.1:2181,127.0.0.1:2182,127.0.0.1:2183 -confdir /root/solr/solrcloud/cloud_conf_osp -confname ConfOsp
2.创建collection:


 curl "http://localhost:8080/solr/admin/collections?action=CREATE&name=TestCollection&numShards=3&replicationFactor=1&collection.configName=ConfOsp"


3.查看collection:

curl "http://localhost:8080/solr/admin/collections?action=LIST&wt=json"


4.建立索引



curl "http://localhost:8080/solr/TestCollection/dataimport?command=full-import&clean=false&commit=true"


5.查看索引状态
curl "http://localhost:8080/solr/TestCollection/dataimport?command=status"

6.索引查询示例


curl "http://localhost:8080/solr/TestCollecition/select?q=rails"


二、整合到前端rails中

1.搭建一个java webservice服务,使用solrcloud集群检索关键字,返回检索结果。

2.在rails中调用soup包的wsdlDriver访问该webservice服务,在前端展示返回结果。

回复 ︿ (2)
  • 用户头像
    余跃 2年前

    Due date set to 09/28/2017

  • 用户头像
    曾雅蓉 2年前

    Description updated (diff)

    % Done changed from 0 to 100

0?1470885445
登录后可添加回复
11879?1461414358
指派给   未指派
发布时间: 09/05/2017 11:00
更新时间:09/28/2017 16:34

SolrCloud是基于Solr和Zookeeper的分布式搜索方案。在分布式索引中,原来的大索引,将会分成多个小索引,solr可以将这些小索引返回的结果合并,然后返回给客户端。


SolrCloud优势:


  1. 集中式的配置信息,使用ZK进行集中配置。启动时可以指定把Solr的相关配置文件上传Zookeeper,多机器共用。这些ZK中的配置不会再拿到本地缓存,Solr直接读取ZK中的配置信息。
  2. SolrCloud对索引分片,并对每个分片创建多个Replication。每个Replication都可以对外提供服务。一个Replication挂掉不会影响索引服务。
  3. 近实时搜索:立即推送式的replication(也支持慢推送),可以在秒内检索到新加入索引。
  4. 查询时自动负载均衡:SolrCloud索引的多个Replication可以分布在多台机器上,均衡查询压力,如果查询压力大,可以通过扩展机器,增加Replication来减缓。
  5. 自动分发的索引和索引分片:发送文档到任何节点,SolrCloud都会转发到正确节点。
  6. 事务日志:事务日志确保更新无丢失,即使文档没有索引到磁盘。



搭建流程:

服务器:42(测试版:48)

版本信息:zookeeper3.4.8 + solr 5.2.1 + tomcat7

1.下载solr

2.下载zookeeper,solrcloud的所有配置需要zookeeper统一管理

3.下载tomcat,solr需要搭载在容器中提供服务

具体配置可参考: http://blog.csdn.net/l1028386804/article/details/52090099

4.服务器solrcloud集群现搭载包含三个solr节点,每个节点包含3个分片。

暂时是在服务器搭建伪分布式集群solrcloud集群,后期数据规模扩大后,会扩展到真实的分布式机器上。




回复 ︿ (1)
  • 用户头像
    余跃 2年前

    Due date set to 09/30/2017

0?1470885445
登录后可添加回复
15715?1491492894
指派给   未指派
发布时间: 09/05/2017 10:47
更新时间:09/05/2017 10:47

stackoverflow网站帖子列表页html有所调整,旧抽取规则部分失效,现已替换为新抽取规则,已正常

回复 ︿
0?1470885445
登录后可添加回复
15715?1491492894
指派给   未指派
发布时间: 09/05/2017 10:42
更新时间:09/05/2017 10:43


基于webmagic的ossean爬虫因占用过大,经常出现爬虫进程被挤掉的情况,需要频繁检查服务器上的爬虫进程,此情况尤其以stackoverflow站点爬虫为甚。改用pyspider编写ossean爬虫,测试运行期间未出现中断现象,稳定性较webmagic版的爬虫有了很大提升,现已经将爬虫完全迁移至新版。

新爬虫可以通过消息队列机制实现分布式部署,现投入4台服务器进行数据爬取工作。每一台机器的占用情况:在爬虫组件及爬取站点全开的情况下,总占用约为300M,为旧爬虫占用的二分之一至三分之一(实际上,组件全开并不必要)。新爬虫还可动态地添加或删除服务器节点,管理十分方便。

目前,stackoverflow站点每5分钟进行一次新帖抓取,可以捕捉到该站点的实时更新,其余站点依更新速度的不同,抓取间隔均进行了合适的调整。至此尚未出现稳定性问题。

回复 ︿ (1)
  • 用户头像
    张智雄 2年前

    Tracker changed from 缺陷 to 功能

0?1470885445
登录后可添加回复
11879?1461414358
【功能】 ossean前端相关配置说明 正常
指派给   未指派
发布时间: 07/08/2017 13:32
更新时间:07/20/2017 18:33
( 88.1 KB) 曾雅蓉, 07/08/2017 13:32
( 340 KB) 曾雅蓉, 07/20/2017 18:33
回复 ︿ (1)
  • 用户头像
    曾雅蓉 2年前

    attachment 前端部署.pdf added

0?1470885445
登录后可添加回复
22179?1514084564
【缺陷】 王威周报(4-28) 正常
指派给   未指派
发布时间: 04/28/2017 23:44
更新时间:04/28/2017 23:44

本周主要工作:

1. 编写论文

2. 协助乾坤学长上mysql实训


完成工作:

1. 解决stage 0构建问题

2. 解决trustie与中间层以及pipeline之间传递中文乱码的问题

3. 解决测试用例隐藏的case在错误信息中会被提示给用户的问题

4. 编写论文系统设计和系统实现章节


下周计划:

1. 继续编写论文

2. 回本科学校准备答辩

回复 ︿
0?1470885445
登录后可添加回复
5?1460204756
发帖时间:04/24/2017 08:47
更新时间:04/24/2017 08:47

这应该是史上最详细的论文写作规范!

胡曼辉 / 中南林学院学报编辑部

 

科技论文是以文字材料为表现形式的科研产品,是科研工作者脑力劳动的成果.一篇好的科技论文,不但要有独到的学术见解、科学的分析论证,还应有严谨的论文结构、清晰的段落层次,同时还不能忽视语言的通顺、用词的准确.但有不少的科技作者在写作过程中不太注意后面的这些问题,以致影响了论文的可读性,也就影响了论文投稿的命中率,同时还增加了编辑工作的难度和工作量。笔者以编辑学、语法修辞学为依据,就论文结构、语言表达等方面谈谈写作规范,以期对科技人员的写作有所帮助。

 



1.论文结构写作规范




作为科技期刊发表的论文,其基本要素应包括:题名、作者署名、摘要、关键词、分类号、引言、正文、结论和参考文献。引言、正文、结论、致谢(必要时)、参考文献为主体部分。其前为前置部分。必要时,其后可加附录部分。

 

1.1 题名与层次标题


1.1.1 题名


题名,是能反映论文中特定内容的恰当、简明的词语的逻辑组合。一个好的题名,常会使文章增色添辉,起到多方面的作用,如揭示文章的主要内容,激发读者的阅读兴趣等。因此,在写作时应考虑用言简意赅的20字以内的词语组合为宜.英文题名应与中文题名含义一致,一般不超过10个实词.题名中常见的问题如下:


1)题目大、内容少和题目小、内容多。这主要是没有把握好文题关系.对于前一种,或根据内容重新给题,或根据题目充实内容;对于后一种,应把握好与题目无多大关系的略写或不写。

 

2)随意设置副标题。一般情况下,最好不设副标题,仅在靠正标题无法完全表达想要表达的意思时加设。同时要注意避免副标题大于主标题。

 

3)连用同义、近义词。如“××分析研究”,“××研究探讨”。“分析、研究、探讨”为近义词,题名中保留其一即可。

 

4)拔高文章层次。有的文章只是一般的论述分析,谈不上研究,但作者往往喜欢冠上“研究”二字作为题目,这就很不恰当地拔高了文章的层次,因此“研究”一词应当删去。


1.1.2 层次标题


科技论文层次划分的章条序码统一用阿拉伯数字表示,但不少作者仍在沿用中文数字表示法。


层次划分的章条层次可分为若干级,各级号码之间加一小点,末尾一级不加。层次分级以一般不超过4级为宜。它的正确位置是各级章条顶格书写。层次标题中,最好不用标点符号,实在删不下去的,可采用空格方法断开。

 

1.2 作者署名与摘要

 

1.2.1 作者署名


对于论文作者,除在题名下方署名外,还应在首页地脚处(下方)对文章的主要作者按以下顺序刊出其简介:姓名(出生年- ),性别(民族,汉族可省略),籍贯,职称,学位及主要从事什么研究.便于让读者更详细地了解论文责任人。


1.2.2 摘要


文摘是现代科技论文的必要附加部分,它的详略程度取决于文献内容。文摘写作中,其四要素——目的、方法、结果、结论可根据文摘类型有所侧重。通常中文文摘以不超过400字为宜,纯指示性文摘应控制在200字上下。外文文摘不超过250个实词。文摘中要用第三人称,不要使用“本人”、“作者”、“我们”等作为文摘陈述的主语。这是绝大多数作者要注意的地方。

 

1.3 正文与正文中图和表中英文对照

 

1.3.1 正文


正文是科技论文的核心部分,在引言引出问题后正文中加以分析问题和解决问题。这一部分是作者研究成果的学术性和创造性的集中表现。有的论文思路混乱、结构松散、层次不清,令人把握不准文章主题,这主要是作者没有掌握好正文的论述方式。


正文的论述方式有两种形式:一种是将科学研究的全过程作为一个整体,对有关各方面作综合性论述;另一种是将所研究的全过程按研究内容的实际情况划分为几个阶段,再对各阶段的成果依次进行论述。

 

1.3.2 图和表中英文对照


现代科技刊物中图和表用得较多,它们已成为科技文献中不可缺少的表述手段。由于它们的运用,使所表述的内容的逻辑性、准确性更强。论文作者在撰写时较好地运用了图、表来表述,但不少作者忽略了论文在对外交流时必要的图和表的中、英文对照,这就势必影响外国读者对论文的理解。他们虽然能从英文题名、英文摘要中得到论文的创新内容及定量式定性的信息梗概,但对事物运动过程和事物之间的关系参量变化过程及试验的数据等更多的重要信息仍无法了解,因此,图和表的中、英文并列给出将便于外国读者了解作者得出结论的重要依据,并由此获得感兴趣的信息。


另外要注意,科技表格采用三线表格,必要时可加辅助短线。

 

1.4 结论与参考文献

 

1.4.1 结论


论文的写作目的就是要展示其结论。结论是论文的基本构成成分,因此一篇论文不能不写结论,但又不能是正文标题的重复,还要避免以“结果与讨论”作结尾的论文出现其内容仍属“结果与分析”,因为这样会缺乏真正的讨论内容,也没有结论性的文字。


1.4.2参考文献


参考文献是现代科技论文的重要组成部分,但这一部分也往往被作者忽略,有的尽管列出,却很不规范。几种主要的标准著录格式见下:


  • 专著[序号]主要责任者.文献题名[M].出版地:出版者,出版年.起止页码(任选).

  • 文集中析出的文献[序号]主要责任者.文献题名.原文献主要责任者(任选).原文献题名[M].出版地:出版者,出版年.文献起止页码.

  • 期刊中析出的文献[序号]主要责任者.文献题名[J].刊名,年,卷(期):起止页码.

  • 报纸中析出的文献[序号]主要责任者.文献题名[N].报纸名,年-月-日(版次).

  • 学位论文[序号]主要责任者.文献题名[D].保存地:保存者,年份.

  • 会议论文[序号]主要责任者.文献题名.会议名称,会址,会议年份.

 

特别值得注意的是,所录参考文献必须在文中句后右上角标出,按顺序排列.文后参考文献的序号以与正文中的指示序号格式一致。

 



2.语言表达写作规范



科技论文通常运用严整而很少变化的句式。其完全句多,长句多,各种限制性的附加成份多,用连接词语的复句多。这是因为带有大量附加成分的长句准确、周密,适合于表达丰富而复杂的内容。但科技论文手稿中,有不少作者驾御语言的能力较差,也有一些作者采用口头谈话式写作方式,结果造成句子不是没有主语就是没有宾语,或是语序安排不当、滥用词语,这就严重地影响了论文的表达.以下各举几例说明.

 

2.1  滥用介词而缺主语

 

【例】 关于环境污染的问题,已引起了中国政府的高度重视。

 

句中介词“关于”与后面的“环境污染的问题”这一偏正短语构成了介宾短语,使整个句子没有主语,因此删掉介词“关于”,使后面的“问题”恢复到主语位置,整个句子才表达完整。

 

2.2  语序安排不当

 

①状语位置安排不当


【例】 流沙地、盐碱地大面积造林技术从90年代初就在新疆推广应用.


句子中状语有两个位置:一在句首,一在句中。一般表限制的状语放在句首,如时间、处所、条件、关涉对象等状语.描写性状语放在句中。将上面例中的“从90年代初“提到句首,它的位置就恰当了。


②关联词语位置不当


【例】 近年来,南方不但时有伏旱,而且北京七八月份的降雨量也减少.


这一例句的两个分句的主语不同,因此应将关联词“不但”提至主语“南方”之前。

另外,有的作者在很多句子前用上“由于”,造成了文章的杂乱,这也是要注意避免的。


③句序混乱


【例】 作为覆盖物,野生花生生命力强,有助于保持土壤肥力(固氮),防止土壤流失,以及防止杂草.


这一句子由于语序颠倒,造成了逻辑上的混乱,结果表意不清。应修改为:野生花生生命力强,可作为覆盖作物,既能防止水土流失,又能固氮保持土壤肥力,而且还可以防止杂草丛生。

 

2.3  词语运用欠当

 

“本文”、“本研究”、“本实验”在论文的引言、结语中用得较多,有的用得恰当,有的错误,这在写作中也是值得注意的,见例:

①本文报道了初步研究的结果.(恰当)

②本实验中所获得的表达产物占细胞蛋白含量的8.4%……(恰当)

例1中,“本文”在句中做主语,例2中“本实验”是主语“表达产物”的一个附加成分,这些是符合修辞规则的。


③本研究从试管苗的诱导开始,在提高繁殖系数的基础上,探讨温度和光照时间等因素对试管球基形成的影响.(错误)

句子主干:本研究探讨影响。动作行为的发出者研究人员被“本研究”取代。可改为:本研究旨在从……探讨……影响。


④本文从森林生态功能价值观出发,着重分析了……的经济价值.(错误)

句子主干:本文分析了经济价值.这一句子把“本文”错放在了主语位置上。作为动作行为的发出者应是分析者,也就是“笔者”、“作者”,主语应为“笔者”或“作者”。也可采用“本文中分析了经济价值”这样的省略主语的表达方式。

 

  • “以致”与“以至”也是一些作者把握不好的词语,它们的区别如下:


这两个词都是连词,都有关联作用.其有相通的地方,但用法各不相同。


“以致”是表示事物发展的结果的,有“因此而造成”的意思,一般用在复句里后一个分句的开头,常跟“由于”“因为”搭配,有时也单用.“以至”一般表示时间、程度、范围上的递升或递降,有“直到”的意思,还可兼表程度和结果,可写成“以至于”,一般用在下半句语开头,可以与“以致”替换.

 

  • “的、地、得”这三个结构助词的使用频率极高,使用时错误较多,也是要注意掌握好用法的.


“的”用在主语、宾语(名词、名词性短语)前,是定语的标志;“地”用在谓语前,是状语的标志;“得”用在谓语后,是补语的标志.要注意的是,汉语有词性活用现象,没有把握好就容易出差错.


【例】  他已经向领导详细地报告了这件事.

“报告”,动词作谓语.前用“地”,状语.

【例】  他给领导写了份详细的报告.

“报告”,名词作宾语,前用“的”,定语.

 



3.结束语




总之,一篇规范的科技论文,能给编辑一个初步的好印象,因此,作者在撰写论文时一定要培养自己的良好的写作习惯,同时也要不断提高自身的语法修辞水平,使自己的科研成果能推向社会,推向学术界,从而促进学科的发展。

回复 ︿
0?1470885445
登录后可添加回复
11879?1461414358
【周报】 曾雅蓉周报-2017/4/22 正常
指派给   未指派
发布时间: 04/22/2017 19:05
更新时间:04/22/2017 19:06

1. ossean :本地搭建solrcloud环境,准备前端整合solrcloud索引

2.熟悉tensorflow(高软作业+为实现deep learning算法打基础)

3.自然辩证法考试

回复 ︿ (1)
  • 用户头像
    曾雅蓉 2年前

    Tracker changed from 缺陷 to 周报

    Description updated (diff)

0?1470885445
登录后可添加回复
22179?1514084564
【缺陷】 王威周报(4-22) 正常
指派给   未指派
发布时间: 04/22/2017 11:03
更新时间:04/22/2017 11:03
本周周报:
本周主要任务是实训项目中间层与trustie联调和写毕业论文
截止目前:
1、完成中间层与trustie联调

2、完成论文设计部分

3、跟乾坤学长交接了一下工作

下周计划:

1、继续写论文

2、完善实训内容

3、工作细节交接

回复 ︿
0?1470885445
登录后可添加回复
21069?1479794125
【周报】 李耀宗周报4-22 正常
指派给   未指派
发布时间: 04/22/2017 08:29
更新时间:04/22/2017 08:29

1:本机已初步完成对项目表建立索引,solrj接口进行查询的系统,包括前端展示;

2:熟悉ossean部分关键代码;

3:准备学校中期的三次答辩和相关工作;

下一步:

1:社区帖子关注度的算法仍需要进一步改善,目前正在着手这一块;

2:5月中旬之前必须要完成论文;

回复 ︿
0?1470885445
登录后可添加回复
问题和建议
还能输入50个字符 Submit

加入QQ群

关注微信APP


×