生物计算与个性化医疗平台

登录注册

项目简介

21世纪是生物科学的世纪，本平台旨在利用广州超算中心强大的计算能力和完善的技术支持，帮助用户分析和处理生命科学中的海量数据，加快我国生命科学的研究进展。本平台通过软硬件相结合，打造一个集生物信息分析，药物设计和筛选，医学大数据分析和数据挖掘一体化的一站式服务平台，为公众卫生健康、个性化医疗和相关学术研究提供服务和技术支持。建设目标建设国内优秀的、有国际影响力的生物计算与个性化医疗平台，为用户提供专业的数据分析和技术支持，提升我国在生命科学的科研创新能力，为社会大众提供实时高效的健康信息服务。

郭贵鑫 TO 生物计算与个性化医疗平台 | 项目问题

【任务】 Nwchem性能测试正常

指派给李家辉

发布时间： 2015-04-21 17:46

更新时间：2015-04-21 17:46

测试Nwchem软件的性能

回复︿ ▪ 赞

登录后可添加回复

郭贵鑫 TO 生物计算与个性化医疗平台 | 项目讨论区

分子对接

发帖时间：2015-04-21 17:41

更新时间：2015-04-21 17:41

1 分子对接分子对接（molecular docking）是依据配体与受体作用的“锁-钥原理”(lock and key principle)，模拟小分子配体与受体生物大分子相互作用。配体与受体相互作用是分子识别的过程，主要包括静电作用、氢键作用、疏水作用、范德华作用等。通过计算，可以预测两者间的结合模式和亲和力，从而进行药物的虚拟筛选。分子对接首先产生一个填充受体分子表面的口袋或凹槽的球集，然后生成一系列假定的结合位点。依据受体表面的这些结合点与配体分子的距离匹配原则，将配体分子投映到受体分子表面，来计算其结合的模式和亲和力，并对计算结果进行打分，评判配体与受体的结合程度。 2 分子对接的原理 2. 1 分子对接的一般原理分子对接是将已知三维结构数据库中的分子逐一放在靶标分子的活性位点处。通过不断优化受体化合物的位置、构象、分子内部可旋转键的二面角和受体的氨基酸残基侧链和骨架, 寻找受体小分子化合物与靶标大分子作用的最佳构象, 并预测其结合模式、亲和力和通过打分函数挑选出接近天然构象的与受体亲和力最佳的配体的一种理论模拟分子间作用的方法。 2. 2 分子对接的互补性影响复合物分子稳定性的主要因素是疏水作用和键合力大小, Audie 等建立了一种新的经验自由能公式, 该方法能够预测蛋白质2蛋白质键合力大小, 准确率达到89% 。而影响键合力的因素有作用位点空间位的互补、静电相互作用和氢键等, 且溶解熵对稳定受体2配体复合物起着重要的作用 , 所以分子对接的过程主要包括分子间的空间互补和电学性质互补。空间互补是分子间发生相互作用的基础, 能量互补是分子间保持稳定结合的基础。 3 分子对接的种类分子对接的种类主要包括：（1）刚体对接：指在对接过程中，研究体系（受体和配体）的构象不发生变化。适合考察比较大的体系，如蛋白质和蛋白质间以及蛋白质和核酸之间的对接。（2）半柔性对接：指在对接过程中，研究体系尤其是配体的构象允许在一定的范围内变化。适合处理大分子和小分子间的对接，对接过程中，小分子的构象一般是可以变化的，但大分子是刚性的。（3）柔性对接：指在对接过程中，研究体系的构象基本上可以自由变化的。一般用于精确考虑分子间的识别情况。由于计算过程中体系的构象可以变化，所以计算耗费最大。

回复︿ ▪ 赞

登录后可添加回复

李家辉 TO 生物计算与个性化医疗平台 | 项目讨论区

Modeller

发帖时间：2015-04-21 17:28

更新时间：2015-04-21 17:28

官方主页： http://salilab.org/modeller 软件简介： Modeller主要用于蛋白质三维结构的同源性和比较建模。用户需要提供一个序列的比对结果来和已知相关结构进行匹配，Modeller将自动计算出包含所有非氢原子的模型。Modeller实现了满足空间限制的比较蛋白质结构的模型，还可以执行许多额外的任务，包括蛋白质重复结构的建模，基于灵活定义的目标函数来优化蛋白质结构的各种模型，比对多个蛋白质序列或结构，聚类，搜索序列数据库，蛋白质结构的比较分析等。

回复︿（1）▪ 赞

尹刚 10年前

开源的红利真的超出想象啊！

赞

登录后可添加回复

李家辉 TO 生物计算与个性化医疗平台 | 项目讨论区

Tinker

发帖时间：2015-04-21 17:26

更新时间：2015-04-21 17:27

官方主页： http://dasher.wustl.edu/tinker 软件简介： TINKER是一些程序的集合，用于进行分子力学和分子动力学计算，以及一些用于生物聚合物计算的特殊功能。注意新旧版本之间的很多计算并不兼容，因为它们的参数文件并不相同。已知并行规模： 1536 cores Towards quantum-based modeling of enzymatic reaction pathways: Application to the acetylholinesterase catalysis [J]. Chemical Physics Letters, 2013, 556(0): 251-5.

回复︿ ▪ 赞

登录后可添加回复

郭贵鑫 TO 生物计算与个性化医疗平台 | 项目讨论区

药物筛选

发帖时间：2015-04-21 17:24

更新时间：2015-04-21 17:24

药物筛选指的是采用适当的方法，对可能作为药物使用的物质（采样）进行生物活性、药理作用及药用价值的评估过程。药物筛选是现代药物开发流程中检验和获取具有特定生理活性化合物的一个步骤，系指通过规范化的实验手段从大量化合物或者新化合物中选择对某一特定作用靶点具有较高活性的化合物的过程。药物筛选的过程从本质上讲就是对化合物进行药理活性实验的过程，随着药物开发技术的发展，对新化合物的生理活性实验从早期的验证性实验，逐渐转变为筛选性实验，即所谓的药物筛选。作为筛选，需要对不同化合物的生理活性做横向比较，因此药物筛选的实验方案需具有标准化和定量化的特点。随着组合化学和计算化学的发展，人们开始有能力在短时间内大规模合成和分离多种化合物，因而在现代新药开发流程中药物筛选逐渐成为发现先导化合物的主要途径之一。筛选模型就是在药物筛选实验中所应用的药理实验模型，由于药物筛选要求实验方案有标准化和定量化的特征，因而在传统药理实验中常见的动物实验在药物筛选中较少应用，根据实验模型的不同，药物筛选可以分为生化水平的筛选和细胞水平的筛选。生化水平的药物筛选用拟开发药物作用的靶点设计实验，一般而言这种作用靶点是具有特定生理功能的蛋白质，如酶和受体等，此外一些编码功能明确的DNA也越来越多地成为药物作用的靶点。候选化合物与靶点混合后，可以通过酶连免疫、荧光显色、核磁共振等方法定量测定化合物与靶点的相互作用，从而成为筛选化合物的依据。细胞水平的药物筛选是更接近生理条件的一种药物筛选模型，其模型是拟设计药物作用的靶细胞，应用细胞培养技术获取所需细胞，将这些细胞与候选化合物相互作用，通过与生化水平筛选类似的检测技术测定化合物的作用能力，从而对化合物进行筛选。生化水平的药物筛选操作相对简单，成本较低，但是由于药物在体内的作用并不仅仅取决于其与靶酶的作用程度，吸收、分布、代谢、排泄均会对药物的作用产生极大的影响，仅仅一道薄薄的细胞膜就能够阻挡住许多候选化合物成为药物的道路，因而生化水平的药物筛选不确定因素更多，误筛率更高。细胞水平的药物筛选模型更接近生理条件，筛选的准确率更高，但是需要建立细胞模型，操作更复杂，成本更高，数据之间的平行形较差，另外由于技术的限制，有些靶标还不能进行细胞水平的药物筛选。高通量筛选高通量筛选最初是伴随组合化学而产生的一种药物筛选方式。1990年代末，组合化学的出现改变了人类获取新化合物的方式，人们可以通过较少的步骤在短时间内同时合成大量化合物，在这样的背景下高通量筛选的技术应运而生。高通量筛选技术可以在短时间内对大量候选化合物完成筛选，经过发展，已经成为比较成熟的技术，不仅仅应用于对组合化学库的化合物筛选，还更多地应用于对现有化合物库的筛选。世界各大药物生产商都建立有自己的化合物库和高通量筛选机构，对有潜力形成药物的化合物进行篦梳式的筛选。一个高通量药物筛选体系包括微量和半微量的药理实验模型、样品库管理系统、自动化的实验操作系统、高灵敏度检测系统以及数据采集和处理系统，这些系统的运行保证了筛选体系能够并行操作搜索大量候选化合物。高通量筛选技术结合了分子生物学、医学、药学、计算科学以及自动化技术等学科的知识和先进技术，成为当今药物开发的主要方式。完整的高通量筛选体系由于高度的整合和自动化，因而又被称作“药物筛选机器人系统。虚拟药物筛选虚拟药物筛选是药物筛选技术发展的另一个方向，由于实体的药物筛选需要构建大规模的化合物库，提取或培养大量实验必须的靶酶或者靶细胞，并且需要复杂的设备支持，因而进行实体的药物筛选要投入巨额的资金，虚拟药物筛选是将药物筛选的过程在计算机上模拟，对化合物可能的活性作出预测，进而对比较有可能成为药物的化合物进行有针对性的实体体筛选，从而可以极大地减少药物开发成本。根据计算原理，虚拟药物筛选分为基于小分子结构的筛选和基于药物作用机理的筛选两类，前者通过对已知具有相同作用机理的化合物进行定量构效关系研究，绘制出药物的药效团模型，依照模型对化合物数据库进行搜索，这种筛选技术本质上是一种数据库搜索技术；后者主要应用分子对接技术，实施这种筛选需要获知药物作用靶标的分子结构，通过分子模拟手段计算化合物库中的小分子与靶标结合的能力，预测候选化合物的生理活性。建立合理的药效团模型、准确测定或预测靶标蛋白质的分子结构、精确和快速地计算候选化合物与靶标相互作用的自由能变化是进行虚拟药物筛选的关键，也是限制虚拟筛选准确性的瓶颈。虽然虚拟筛选的准确性有待提高，但是其快速廉价的特点使之成为发展最为迅速的药物筛选技术之一。

回复︿ ▪ 赞

登录后可添加回复

郭贵鑫 TO 生物计算与个性化医疗平台 | 项目讨论区

DNA片段组装

发帖时间：2015-04-21 17:21

更新时间：2015-04-21 17:21

DNA分子的序列是通过核酸测序技术得到的。对于完整基因组自上而下的测序过程一般包括三个步骤：（1）建立克隆的物理图谱，如酵母人工染色体YAC（Yeast Artificial Chromosome）克隆、细菌人工染色体BAC（Bacterial Artificial Chromosome）克隆等；（2）测定每个克隆的序列；（3）注释。当得到一段DNA序列之后，可以利用序列分析工具，通过与数据库序列的比较，得到与该序列相关的信息，如基因、调控元件、重复区域等，进而对序列的生物学特性进行注释。人类基因组计划（HGP）采用的就是这种策略。Venter提出的战略构想正好与目前的人类基因组计划相反，即首先是测序，然后才是在测序的基础上作图。Venter把这种战略称为“全基因组随机测序”也称为“全基因组鸟枪战略”(whole genome shotgun strategy)。在大规模DNA测序中，目标DNA分子的长度可达上百万个bp。现在还不能直接测定整个分子的序列，然而，可以得到待测序列的一系列序列片段。序列片段是DNA双螺旋中的一条链的子序列（或子串）。这些序列片段覆盖待测序列，并且序列片段之间也存在着相互覆盖或者重叠。在一般情况下，对于一个特定的片段，我们不知道它是属于正向链还是属于反向链，也不知道该片段相对于起点的位置。另外，这样的序列片段中还可能隐含错误的信息。序列片段的长度范围300~1000 bp，而目标序列的长度范围是30000~1000000 bp，总的片段数目可达上千个。DNA序列片段组装（sequence assembly，又称序列拼接）的任务就是根据这些序列片段，重建目标DNA序列。如果能够得到DNA一条链的序列，那么根据互补原则，另一条链的序列也就得到了。

回复︿ ▪ 赞

登录后可添加回复

郭贵鑫 TO 生物计算与个性化医疗平台 | 项目讨论区

基因序列比对

发帖时间：2015-04-21 17:10

更新时间：2015-04-21 17:10

　　序列比对是生物信息学的基本组成和重要基础。序列比对的基本思想是，基于生物学中序列决定结构，结构决定功能的普遍规律，将核酸序列和蛋白质一级结构上的序列都看成由基本字符组成的字符串，检测序列之间的相似性，发现生物序列中的功能、结构和进化的信息。　　序列比对的理论基础是进化学说，如果两个序列之间具有足够的相似性，就推测二者可能有共同的进化祖先，经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。序列相似和序列同源是不同的概念，序列之间的相似程度是可以量化的参数，而序列是否同源需要有进化事实的验证。在残基－残基比对中，可以明显看到序列中某些氨基酸残基比其它位置上的残基更保守，这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的，例如它们可能是酶的活性位点残基，形成二硫键的半胱氨酸残基，与配体结合部位的残基，与金属离子结合的残基，形成特定结构motif的残基等等。但并不是所有保守的残基都一定是结构功能重要的，可能它们只是由于历史的原因被保留下来，而不是由于进化压力而保留下来。因此，如果两个序列有显著的保守性，要确定二者具有共同的进化历史，进而认为二者有近似的结构和功能还需要更多实验和信息的支持。通过大量实验和序列比对的分析，一般认为蛋白质的结构和功能比序列具有更大的保守性，因此粗略的说，如果序列之间的相似性超过30%，它们就很可能是同源的。　　值得注意的是，在分子生物学中，DNA或蛋白质的相似性是多方面的，可能是核酸或氨基酸序列的相似，可能是结构的相似，也可能是功能的相似。一级结构序列相似的分子在高级结构和功能上并不必然有相似性，反之，序列不相似的分子，可能折叠成相同的空间形状，并具有相同的功能。一般的序列比对主要是针对一级结构序列上的比较。　　生物信息学的研究重点主要体现在基因组学和蛋白质学两方面,具体地说就是从核酸和蛋白质序列出发, 分析序列中表达结构和功能的生物信息。生物信息学的基本任务是对各种生物分析序列进行分析, 也就是研究新的计算机方法, 从大量的序列信息中获取基因结构、功能和进化等知识。而在序列分析中, 将未知序列同已知序列进行相似性比较是一种强有力的研究手段,从序列的片段测定, 拼接, 基因的表达分析, 到RNA和蛋白质的结构功能预测。物种亲缘树的构建都需要进行生物分子序列的相似性比较。生物信息学中的序列比对算法的研究具有非常重要的理论意义和实践意义。

回复︿ ▪ 赞

登录后可添加回复

李家辉 TO 生物计算与个性化医疗平台 | 项目讨论区

VinaLC的安装

发帖时间：2015-04-21 17:01

更新时间：2015-04-21 17:01

1. Quick start 1.1 Install Vina LC Download the tarball of VinaLC. Unzip tar -zxvf VinaLC.tar.gz cd VinaLC In the VinaLC home directory, there is build script named "build". Inside the file you have to set your Boost and MPI path. For example ./makeit --build --boost=/path/to/boost/installation/directory --mpi=/path/to/mpi/installation/directory This will configure the program and subsequently compile the executable. The executable, vinaBMPI, can be found under the apps subdirectory. 1.2 Run VinaLC To run the program with slurm in debug mode: srun -N4 -n4 -c12 -ppdebug ./vinaBMPI --recList recList.txt --ligList ligList.txt --geoList geoList.txt -N4: 4 nodes will use -n4: 4 tasks will each task run on one node -c12: 12 threads will run on each node -ppdebug: use debug mode 1.2.2. Vina program option: ----------------------------------------------------------------------------------------------------- ./vinaBMPI --help Input: --recList arg receptor list file --fleList arg flex part receptor list file --ligList arg ligand list file --geoList arg receptor geometry file --exhaustiveness arg (=8) exhaustiveness (default value 8) of the global search (roughly proportional to time): 1+ --granularity arg (=0.375) the granularity of grids (default value 0.375) --num_modes arg (=9) maximum number (default value 9) of binding modes to generate --seed arg explicit random seed --randomize arg Use different random seeds for complex --energy_range arg (=2) maximum energy difference (default value 2.0) between the best binding mode and the worst one displayed (kcal/mol) --useScoreCF Use score cutoff to save ligand with top score higher than certain critical value --scoreCF arg (=-8) Score cutoff to save ligand with top score higher than certain value (default -8.0) Information (optional): --help display usage summary ----------------------------------------------------------------------------------------------------- 1.3. Run with different options srun -N4 -n4 -c12 ./vinaBMPI --recList recList.txt --ligList ligList.txt --geoList geoList.txt --exhaustiveness 12 srun -N4 -n4 -c12 ./vinaBMPI --recList recList.txt --ligList ligList.txt --geoList geoList.txt --exhaustiveness 12 --granularity 0.333 ... Options, --recList --ligList --geoList are required to be specified.

回复︿ ▪ 赞

登录后可添加回复

郭贵鑫 TO 生物计算与个性化医疗平台 | 项目讨论区

基因调控网络的生物信息学研究

发帖时间：2015-04-21 17:00

更新时间：2015-04-21 17:00

　　20世纪50年代DNA双螺旋结构的发现，揭开了分子生物学的新时代。自此，在分子水平上研究基因和基因表达，促进了生物学的大力发展。不过，在当时的条件下，生物学家主要是解析地研究单个基因及其表达，至多简单地研究几个基因之间的关系。随着基因测序技术的发展，尤其是高密度DNA芯片和蛋白质质谱等技术的应用，可以在短时间内获得生物体基因表达的大量数据。这为研究和揭示大量基因及其产物之间的相互作用关系，特别是基因表达的时-空机制奠定了基础。传统的分子解析研究方法也受到了系统地研究错综复杂的基因网络方法的挑战。特别是很多模式生物的全基因组测序已经或即将完成，甚至一些模式生物的整个基因组的基因表达数据如酵母(yeast)，可通过微阵列技术获得，这为从基因组水平上研究基因网络准备了条件。　　总的来说，一个基因的表达受其他基因的影响，而这个基因又影响其他基因的表达，这种相互影响相互制约的关系构成了复杂的基因表达调控网络。更一般些，几乎所有的细胞活动都被基因网络所控制。对系统科学的研究促使生物学家以系统的观点认识高度复杂的生命现象。生命是存储并加工信息的复杂系统，从而，孤立地研究单个基因及其表达往往不能确切地反映生命现象本身的内在规律。因此，科学家们开始从复杂系统的角度研究基因网络。基因调控网络的研究是后基因组信息学研究的主题之一，运用生物信息学的方法和技术通过数据采集、分析、建模、模拟和推断等手段研究复杂的网络关系,在基因组层次上揭示有关的作用机理也是当前生命科学的前沿。　　基因网络的研究始于20世纪60年代，Rater描述了控制原核生物的分子基因系统组织的特点。另一项研究是Kauffman通过简单的逻辑规则研究基因网络动力学。20世纪90年代实验数据的增加加速了基因网络理论的研究。到目前为止已发展了很多研究基因网络的方法。如随机模型、布尔网络、逻辑方法、门限模型以及基于微分方程的方法等。

回复︿ ▪ 赞

登录后可添加回复

郭贵鑫 TO 生物计算与个性化医疗平台 | 项目讨论区

从二代到四代：基因测序颠覆你对世界的“想象力”

发帖时间：2015-04-21 16:49

更新时间：2015-04-21 16:49

　　如今，基因测序概念在国内已经并不陌生。　　从科研领域的全基因组测序(WGS)到临床应用的无创产前基因检测以及高血压个体化治疗检测，基因的作用和重要性日益凸显，正在不经意间以其巨大的力量改变着人们的生活，使人类对自然和自身的认知进入到了一个新的层面。同时，个体化医疗概念的兴起，激发了人们对基因测序的需求，也使得基因测序商业化、大众化的意愿成为了科研界和临床应用界的共识。　　但显然，第二代基因测序技术已经不能满足人们对基因测序的想象。　　第二代测序技术　　2001年，人类基因组计划(Human Genome Project，HGP)宣告完成。这项由美国、英国、法国、德国、日本和中国六个国家共同参与，历经十年，耗资数十亿美元的人类基因组计划，成为了人类基因研究史上一个重要的里程碑，但也使得出现一种更加先进、更快速的、高通量的测序技术成为了科研人员的统一诉求。　　于是，基于大规模平行测序(massively parallel sequencing)思想的第二代基因测序技术(next-generation sequencing，简称NGS)应运而生。　　第二代测序技术的出现，使得基因研究领域快速发展，测序成本也大大降低。根据资料显示，全基因组测序在2001年时需要耗费一百万美元，而在第二代测序技术的帮助下，2011年已经下降到1万美元。借此浪潮，著名的测序设备生产商Illumina公司也异军突起，股票价格由2001年的15.94美元，上涨到如今的168美元，最高涨幅23.74倍，市值达217亿美元。　　但如今的第二代测序技术也面临着诸多问题，一定程度上阻止了基因测序的大众化趋势。　　首先，第二代测序技术测序平台和测序成本仍然十分高昂，仪器普遍高达40-70万美元，而一个全基因组测序至少需要2000-5000美元，同时花费几周的时间;第二代测序技术依赖于基因样品的扩增过程，大量的洗脱过程即增加了成本和样品制备的时间，也容易出现错误累积;第二代测序技术普遍读长为150-400bp，无法满足更高的科研需要;大量的数据拼接工作和光学读取导致的大体量数据，让分析变成了耗时耗力的工作。　　现在，第二代测序技术已经处于市场发展的中后期阶段，其不足性将在未来更加明显。罗氏公司也已决定于2016年停止其第二代测序平台454的生产。　　那么什么样的技术才能“担当”起人们对基因测序领域的期望? 　　第四代测序技术成为了众多人心目中答案。　　第四代基因测序技术　　第四代测序技术，又称纳米孔测序技术，其原理十分容易理解：分子在通过纳米孔道时，会对通过纳米孔的电流，或横穿过纳米孔的电流(隧穿电流)产生影响，而每种不同的分子通过时，对电流产生的影响具有可区别的差异。于是利用这种差异，纳米孔测序技术就可以识别基因中碱基(对)的排列顺序。　　相比于前面三代测序技术，第四代测序技术是真正实现单分子检测和电子传导检测相结合的测序方法，完全摆脱了洗脱过程、PCR扩增过程。作为最有希望实现1000美元基因组甚至100美元基因组的技术，纳米孔技术具有超高读长、高通量、更少的测序时间和更为简单的数据分析，实现了从低读长到超高读长、从光学检测到电子传导检测的双重跨越。　　一旦第四代测序技术投入市场，将有望在几小时内以几百美元的成本完成全基因组测序。　　也正因此，众多基因测序公司和投资人都把目光聚焦在了第四代测序领域。今年6月，罗氏公司以3.5亿美金价格收购了美国纳米孔测序公司Genia Technologies;同在6月，罗氏公司联合风投共同投资美国纳米孔测序公司Stratos Genomics 1500万美金。罗氏公司还与IBM公司共同研发固态纳米孔技术。而Illumina和Lifetech也在着力发展或投资纳米孔测序技术。　　如今的基因测序领域，充满着未知和期待。就和六七十年代的电脑和互联网一样，没有人能说清楚它什么时候会爆发。但我们可以想象，未来的某一天，借助第四代测序技术的力量，我们可以在几小时内破解自己的基因密码;医生可以根据患者的基因信息来辅助诊断，制定个体化用药方案;我们的健康和生活也将因此发生巨大变化。

回复︿（1）▪ 赞

李家辉 10年前

基因还是很有用的

赞

登录后可添加回复

Trustie(确实)
QQ群：1071514693

项目简介

头像设置