超算资源

银盾.云

大数据

天津超算中心基于“天河一号”超级计算机、“天河”公有云平台和大数据处理平台,为用户提供高性能计 算、云计算、大数据三位一体的计算、存储、分析处理服务。2013年10月国家发改委批准我们中心成立“大数据处理技术与应用国家地方联合工程实验室”。

依托该实验室,中心正在掌握面向大数据的层次式存储系统关键技术,整个存储层次包括三级层次,支持数十PB级海量数据高可靠高效的存储;针对部分应用对内存容量的高要求,扩大部分计算节点的内存容量;构建了联机高速存储和近线海量存储相结合的层次式存储系统,将联机高速存储系统Lustre的存储能力从4PB扩大至6PB,构建完成容量为1PB的海量存储基本系统;完成数据灾备的部分技术攻关和确定了技术方案;在天河系统上部署了可支持大数据并行分析和处理的hadoop应用测试环境;针对异构体系架构,形成MPI+openMP+CUDA异构编程模型;在天河系统上部署Scalaca toolset、TAU性能分析软件,能够快速准确地找到应用程序的瓶颈,有利于提高海量数据分析与处理的速度;针对特定应用开展CPU+GPU的异构体系编程和优化、大规模I/O性能优化;在天河系统上部署ParaView、VTK、IDL等大数据可视化软件。

现在正在开展的大数据主要应用领域包括如下方面:

  • 生物基因大数据
  • 能源开发大数据
  • 智慧城市大数据
  • 与华大基因合作,共同构建华大基因北方基因数据中心,基于PB级海量生物基因数据,通过海量基因分析、群体基因比对等成果,支持农业育种、健康咨询、个性化药物开发等基因工程应用。 目前已为华大基因存储了超过1PB的生物基因数据, 与其联合构建了无创产前基因检测技术数据服务平台,由医院采集孕妇血样,提取相关数据,传送到天津华大基因测序平台完成测序和数据采集,数据提交超算中心基因数据处理应用平台,进行数据的实时处理与分析,最后得出检测报告,通过该平台实现了数据处理和临床应用的无缝对接,更好地为大众健康服务。 实验室与天津华大基因、天津肿瘤医院合作,基于实际临床病例,采集样本,基于大规模基因测序数据的比对、分析,开展癌症领域个性化诊疗研究和临床应用工作。目前,正对开展对临床大样本肺癌患者进行循环肿瘤DNA(ctDNA)突变和免疫组库的检测,通过对肺癌患者治疗过程不同阶段进行采样,建立ctDNA和免疫组库对肺癌患者治疗疗效评价指标,并从中发现肺癌个体化治疗标记。
  • 与中石油东方物探研究院等合作,结合“天河一号”超级计算处理能力,联合开发具有自主知识产权的大规模高精度石油地震勘探数据处理软件,构建油气能源开发领域大连篇、高密度自主勘探数据处理平台,具备处理油气地震勘探复杂地质条件下三维大连片数据(上千乃至上万平方公里)和处理百TB数据规模高密度勘探项目的能力,能够进行单程波叠前深度偏移;3D叠前时间偏移、各向同性和各向异性的3D逆时偏移处理
  • 依托于异构高性能计算实现技术和大数据支撑能力,中心构建了为BIM+GIS天河云平台。BIM整合和管理建筑物本身所有阶段的信息,GIS整合和管理建筑外部环境信息,把建筑领域的BIM信息和建筑周边的GIS信息进行对接,是未来智慧城市的数字基础。BIM+GIS平台以高性能计算能力与强大的存储能力作为主要依托,通过虚拟化方式配置BIM全流程应用软件。与此同时,提供一个大规模存储平台,用以存储各个使用者所需要的模型数据、项目相关数据、构件库资料数据等。用户可以远程在线建模的同时进行协同交流以及数据的上传下载。天河建筑云平台上实施的BIM建筑工程项目包含完整的项目数据与建筑3D模型数据,为未来智慧城市构建提供数据基础。

动画渲染

可提供二维、三维动画影片制作、影视特效渲染、舞台灯光秀、展览展陈、虚拟现实场景展示等服务,为国 家动漫园等文化创意产业服务。

构建天河动漫与影视特效渲染云平台,可以实现上千节点并发渲染的超大规模渲染管理,解决复杂场景渲染 时间长、难以满足应用的问题,实现实时渲染、实时数据传输。

平台先后完成了《生化危机5》、《龙在哪里》、《铁拳》、《赛尔号》、《兔气扬眉》、《神奇赣都》等 多个影片项目渲染;完成央视春节晚会“龙凤呈祥”、“天鹅湖”的舞台和背景灯光秀的渲染;电视剧新版《西游记》、《西口情歌》等等。

现在正在开展的大数据的主要应用领域包括如下方面:

服务天津乃至全国的文化创意产业,实现高品质的三维动漫与影视制作,为我国文化创意产业发展、动漫与影视制作、渲染与云计算技术研发、高水平设计人才培养做出重要贡献。

应用软件中心

随着计算机技术及应用的迅速发展,特别是大规模、超大规模集成电路和微型计算机的出现,使计算机图形学(Computer Graphics,CG)、计算机辅助设计(Computer Aided Design,CAD)与计算机辅助制造(Computer Aided Manufacturing,CAM)等新技术得以十分迅猛的发展。CAD、CAM已经在电子、造船、航空、航天、机械、建筑、汽车等各个领域中得到了广泛的应用,成为最具有生产潜力的工具,展示了光明的前景,取得了巨大的经济效益。

在天河共享分区(/vol6、/vol-th、/work、/THL4)下已安装有常用基础应用软件和科学计算软件。表1和表2以用户账号在/vol6共享分区为例,如果用户账号在其他共享分区如/vol-th下,请将表中/vol6/software修改为/vol-th/software即可。

表1 基础应用软件列表(以/vol6共享分区为例)

表2 科学计算软件列表(以/vol6共享分区为例)

注:

1. 如果用户使用某些商用科学计算软件如VASP/Amber等,需提供版权,且用户需对合法性负责,我中心可协助安装部署。2. 我们会根据用户实际需求不断更新软件资源,关于软件使用方面更为详细的了解,请查阅《天河大系统用户手册》,或与我中心技术支持人员联系。以上全部使用Intel 2013编译器编译生成,其中部分应用软件分为串行版本和并行版本。

  • 1 生物医药

    1、NAMD

    NAMD(NAnoscale Molecular Dynamics)是用于在大规模并行计算机上快速模拟大分子体系的并行分子动力学代码。NAMD用经验力场,如Amber,CHARMM和Dreiding,通过数值求解运动方程计算原子轨迹。

    2、GROMACS

    GROMACS是用于研究生物分子体系的分子动力学程序包。它可以用分子动力学、随机动力学或者路径积分方法模拟溶液或晶体中的任意分子,进行分子能量的最小化,分析构象等。它的模拟程序包包含GROMACS力场(蛋白质、核苷酸、糖等),研究的范围可以包括玻璃和液晶、到聚合物、晶体和生物分子溶液。GROMACS是一个功能强大的分子动力学的模拟软件,其在模拟大量分子系统的牛顿运动方面具有极大的优势。

    3、DESMOND

    DESMOND是由D.E.Shaw Research公司开发的相对较新的分子动力学模拟软件,主要应用于生物体系,如膜蛋白,小分子等。可以使用不同的力场,如CHARMM、AMBER、OPLS等,Desmond对膜蛋白的模拟非常的重视,其自带工具可以很方便的构建膜蛋白模拟体系。

    4、AutoDock

    AutoDock是The Scripps Research Institute的Olson科研小组使用C语言开发的分子对接软件包,目前最新的版本为4.01。AutoDock其实是一个软件包,其中主要包括AutoGrid和AutoDock两个程序。其中AutoGrid主要负责格点中相关能量的计算,而AutoDock则负责构象搜索及评价。

    5、DOCK

    DOCK是UCSF Kuntz小组于1982年开发的分子对接程序,早期的版本以刚性对接为主,从4.0版开始考虑配体的柔性。像这样的半柔性(刚性受体-柔性配体:rigid receptor-flexible ligand docking)对接程序还有AutoDock、FlexX等。

  • 2 商业软件

    中心在计算结构力学分析、计算流体力学分析、前后处理等方面配置了多款商业软件,可以广泛应用在汽车碰撞、工业气体爆炸和钣金模具成型;铁道、建筑、产品疲劳分析、模态振动和压力容器;复杂非线性问题,短暂、瞬时的动态事件;与流体、热传递和化学反应有关的工业仿真;多物理场耦合;流固耦合、汽车、空气动力学;结构、流体分析模型的几何模型建立、网格划分、边界条件设置、仿真结果可视化等领域。

  • 3 计算化学

    1、LAMMPS

    LAMMPS即Large-scale Atomic/Molecular Massively Parallel Simulator,可以翻译为大规模原子分子并行模拟器,主要用于分子动力学相关的一些计算和模拟工作,一般来讲,分子动力学所涉及到的领域,LAMMPS代码也都涉及到了。 LAMMPS由美国Sandia国家实验室开发,以GPL licence发布,即开放源代码且可以免费获取使用,这意味着使用者可以根据自己的需要自行修改源代码。LAMMPS可以支持包括气态,液态或者固态相形态下、各种系综下、百万级的原子分子体系,并提供支持多种势函数。且LAMMPS有良好的并行扩展性。

    2、DL_POLY

    DL_POLY是串行和并行分子动力学模拟软件包。DL_POLY目前有两个版本。DL_POLY_2是原始版本,用复制数据的方法并行化,适用于在100个处理器上模拟三万个原子的情况;DL_POLY_3的并行化使用区域分解,适用于在8至1024个处理器上,模拟百万量级的原子。对于一个DL_POLY许可,同时提供两个版本。DL_POLY还提供基于JAVA语言的图形用户界面。

    3、SIESTA

    SIESTA是一个可以免费索取许可的学术计算软件,用于分子和固体的电子结构计算和分子动力学模拟。SIESTA 使用标准的Kohn-Sham 自恰密度泛函方法,计算使用完全非局域形式(Kleinman-Bylander)的标准守恒赝势。基组是数值原子轨道的线性组合(LCAO)。它允许任意个角动量,多个zeta,极化和截断轨道。计算中把电子波函和密度投影到实空间网格中,以计算Hartree和XC势,及其矩阵元素。除了标准的Rayleigh-Ritz本征态方法以外,程序还允许使用占据轨道的局域化线性组合。使得计算时间和内存随原子数线性标度,因而可以在一般的工作站上模拟几百个原子的体系。

    4、GULP

    GULP最初设计的目的是拟合立场,现在已经逐步发展成为模拟凝聚态物质的通用代码,可以模拟无机固体、团聚体、缺陷、表面、界面以及聚合物等。

    5、PWscf

    PWscf计算软件是意大利理论物理研究中心发布的Quantum-ESPRESSO计算软件包中的两大模块之一。Quantum-ESPRESSO软件包的开发遵守GNU自由软件的协议,是基于密度泛函理论,应用平面波基组和赝势方法的第一性原理计算软件。先前由于计算软件的落后而使得一些有用的方法如线性响应、超软赝势CP分子动力学(MD)方法等,受到了应用上的阻碍,这个软件的发布正是基于这种情况,从而提供了应用这些方法的一个平台。它包括两大模块:PWscf和CPMD。

    6、ABINIT

    ABINIT的主程序使用赝势和平面波,用密度泛函理论计算总能量,电荷密度,分子和周期性固体的电子结构,进行几何优化和分子动力学模拟,用TDDFT(对分子)或GW近似(多体微扰理论)计算激发态。此外还提供了大量的工具程序。程序的基组库包括了元素周期表1-109号所有元素。ABINIT适于固体物理,材料科学,化学和材料工程的研究,包括固体,分子,材料的表面,以及界面,如导体、半导体、绝缘体和金属。

  • 4 计算材料科学

    1、LAMMPS

    LAMMPS即Large-scale Atomic/Molecular Massively Parallel Simulator,可以翻译为大规模原子分子并行模拟器,主要用于分子动力学相关的一些计算和模拟工作,一般来讲,分子动力学所涉及到的领域,LAMMPS代码也都涉及到了。 LAMMPS由美国Sandia国家实验室开发,以GPL licence发布,即开放源代码且可以免费获取使用,这意味着使用者可以根据自己的需要自行修改源代码。LAMMPS可以支持包括气态,液态或者固态相形态下、各种系综下、百万级的原子分子体系,并提供支持多种势函数。且LAMMPS有良好的并行扩展性。

  • 5 气象

    1、GRAPES

    GRAPES是中国气象科学研究院数值预报研究中心自主开发的新一代静力/非静力多尺度通用数值预报模式。该模式采用标准化、模块化软件体系结构,并严格按照软件工程要求完成系统开发,包括程序的并行计算。初步试算结果表明:GRAPES模式软件框架的设计和实现符合模式发展的要求,为中国数值天气预报系统的可持续发展奠定了良好的基础。

    2、WRF

    由美国环境预测中心(NCEP),美国国家大气研究中心(NCAR)等美国的科研机构为中心开始着手于2000年开发出的一种气象模式。WRF模式为完全可压缩以及非静力模式,采用F90 语言编写。水平方向采用Arakawa C(荒川C)网格点,垂直方向则采用地形跟随质量坐标。WRF 模式在时间积分方面采用三阶或者四阶的Runge-Kutta 算法。WRF模式不仅可以用于真实天气的个案模拟,也可以用其包含的模块组作为基本物理过程探讨的理论根据。

    3、MM5

    第五代中尺度模式是近年由美国大气研究中心(NCAR)和美国滨州大学(PSU)在mm4基础上联合研制发展起来的中尺度数值预报模式,已被广泛应用于各种中尺度现象的研究。MM5在以往模式基础上作了许多变化,主要有以下几点:1)复合区域嵌套功能,2)菲静力部分扩展,3)四位数据同化功能以及较多的物理过程参数化,能够方便、广泛地应用于各种计算平台。在我国已建成的有限区域数值天气预报业务系统中,北京气象局和天津气象局等均采用该模式作为业务模式。MM5是基于天气运动变化的非线性变化偏微分方程组,处理大密度的数据、进行复杂的运算。

  • 6 GPU软件

    1、NAMD 2.8 CUDA天河编译环境

    NAMD在天河上的编译环境是:

    Intel Compiler 11.1

    CUDA 4.0

    Tianhe MPI

    2、NAMD 2.8 CUDA使用指南

    NAMD 2.8 CUDA的可执行文件位于/vol-th/home/gpu-app/bin/namd2。用户使用可以与国家超级计 算天津中心的菅晓东联系(jianxd@nscc-tj.gov.cn)具体使用方法。

    例子1:NAMD的stmv问题定义详见NAMD网站:

    http://www.ks.uiuc.edu/Research/STMV/#stmv

    此问题的输入文件位于/vol-th/home/gpu-app/stmv/stmv.namd

    使用GPU在天河上求解stmv的步骤为:

    [gpu-app@ln1%tianhe stmv]$ cd /vol-th/home/gpu-app/stmv/

    [gpu-app@ln1%tianhe stmv]$ yhrun -N x -n y -p gpu_test namd2 +idlepoll stmv.namd

    其中x为使用的节点个数,y我们推荐为等于6*x(详见3.1节)。

    对用户自己的问题,可以直接参照stmv问题的输入文件及GPU使用方法。

    3、NAMD GPU性能分析

    本节的性能分析都使用stmv问题。程序运行于天河的gpu_test分区上。节点硬件配置为:

    2 x Intel Xeon X5670 CPU (6-core), 2.93GHz

    24GB memory

    1 x Nvidia Tesla M2050

    3.1 GPU加速

    表1是每节点不同进程数以及使用不同节点数的NAMD性能(days/ns)比较。图1以图形的方式展示了这些数据。

    表1:

    图1: CPU及GPU NAMD的性能(day/ns)

    从图1可以看出,为了在天河上达到性能最优,最佳的方案是使用GPU,并且每个节点开6个进程。这也是为什么在第2节我们推荐了y=6*x这个公式。(6个进程是我们经过试验得到的最佳值,每个节点充分使用了一个CPU和一个GPU,另一个空闲的CPU可供其他程序使用。CPU如果开更多的进程,CPU的利用率可以提高,但MPI的通信将增多,结果反而降低了总性能。)

    表2是每节点不同进程数以及使用不同节点数的NAMD性能(ns/day)比较。图2以图形的方式展示了这些数据。

    表2:

    图2: CPU及GPU NAMD的性能(ns/day)

    从图2可以看出,GPU的整体性能比CPU要好,并且随着GPU节点数的增加,NAMD的性能线性增长,12个GPU节点的性能,相当于24个CPU节点的性能,GPU相对于CPU有较大的性能优势。

    表3是每GPU节点与CPU节点的NAMD性能比较,相对于单个CPU节点的加速比。图3以图形的方式展示了这些数据

    3.2 天河GPU vs CPU 性能比较

    表3与图3展示了天河上相同的GPU节点数与相同的CPU节点数的加速比数据。从图中我们可以看出GPU版本的性能显著高于CPU版本。

    表3:

    图3: 相同节点数的CPU及GPU NAMD的加速比

中心介绍

国家超级计算天津中心(NSCC-TJ)是国家科技部2009年5月正式批准建设,由天津市滨海新区和国防科学技术大学共同建设,以国家高技术研究发展计划(863计划)信息技术领域“高效能计算机及网格服务环境”重大项目“千万亿次高效能计算机系统”研制成果为基础构建的国家级超级计算中心。天津中心的建设目标为:为天津、环渤海湾,乃至全国范围的企业和科研院所提供高性能计算服务;以提高国家科技创新能力和促进产业技术创新;构建天津滨海新区高端信息产业基地。

天津中心设有理事会(由滨海新区、天津市经济技术开发区和国防科技大学的相关领导组成)和专家委员会,设有如下职能部门:系统管理部、运维部、应用研发部、人事部和财务部等。

天津中心的主业务计算机是当前世界上运算速度最快之一的“天河一号”超级计算机,是由科技部863计划重大项目“千万亿次高效能计算机系统”支持,由国防科技大学与滨海新区于2010年9月联合研制成功。

除了“天河一号”超级计算机外,天津中心还装备有三台高性能计算机系统,具体包括:计算性能达到百万亿次的天河•天腾(TH-1)系统;包含128个Intel-EX5675 CPU的天河•天翔系统;包含96个CPU的天河•天驰系统;四套计算机系统面向不同的应用领域,将提供高质量的高性能计算和云服务。

从2009年12月开始,天津中心已为200余家津京地区和全国的重点用户提供了高质量的高性能计算服务,对提高科研院所创新能力和促进企业的产业技术创新与产品竞争力发挥了很好的作用,取得了一批具有国际先进水平的应用成果。

天津中心的高性能计算的主要应用领域包括:石油勘探数据处理、生物医药、新材料新能源、高端装备设计与仿真、动漫与影视渲染、空气动力学、流体力学、天气预报、气候预测、海洋环境模拟分析、航天航空遥感数据处理,等等。

天津中心将竭诚为全国各领域的高性能计算用户提供高质量的高性能计算服务。

国家超级计算天津中心是一个向全世界开放的超级计算中心,我们也将为全世界的高性能计算用户提供高质量的高性能计算服务。