用云计算读懂“地球”

构建“大数据云服务平台”的关键在于两个层面,一是对中科院积累的海量基础物理数据及其相互关系的建模,二是将对数据使用逻辑实现“服务化”,以支撑各单位实现数据共享和个性化应用孵化。

在科学技术不断发展的今天,人们通过对地观测、地表传感器网络、遥感技术等手段,获取了海量的地球科学数据集,这些数据统称为地球大数据。

2015年,联合国发布了可持续发展目标议程,以期面向2030年解决贫困、不平等和全球变化等的挑战。这议程的众多目标中,地球大数据至少可以为实现其中八个提供不同形式的支持,特别是纯净的水源、低廉的能源、可持续发展的城市、全球变化、水下生命、陆上生命、健康和平等发展目标。

用云计算读懂“地球”

2017年中科院成立了为期五年的“地球大数据科学工程”先导专项,其中大数据云服务平台是“地球大数据科学工程”先导专项的重要建设任务之一,属于综合型基础设施项目。

构建“大数据云服务平台”的关键在于两个层面,一是对中科院积累的海量基础物理数据及其相互关系的建模,二是将对数据使用逻辑实现“服务化”,以支撑各单位实现数据共享和个性化应用孵化。

如何助力“地球大数据科学工程”构建包含资源、环境、生物、生态等多个领域的大数据云服务平台,将海量“地球大数据”掌握在手中并实现云化?双方通过“院企合作”的方式,将中科院的科研成果注入曙光Cloudview云计算操作系统产品中,实现科研成果的工程化。

依托专家力量,将其对海量数据的独特使用逻辑框架化,并形成对底层资源支撑要求的量化,曙光以此作为输入,在原有Cloudview云计算操作系统的基础上,扩充资源调度功能并优化,为地球大数据科学工程提供IaaS层资源支撑及资源管理与调度,通过灵活的调度、简便的运维,让“大”数据轻松一手掌握,推动并实现地球大数据技术创新、重大科学发现和一站式全方位宏观决策支持。

用云计算读懂“地球”

系统总体架构图

建设国际领先的大数据云服务平台,需不断提高对资源层高标准的使用要求,如弹性、高性能的计算资源、海量的数据存储、高并发的数据访问、简便的集群运维管理等。针对“地球大数据科学工程”的大数据云系统建设所形成的曙光云计算Cloudview操作系统的优势主要体现为三个方面。

第一,体现在大规模弹性及异构计算,达到更高的计算能力。

基于数百台计算节点的调度提供计算资源的弹性扩展,满足大气、海洋领域科学应用对计算资源不断变化的需求,不会产生计算资源瓶颈,不同业务系统之间均衡使用,使资源得到充分、合理的使用。利用GPU透传、PCI设备透传能力,CPU独占特性,为业务应用提供资源独占能力,避免资源的争抢、达到更高性能的计算能力,支撑基于Hadoop 大数据系统及Spark等流式数据处理,帮助用户实现一键构建大数据处理环境功能。

第二,支持高并发海量存储、提供更优的数据治理能力。

中科曙光Cloudview 云计算操作系统提供海量的存储管理,提供统一的存储管理与调度。可同时对接几十PB级文件存储系统和对象存储系统,“文件存储系统”主要用于存储来自全国不同科研组织提交的科研数据,提供数据远程汇交的人机接口和功能,同时提供空间配额、访问权限控制、数据隔离等功能。 “对象存储系统”主要用于将汇交的、有价值的科研数据以对象格式存储,便于后期的数据处理和发布共享。数据网络采用10Gb/40Gb网络,10Gb网络用于虚拟机镜像在镜像存储与计算资源池之间的传输, “数据内网”采用40Gb高速网络,用于科研数据在超级计算系统、大数据云系统、数据存储系统之间的相互流转。

第三,体现在简单的运维,实现自动化交付。

整个系统的易用性,体现在上层应用的使用时候的便利性,专家建议对各使用单位的系统使用习惯做认真分类,并提出“强资源编排”的应用模块化构建理念。曙光Cloudview 云计算操作系统提供资源编排服务,可以实现从基础架构到应用的端到端的自动化交付工作。资源编排服务采用完全图形化 UI 操作,用户可以通过简单的图表拖拽进行可视化编排。资源编排实现了资源及其拓扑关系的自动执行,不仅独立资源可按配置实现自动化部署,各资源间的拓扑关系也将自动执行,帮助运维管理人员省去大量机械重复的手动配置操作。

通过与客户紧密合作,中科曙光Cloudview 云计算操作系统为 “地球大数据科学工程”提供了高可靠、高性能、高弹性、易运维的IaaS平台,切实提高了客户在基础架构和应用程序构建效率,为系统正常运行及业务创新保驾护航。让海量复杂的地球大数据,轻松灵活地掌握在手中。

本文来自信息化观察者网,转载请注明出处。