您当前的位置 : 首页 > 头条

深度关注丨数字中国“高速路”

2024-04-21 09:47 来源: 中央纪委国家监委网站

国家超算互联网平台正式上线

数字中国“高速路”

中央纪委国家监委网站 李云舒

  近日,国家超算互联网平台正式上线。当前,已有超过170家应用、数据、模型等服务商入驻国家超算互联网,提供3200余款商品,覆盖科学计算、工业仿真、AI模型训练等前沿数字化创新领域。

  2023年4月17日,科技部在天津启动部署国家超算互联网,提出到2025年底形成技术先进、模式创新、服务优质、生态完善的总体布局。建立国家超算互联网有何意义?它将如何加快形成新质生产力,为数字中国建设、数字经济发展提供支撑?记者采访了国家超级计算济南中心主任王英龙、清华大学高性能计算研究所副研究员黄震春。

  发展超算对国家安全、经济发展和社会建设有着重要的支撑和保障作用

  记者:什么是超算互联网?

  黄震春:超算互联网是一种以超级计算机和高速互联网为基础的国家级高性能计算基础设施。它以高速网络互联地理上分布的超算中心,聚合各超算中心的软硬件资源,建设超算资源共享与交易平台,支持算力、数据、软件、应用等资源的共享与交易。

  作为一种先进计算基础设施,超算互联网将超级计算机所提供的强大计算能力抽象为更加本质的计算服务,并以一种标准化的形式提供给计算服务的使用者。简单地讲,我们可以将超算互联网与电力网相类比。电力网制定发电、传输、用电的标准规范,构建基本的电力传输和交易平台,将来自火电、水电、风电、核电、光伏等不同来源的电力整合到一起,为工业、农业、居民、科研等各种电力用户提供即用即得的电力服务。

  与电力网类似,超算互联网通过制定资源接入、共享、交易等规范,构建具备资源共享与交易能力的资源平台,将来自各级超算中心、算力服务商、科研机构、相关企业等不同来源的算力、数据、软件、应用等抽象为统一的超算资源并整合到一起,连接超算资源提供者与超算用户,为科研、生产、生活和国家安全等提供高效专业易用的超算服务。

  记者:发展超算的意义是什么?当前我国超算发展水平如何?

  王英龙:随着数字化进程的持续加速,人工智能、数字孪生等技术迅速发展,培育壮大新质生产力,成为破解数字经济高质量发展难题的一把“关键钥匙”。高性能超级计算机的研发,已成为世界发达国家抢占战略要地的重要“制高点”。发展超算对攻克“卡脖子”问题,服务高新技术产业发展,服务国家战略发展需要有着不可替代的作用,对国家安全、经济发展和社会建设有着重要的支撑和保障作用。

  多年来,在政策支持下,我国超算产业坚持“机器、应用、环境”三位一体协调发展策略,在机器研制、关键应用、服务环境等方面已处于世界前列。目前,全国范围内已经建成多个国家超级计算中心,“神威”“天河”“曙光”系列超级计算机多次占据全球超级计算机性能TOP500领先位置。以济南超算为例,核心设施“山河”超级计算平台,目前高性能计算能力达60PFlops(每秒6亿亿次浮点运算),人工智能计算能力达到1000Pops,存储容量245PB,整体性能居世界先进水平。在2022与2023年度国际超算大会上,“山河”超级计算平台连续两年登顶世界IO500榜单,并将IO500世界纪录提高15倍以上,已持续服务天气预报与气候预测、海洋环境模拟分析、信息安全、电磁仿真、工程计算、金融大数据分析、新材料和新能源分析等领域的众多用户。

  人工智能等技术快速发展,全社会对算力提出更高要求,构建超算互联网势在必行

  记者:为什么要构建国家超算互联网?

  黄震春:新世纪以来,超级计算机和高速互联网不断发展,为面向应用领域的高性能计算环境制造了新的机遇和挑战,高性能应用平台的研究与建设也越来越受到关注。从上世纪末开始,我国开展了一系列研究。基于网格计算技术,我国建设了中国国家网格(CNGrid)、中国教育科研网格(ChinaGrid)等多个高性能计算环境,在一定程度上实现了包括算力资源、数据资源、存储资源等在内的高性能计算资源共享,支持了先进制造、地质、空间信息、林业、气象等多个领域的高性能计算应用。其后构建的国家高性能计算环境则更进一步,在网络带宽有限的条件下初步实现超算资源和应用的有效聚合,支持了生物医药、工业产品设计、数字媒体和文化创意等多个领域的专业应用。近年来,在国家重点研发计划等支持下,国家超算无锡中心和清华大学联合国家超算广州中心、中科院计算机网络信息中心等国家级超算中心和超算应用单位,共同研究和建设了超算互联网原型——国家高性能计算环境领域应用平台。该平台以100Gbps网络实现各超算中心的高速互联,汇聚超过3.6EFlops(每秒360亿亿次数学计算)的计算能力,通过自主研发的软件系统实现超算资源的接入、共享和交易,面向数个重点应用领域为遍布全国的国家实验室等大型研究机构提供以数值模拟为主、兼顾数据分析和智能计算的科研基础设施服务。

  虽然我国超级计算机建设已取得巨大成就,但随着E级超算的建设以及超算应用的不断复杂化,我国超算运行也面临一些新的挑战,主要表现在四个方面:

  首先,超级计算机之间,以及超级计算机及其用户之间的互联互通不够顺畅,现有超算间互联网络带宽不能满足超算资源共享、海量数据传输的需求;

  其次,超算应用日趋复杂,有些应用场景涉及多过程、多尺度的复杂耦合,以及融合数据驱动的新模式,算法创新需求紧迫;

  第三,由于自主可控的超级计算机研制要求和历史原因,国内主要超算研制团队采用不同的自主架构并不断发展,形成不同架构不同系列的超级计算机系统,超算上的各种并行应用软件需要对不同架构的超级计算机系统进行适配;

  最后,超算使用相对困难,应用门槛高,用户普遍希望超算提供者能够提供高效、简单、易用的应用服务平台。

  近年来,我国算力设施建设已取得显著成绩,算力总规模位居全球第二,并且保持着30%左右的年增长率。但面对人工智能等技术的快速发展,全社会对算力提出更高要求。为挖掘我国超算潜力,应对上述挑战,基于超级计算机和高性能通信网络构建超算互联网势在必行。

  通过构建超算互联网,我们可以建立连接各国家级超算中心的核心资源网,实现计算资源的高效共享和管理;面向国家重大需求,针对重点应用领域,研制支撑领域应用的专业平台并开展应用;构建自主可控的高性能计算应用平台服务体系,提供跨超算中心的统一服务能力。超算互联网的研究与构建,将进一步提升我国超级计算机的应用水平,为国家经济建设、社会发展、科技创新和国家安全等提供更加强大和易用的超算服务,推动算力赋能千行百业发展。

  超算互联网平台的构建将为我国算力“新基建”打下可持续发展的基础

  记者:超算互联网平台建设没有经验可供借鉴,当前超算互联网平台建设面临哪些挑战?

  王英龙:从技术层面来看,超算互联网仍需要通过高速网络高效连接来自不同超算中心和资源提供单位的、分布异构的超算资源,需要实现算力、存储、数据等各种高性能计算资源的共享和高性能计算任务的有效调度。

  从人才资源来看,超算互联网的构建与运营涉及高性能计算、计算机网络、并行软件、分布式系统等计算机领域的诸多研究方向,尤其离不开以超算中心为主的超算运营管理与技术开发人才,需要具备相关应用领域和行业专业知识、行业经验的人才队伍。

  从产业生态来看,超算互联网构建于超级计算和高速网络的基础之上,对相关产业生态的依赖非常明显,从操作系统、基础软件到并行应用软件的开发与优化,这些都会影响到超算互联网的构建与运营。

  记者:国家超算互联网平台会对各行业的创新与高质量发展带来哪些助力?

  黄震春:当前,我国的超算应用总的来讲与国外领先水平相比还有较大差距。超算互联网的最大特点是变提供超算算力为提供超算应用服务,这就带来了超算互联网在应用模式上的巨大变化,对超算及其应用的发展具有相当大的推动作用。

  超算互联网的建设,将有效聚集超算软硬件资源和人才,基于自主可控的高性能芯片和超算系统,研究并行软件的高效开发、测试、迁移、共享和服务化技术,建立并行软件开发平台,支持和鼓励并行应用软件的开发。同时,超算互联网将聚集超算领域和应用领域的人才,共同研发能替代进口的主流应用软件,将超级计算机的算力封装成为用于解决实际业务问题的高性能并行软件服务,从而积累国产超级计算机上丰富的应用软件资源,逐步实现国产化替代,使宝贵的硬件资源得到有效利用。

  超算应用服务是一个高门槛业务,需要大量资源。超算互联网为超算应用服务提供了一个开放、合作的应用软件发展平台,大大降低提供超算服务的门槛,将吸引众多创业公司以及行业领先企业开展超算技术方面的研发,并建立自己的超算应用服务体系,引导与培育超算资源和服务的商品化和市场化,从而推动超算及应用的发展,取得极大的经济效益与社会效益。

  超算是一项系统工程,需要芯片、操作系统、应用软件等多个方面的支撑。超算互联网的建设与发展在有效集中优势力量,解决超算应用的各个环境环节的核心问题,提升我国算力水平和应用水平的同时,还将有效辐射带动我国芯片及软件产业的协同发展,推动我国自主基础软硬件产业生态的发展壮大。超算互联网的技术与推广经验还可以支持超级计算和智能计算的结合,建设兼备超级计算与智能计算能力的智能超算网络,有效推动更广意义上的算力网络的建设与产业发展。

  新基建、“东数西算”等战略的实施对于推动算力、算法、数据、应用资源集约化和服务化创新提出了更高要求,对构建提供高端算力服务的一体化先进计算基础设施提出新的挑战。超算互联网的实施和发展,将在国家层面给出实现全国大数据中心一体化协同创新的高质量解决方案,为开启算力经济时代的世纪工程提供坚实的基础,推动新基建、“东数西算”等国家战略的实施。总的来说,超算互联网平台的构建将为我国算力“新基建”打下一个可持续发展的基础,为实现我国的高质量发展和科技自立自强做出贡献。

  王英龙:超算互联网建成后,一方面可实现对普通互联网的“超算赋能”,升级改造;另一方面,通过超算互联网,可将算力输送到各个城市、各个企业、千家万户,让大家便利地使用超级计算的算力。

  以济南超算为例,我们正围绕国家在超算互联网、中国算力网等领域的规划部署,积极汇聚行业资源,探索算网管理运营的可持续发展机制,推动形成行业标准规范,培育算力应用的新模式、新场景和新业态,打造超算互联网在数字政府、生态环境、智能制造、新能源新材料、医养健康、教育培训等场景的示范应用,推动科学研究、工程技术、产业发展、社会民生等领域数字化、智能化转型不断加速,为数字经济发展筑基赋能。经过持续科研攻关与探索,济南超算已在高速网络通信、网络资源感知调度、算力网络融合和安全方面突破了一批关键技术。目前,已构建了覆盖山东省16地市的“山东算网”,并联合沿黄流域九省区的11所超算中心、计算中心和算力枢纽成立了“黄河流域算网联盟”,上线了全国首个“黄河工业算力调度服务平台”。基于覆盖全省的超算算力底座,我们就可以部署大应用软件,深入推动算力赋能实体经济。此外,超算互联网还会为工业设计、工程仿真、大数据处理、VR/AR等需要大量数据传输以及频繁操作交互的应用提供更好的用户体验。

分享到: