超算互联网是一种以超级计算机和高速互联网为基础的先进计算基础设施,它以高速网络连接分布各地的超算中心,聚合多个超算中心的软硬件资源,并通过建设超算资源共享与交易平台,支持算力、数据、软件、应用等资源的共享与交易,同时向用户提供多样化的算力服务。
(资料图)
杨广文 国家超级计算无锡中心主任
新基建、东数西算等工程的实施,对于推动算力、算法、数据、应用资源等的集约化和服务化创新提出了更高的要求,对构建可提供高端算力服务的一体化先进计算基础设施提出了新的挑战。
“为了解决我国超算中心运行面临的挑战,提升我国超算的应用水平,推动超算中心从提供裸机时向提供多领域应用服务转变,构建超算互联网势在必行。”6月22日,国家超级计算无锡中心主任杨广文在接受科技日报记者专访时说。
杨广文透露,目前我国超算互联网原型项目研究已取得初步成果,将于近期对外正式发布。今后,这些成果将能进一步支持智能计算中心的互联,并在更高层面上支持未来算力网的构建与营运。
布局建设超算互联网意义重大
杨广文介绍,超算互联网是一种以超级计算机和高速互联网为基础的国家级先进计算基础设施,它以高速网络连接分布各地的超算中心,聚合多个超算中心的软硬件资源,并通过建设超算资源共享与交易平台,支持算力、数据、软件、应用等资源的共享与交易,同时向用户提供多样化的算力服务。
作为一种先进计算基础设施,超算互联网将超算所提供的强大计算变为计算服务,并以一种标准化的形式提供给计算服务的使用者。
“超算互联网通过制定资源接入、共享、交易等标准,构建具备资源共享与交易能力的公益性资源平台,可将各级超算中心、云计算企业、科研机构等不同来源的算力、数据、软件、应用等统一为超算资源并整合到一起,为科研、生产生活等提供高效、专业的超级计算服务。”杨广文说。
在杨广文看来,和传统的超算应用相比,超算互联网的最大特点是将提供超算算力转变为提供超算应用服务,这就带来了超算互联网在应用模式上的巨大改变,对超算及其应用的发展具有相当大的推动作用。
在清华大学副教授黄震春看来,作为一种信息基础设施,超算互联网起到了连接下层资源提供者与上层用户的作用。因此,从商业运营角度来看,超算互联网的核心服务平台应当是一个公益平台,在国家相关部门的支持与指导下应用于超级计算服务市场。
国家超级计算无锡中心研发工程师叶跃进认为,在建设超算互联网时,要改变超算中心分散独立运营导致的算力碎片化和资源利用不均衡的局面,实现超算资源的互联互通和资源共享、交易等;同时,要构建超级计算管理及应用平台服务体系,提供跨域的统一服务策略和评价指标,提供并行应用软件,以及软件的共享与交易机制;此外,还要支持建设面向各领域和重点行业的应用平台,充分利用国家级超级计算资源,有效支持重点科研与行业用户,引导、培育超级计算资源和服务的商品化和市场化,从根本上提高我国并行算法与并行软件的研发水平,使超级计算更好地服务于科技创新、产业升级等。
“超算互联网的建设和发展,将在国家层面给出实现全国大数据中心一体化协同创新的高质量解决方案,为开启算力经济时代的世纪工程提供坚实的基础。”杨广文说。
超算互联网仍面临诸多挑战
“超算互联网的核心目标是确保超级计算服务实现从传统的提供算力到提供服务的革命性转变。”杨广文说,只有实现了资源的高速互联,各种超算资源才有可能成为一个有机整体,可能支持面向应用领域的行业或者产业联合体的形成,构建应用平台和应用系统,为应用领域和相关产业提供有效的高性能计算应用服务。
杨广文介绍,目前超算互联网的构建和运营无论在技术上、人才上还是在商业模式、产业培育上都面临着诸多挑战。
从技术层面来看,超算互联网仍需要通过高速网络高效连接来自不同超算中心和资源提供单位的、分布异构的超算资源,需要实现算力、存储、数据等各种高性能计算资源的共享和高性能计算任务的有效调度。
从人才资源来看,超算互联网的构建与运营涉及到高性能计算、计算机网络、并行软件、分布式系统等计算机领域的诸多研究方向,尤其离不开以超算中心为主的超算运营管理与技术开发人才,需要具备相关应用领域和行业专业知识、行业经验的人才队伍。
从产业生态来看,超算互联网构建于超级计算和高速网络的基础之上,对相关产业生态的依赖非常明显,从操作系统、基础软件到并行应用软件的开发与优化,这些都会影响到超算互联网的构建与运营。
“在面向应用领域的专业超算服务产业初期和发展阶段,亟须国家在产业政策等方面给予大力扶持,以推动具有技术和市场优势的企业联盟或集群快速成长。”叶跃进说。
建设过程中要坚持标准先行
“建设超算互联网,将有效聚集超算硬件资源和专业人才,并基于超级计算系统研究并行软件的开发、测试、迁移、共享和服务化技术,支持和鼓励并行应用软件的开发。”杨广文说。
黄震春认为,在超算互联网的建设过程中,需要遵循标准化、服务化、领域化等一系列原则,以保证超算互联网的开放性和普适性;尤其要坚持标准先行,这既有利于超算互联网的合作和推广,又能通过成熟的标准保证系统的兼容、稳定、可用,更能促进相关标准的开放,保证超算互联网的不断发展与演进。
我国高度重视超算互联网工程,并于2020年在重点研发计划的“高性能计算”重点专项中,专门部署超算互联网原型项目——国家高性能计算环境领域应用平台及服务体系研究与构建,目前已在多个方面取得了重要进展。
值得一提的是,超算互联网原型项目还得到了之江实验室的大力支持,同时也能更好地支持之江实验室“智能计算数字反应堆”重大项目的实施。
杨广文介绍,超算互联网原型项目可实现多个国家超级计算中心之间每秒千亿字节的高速网络互联互通,聚合每秒不少于200亿亿次浮点运算的计算能力和1艾字节的存储能力。目前超算互联网的高速互联采用开放式的架构和标准协议,可支持未来网络带宽升级和接入更多符合条件的国家级及其他各级超算中心、资源供应商与用户单位。
同时,超算互联网建设团队还针对核心资源网的超级计算系统,研发支撑应用领域平台构建的技术,设计一套基于核心资源网的应用平台搭建支撑工具。
相关专家认为,超算互联网原型项目的顺利实施,证明了超算互联网在技术上的可行性和对行业与多领域应用的强大支撑能力,将为我国科技创新、产业升级、社会发展等提供基于超级算力的专业服务,有效带动相关产业发展,支撑国家相关战略的顺利实施。(记者 过国忠 通讯员 段芳)