美国联邦政府数据中心

数据中心是指按照统一标准建设的,用于集中存放和稳定运行的具备计算能力、存储能力、信息交互能力的IT应用系统的场所。信息化是当今世界的大趋势,海量数据是信息化时代的显著特点。数据中心作为大规模数据储存、处理的基础设施,其建设是各国发展数字经济的根本。政府数据中心的建设可以加强政府数据的互联互通,增强政府数据的可用性。美国作为发展数据中心较早的国家之一,其政府具有较为丰富的数据中心建设经验。本文拟通过梳理美国联邦政府数据中心的建设经验,为我国数据中心的建设提供相关建议。

美国联邦政府数据中心总体建设情况

随着计算机等科学技术的发展,科研人员、计算机行业从业人员对数据的需求量越来越大。因此,美国社会学家在1965年提出建立国家数据中心的建议,目的是将各部门收集到的数据存储到数据中心平台,方便研究人员获取数据。由于国家数据中心的建设会涉及许多公众隐私,美国联邦政府开展了一场全国性的关于国家数据中心建设的辩论,但最终有关建设国家数据中心的建议并没有被采纳。虽然有公众反对建设国家数据中心,但是随着计算机技术的快速发展,数据成为科学研究的必需品,美国联邦政府数据中心建设的步伐并未就此停止。

数据中心的建设过程主要分为规划、设计、建设、运维、评估五个阶段,其中规划是数据中心建设成败的关键。数据中心的建设从无到有需要考虑的条件包括:选址、内部装修设计(层高、面积、装修材料等)、电源系统(供电、备用发电机等)、雷电防护措施、制冷系统、消防报警以及管理运维系统。例如,美国布鲁克海文国家实验室的科学数据计算中心(SDCC)就是从空间容量、设备布局、电源、配电设施、制冷系统、运维、网络设备、迁移等方面进行改造,并且该数据中心完全可以自给自足,不需要公共电力和冷冻水的支持就可运行。

美国联邦政府数据中心根据职能不同大致可以分为三类:面向客户型的数据中心(Customerfacing Data Centers)、分析类型的数据中心(Analytical Data Centers)以及战术或便携型的数据中心(Tactical or Transportable Data Centers)。面向客户型的数据中心主要是指公众访问类的网站,例如美国国家税务局的数据中心。这类数据中心需要灵活地应对客户需求,同时维护必要的安全配置文件。分析类型的数据中心主要是为客户创建差异化的产品,然后开展进一步的科学研究,例如美国国家海洋和大气管理局的数据中心。战术或便携型的数据中心的大小相当于航空公司的行李箱,支持战场作战、远程业务、灾后恢复和行业环境,例如美国国防部的某些数据中心。这类数据中心的尺寸、重量和功率都是需要重点考虑的因素。美国政府会根据不同的业务选择不同类型的数据中心并搭建不同的业务处理系统。此外,美国社会科学经济数据保存和使用委员会在1965年发布的报告中指出,国家数据中心应具备的基本条件包括与其他机构合作的权限、超强的计算能力和基本的行政安排。数据中心建设还需要遵循很多标准,因此涉及多个标准制定机构,如美国国家标准学会、美国国际建筑业咨询服务协会、美国通信工业协会和美国空调供热制冷协会等。

美国联邦政府数据中心整合优化计划

随着科学技术的发展,美国联邦政府数据中心的数量持续增长。为了遏制数据中心无限制增长,美国开始实施联邦政府数据中心整合优化计划。鉴于美国联邦政府数据中心数量庞大且部分数据中心存在较多闲置储存和计算空间,奥巴马政府在2010年颁布了《联邦政府数据中心整合计划》,其主要目标是:减少数据中心支出,提高数据中心安全性,将数据计算转移到更高效的平台(例如云计算),促进绿色数据中心的使用,并要求到2015年底关闭40%的联邦政府数据中心。2014年,美国政府发布与《联邦政府数据中心整合计划》相配套的《联邦信息技术采购改革法案》,要求相关部门定期向美国行政管理预算办公室(OMB)汇报数据中心整合情况。2015年,美国政府发现《联邦政府数据中心整合计划》进度严重滞后,因此2016年8月美国行政管理预算办公室启动《数据中心优化计划》,完全替代《联邦政府数据中心整合计划》,优化目标在《联邦政府数据中心整合计划》的基础上增加巩固优化现存数据中心,同时要求关闭现存44%的美国联邦政府数据中心。

据统计,截至2016年8月,美国具有2673个分层数据中心,7322个非分层数据中心。由于非分层数据中心的成本优势不明显,因此从2019年第一季度之后,美国行政管理预算局不再跟踪统计非分层数据中心。到2022年6月,美国联邦政府的分层数据中心共有1519个。从表1可以看出美国拥有分层数据中心数量排名前5位的政府机构是:国防部、退伍军人事务部、交通部、国务院和能源部。据统计,美国《联邦政府数据中心整合计划》自2010年实施以来共关闭约6000个数据中心(包括非分层数据中心),不仅为美国政府节约近60亿美元,还加快了云数据中心的部署。

随着《数据中心优化计划》的实施,数据中心整合所带来的实际收益逐年降低,这就要求各机构在关注基础设施优化的同时,还要考虑数据中心运行系统的整合。美国联邦政府数据中心整合经验大致可以分为三个方面。一是美国联邦政府数据中心的衡量指标主要包括虚拟服务器的数量、先进能源计量系统的数量、服务器的利用率和数据中心的可用性,并在2019年不再利用所有数据中心指标的平均值对机构内的整合情况进行测算,以便反映机构内部各数据中心的具体情况。二是美国联邦机构必须每年向美国行政管理预算办公室报告机构数据中心的现存数量和战略计划,并且美国政府问责局会对机构每年提交的报告进行审查。三是为了更好地管理和监测数据中心的实际状况,美国行政管理预算局建议数据中心使用自动监控、管理工具,并要求这些管理工具至少可以监测服务器的利用率、数据中心的现存数量。

美国联邦政府数据中心2022年财政预算

目前,美国联邦政府数据中心大多处于改建和整合状态,并未大量投资新建数据中心。美国联邦政府数据中心的预算全部来源于政府。美国国防部数据中心的经费预算高居首位,达到7.06亿美元。从美国国防部2022年数据中心的具体预算支出项目来看,其中57%用于财务管理系统,26%用于非应用程序(包括数据仓储、托管和数据中心的运行管理等),还有部分预算用于建设电子管理档案、采购系统和人力资源系统。美国卫生与公共服务部、退伍军人事务部的经费预算排名分别为第二和第三。退伍军人事务部保留较多的数据中心,支出较大,而卫生与公共服务部的数据中心虽然数量不多,但因为2022年新建了自动化电子手册系统,花费较多。从总体来看,美国联邦政府数据中心的大部分预算都用于搭建政府软件系统。

美国联邦政府数据中心相关政策法规

美国从20世纪中叶就开始制定和颁布数据相关法规政策。1967年美国政府颁布《信息自由法》,保障公众对政府机构信息的访问权利。1987年美国政府发布《计算机安全法》,规定美国国家标准与技术研究院负责标准的制定,确保政府内部自动处理设备中信息隐私的安全,还要求隐私和敏感信息的安全保护要符合公众利益。1996年美国政府颁布《国家信息基础设施保护法》,规定未经授权侵入受保护的计算机系统,开展任意破坏或通过电子信息手段对他人进行敲诈将会受到法律的惩处。2000年美国政府通过《政府信息安全改革法案》,确定了当时的安全政策,并要求国家项目每年开展项目审查和独立评估。2001年美国政府颁布《爱国者法案》,定义了关键基础设施是指对社会至关重要、一旦遭到破坏就会危及国家安全的系统和资产。2002年美国政府颁布《关键基础设施法案》,旨在促进关键基础设施所有者更好地共享基础设施信息,以便更好地建设和保护基础设施。2008年美国政府发布《国家网络安全综合计划》,旨在保护美国网络空间,防止网络受到电子攻击,打造安全的网络体系。2010年美国政府颁布《国土安全网络和物理基础设施保护法》,内容涵盖数据隐私保护、数据安全和电力设施保护等。2016年美国政府推出《联邦政府网络安全战略和实施计划》,要求政府机构保留和培养网络安全人员,并与其他公共部门和私营部门合作,利用最先进的技术保护网络安全。2019年美国政府出台《联邦数据战略——一致性框架》,确定了一套通用的数据实施方案,便于政府充分利用数据资产。2022年,美国政府发布《数据隐私和保护法(草案)》,规定相关实体不得收集、处理或传输超出合理必要、相关法规规定的数据。

综上所述,美国政府非常重视联邦政府数据的公开、网络安全及数据资产管理,而数据中心作为国家关键基础设施,其安全性也受到美国政府的高度关注。

美国联邦政府数据中心建设案例

美国国家能源研究科学计算中心(NERSC)是美国能源部办公室出资建设的科学研究计算设施,也是劳伦斯伯克利国家实验室的三个计算部门之一。其使命是负责收集计算、存储、网络、可视化和支持需求的相关信息数据,实现规模计算科学。NERSC收集信息数据的主要目的有两个:一是预测未来科学需要多大的计算能力;二是预测信息量级达到目前的十倍、百倍之后会出现怎样的新科学范式。2012—2014年,NERSC与美国能源部各科学项目办公室进行了6次项目要求审查,以便确定2017年的计算和数据需求,最终结果是2017年要达到860亿小时的计算时间、635拍字节(PB)用于存档存储和97拍字节用于项目协作的共享磁盘空间。2020年美国能源部各科学项目办公室对数据中心的使用情况。由此可以看出,使用数据空间最多的学科是基础能源科学,其后依次是高能物理、生物环境研究、聚变能源科学、核物理。总体来看,基础能源科学是美国能源部近年来的关注重点。

组织结构

NERSC分为三大部门:高性能计算部门,负责管理先进技术组、应用程序性能组和用户参与组;数据部门,负责管理数据分析服务组、数据科学参与组、基础设施服务组及存储系统组;系统部门,负责管理基础设施建造组、商业运作服务组、计算系统组、操作技术组及网络安全组。NERSC设立部门主任,负责数据中心全部事务;设立部门副主任,担任NERSC数据部门主管;设立运营系统副主任,担任系统部门主管;设有高级科学顾问,担任高性能计算部门主管。从NERSC的组织结构可以看出其内部细分部门较多,人员分工明确,可以充分发挥各部门专家特长以满足用户的不同需求。

NERSC-9是NERSC为开发高性能计算机单独设立的项目组,该项目组在2020年建设了新的超级计算机Perlmutter(在2022年发布的世界超级计算机排行榜中位列第七),NERSC-10项目组预计在2024年发布新型超级计算机。NERSC为重点任务成立专门项目组,有助于项目成员适应新项目,接受新观念,而且该项目不受各部门管理,项目主管直接向部门主任汇报工作成果,避免了繁琐的管理流程,有助于加快项目进度。

数据分析服务组、数据科学参与组与能源部科学项目办公室合作紧密。这两个小组主要负责处理超出NERSC数据密集型计算能力的项目(例如基因组项目、同步辐射光源项目等)。数据分析服务组主要通过组合不同软件系统简化数据模型来访问超级计算机。NERSC的组织架构还会根据实际需求适时调整。由于存储和运行内存的边界越来越模糊,2015年NERSC将存储系统组划归数据服务部门,目的是加强与数据分析服务组的合作,更好地帮助用户管理数据,进一步落实数据科学战略。

管理运维

NERSC为8000多个用户提供科学计算服务,这些服务主要包括:气候建模、新材料研究、早期宇宙模拟、高能物理实验数据分析、蛋白质结构研究等。

以用户为中心提供服务

NERSC的科技资源并不只是服务于美国能源部项目,其他科学研究项目也可通过申请来使用NERSC的计算资源。NERSC用户账号一般由美国能源部资助项目的参与人申请。用户界面会显示可查询的项目数据、项目分配到的额度(包括存储内存、运行内存)、剩余额度等。为项目分配额度有助于数据管理,确保存储资源的公平共享。NERSC项目收费方式充分考虑能源问题,一般根据项目所需服务质量进行收费。服务质量不同,耗能也会有所不同,计算费用的函数公式也不同。但如果项目超出分配的存储和运行内存的20%,则超出20%后的部分收取的费用会是原价的两倍。NERSC积极为用户带来更好的体验,提供用户与NERSC的接口,包括一对一咨询、能源部科学办公室的需求审查和协调活跃的用户组等服务,可根据用户咨询的问题联系高性能计算专家给予解答。NERSC每年都会开展一次用户调查反馈,了解NERSC的优势和劣势。

NERSC的用户大多是大学研究人员,其次是能源部内部人员以及其他政府实验室、工业实验室、小型企业和私营实验室人员。这在一定程度上说明,美国能源部大多数项目会由大学承担,少量项目会与企业进行合作或由企业承担,极少项目会与小型企业及私营实验室合作。

不断尝试技术上的突破

NERSC不仅为用户提供良好服务,还采取不同方式提升技术能力。例如,NERSC举办GPU黑客比赛,通过团队协作方式来解决目前存在的技术难题。NERSC还向社会征集量子信息科学领域的项目,以便制造和测试量子设备。NERSC每年会开展计算科学暑期学生项目,这是一个为期12周的带薪实习项目,参与人员大多为博士。2020年NERSC还为抗击新冠肺炎疫情工作了2亿多个小时,为发现COVID-19病毒特点以及研发治疗药物做出了巨大贡献。

与企业保持密切合作

NERSC的硬件系统包括:超级计算机服务器、数据存储系统和环境设施等。目前NERSC有两台超级计算机:Cori和Perlmutter。NERSC的文件存储系统分为三类:全局的文件系统、当地的文件系统、长期存储的文件系统。NERSC的硬件一般是择优选择,通常硬件研发会与企业合作。例如,Cori超级计算机是由克雷公司制造,而处理器制造则选择了英特尔;Perlmutter超级系统的开发合作企业是克雷和英伟达,而社区文件系统(CFS,属于全局文件系统)则选择与IBM合作。合作方式一般是企业提供计算机系统早期的硬件、原型软件工具和一些特殊培训。NERSC的一部分软件系统也是由企业完成的。例如,NERSC与Codeplay公司达成合作,以增强Perlmutter编译器的性能。从合作企业可以看出,NERSC一般选择行业的头部企业,这些企业具有全球最先进的技术。

精细化数据管理

NERSC的数据不仅仅是通过项目人员人工输入,还有很大一部分是基础设施(例如显微镜、望远镜)的观测数据实时传入,这大大降低了人力资源成本。随着数据的爆炸式增长,非易失性存储器技术(突然性、意外性关闭计算机时数据不会丢失的技术)逐渐进入市场,这将会颠覆原有的存储结构。NERSC在2017年开始为非易失性存储器技术布局,按照数据的存储时间、访问频率和共享程度将数据存储分为四个层次:临时存储、活动存储(短时间内被频繁访问的数据)、社区存储(在多个项目内共享的数据)和永久存储。NERSC分步推进改革,第一步是到2020年将原先的数据缓冲区和获取文件系统存储层合并为一个存储层;第二步是到2025年完成社区存储和永久存储层的合并,便于长期数据管理、保存和共享。为了便于用户更快地适应新系统,NERSC将提早开放测试平台。NERSC具有较为清晰的数据可视化管理系统,开发设计数据仪表板,便于用户查看和管理自身的项目数据。越来越多的科学应用领域开始需要利用高性能计算,但传统超级计算机无法满足这些领域的新需求,需要与深度学习等相结合,因此NERSC部署了许多人工智能分析工具(例如Python和Jupyter软件),便于用户进行数据分析与处理。NERSC还对用户导入的Python库进行监控,便于了解用户如何在NERSC中使用Python,从而为部署新的软件库进行准备。

重视保护数据安全

为了防止黑客攻击,NERSC采取了诸多措施。用户远程登录时,NERSC采取了安全外壳协议(Secure Shell),通过生成密钥(包括公钥和私钥)来保护数据传输。为了防止用户数据被泄露,NERSC在2019年开启了多重身份验证登录,即用户登录NERSC不仅需要用户名和密码,还需要身份验证程序生成的一次性密码。此外,NERSC因为安全问题也对用户提出了要求,用户在访问系统期间,不能访问不安全网站,不能下载不安全文件,不可过度使用共享资源,不能从事与项目无关的工作,并要求用户每年至少修改一次密码。为了防止出现重大损失,NERSC建议不要将机密信息、私人信息等储存在NERSC系统中;如果系统已经或正在遭受攻击,建议用户及时联系NERSC工作人员。总体而言,NERSC极其重视数据安全问题。NERSC将不断更新数据安全保护技术,以求有效预防黑客攻击。


发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注