嘿!兄弟,你是来唱戏的吗? 原创

1988年上海电视台和杭州电视台联合出品的《济公》续集里,有这么一个故事:为破案,济公收了县令做三天徒弟,路上遇到一家人办丧事,济公进去哭丧,情真意切、声泪俱下,引得主人感动异常,当即施舍了一桌菜肴。

1988年上海电视台和杭州电视台联合出品的《济公》续集里,有这么一个故事:

为破案,济公收了县令做三天徒弟,路上遇到一家人办丧事,济公进去哭丧,情真意切、声泪俱下,引得主人感动异常,当即施舍了一桌菜肴。

县令徒弟见济公此化缘方法甚是巧妙,于是效仿。另一家灵堂上,他趴在灵前涕泗横流,一边拍棺木一边照着济公的原话恸哭:“我与你友谊深厚,昔日曾同床共眠,如今你怎么就先我而去了呢……”

尽管徒弟哀哭动人,使见者伤心、闻者流泪,然而他非但没有成功化缘,反而被乱棒打了出来,只因济公哭灵对象是男的,而徒弟拜会那家去世的是一位老太!

这种别人怎么做他就怎么做的行为,生活中屡见不鲜,效仿他人做法、按照传统办事,固然出于“保险”考虑,不容易出错,可也会绕过最优处理,走了弯路。

系统建设也是如此。我们常常会遇到持有惯性思维的客户,他们的精力大半分配给应用业务创新,对于基础架构多数采用传统方案或参考别家模式,有的时候不仅增加了成本而且实操过程中也波折不断。对此Dell EMC要从实际出发,帮助客户探索最适合的方案。

这里讲述一个高校用户建设高性能计算系统的案例:针对客户传统建设项目出现的种种问题,我们逐一分析化解,为其量身打造了一套解决方案,从他们刚开始的不信任、不放心,到Dell EMC创新型解决方案的提出,客户最终对我们表现出极大的认同和支持。

二十一世纪以来,越来越多的科学研究和重大工程中的关键问题都必须依靠大规模、高性能的计算来完成。处于国内科研创新最前沿的高等院校,也承担了越来越重的科研任务,对高效处理复杂运算的需求越来越强,高性能计算势在必行。

高性能计算并非最近才有的技术,它已存在业界多年,总体分为计算、存储、网络、软件、机房环境、服务等方面,具体涉及的产品、方案,十分繁多,每个部分有许多选择,到底是机架式还是刀片式节点?共享式还是分布式存储?以太网还是IB网络?

面对多种选择时用户就会犯难,为“保险”起见,最终往往选择了最传统的方案。此处并非说传统方案不好,实际上,高性能计算经过这么多年的发展,有些方案或组合具有更好的Better Together特性,是可以作为首选的。

我们这个高校用户承担了多个国家级重大科研专项,同时负有培养超级计算机人才的任务,早在7、8年前就着手建设与科学研究和人才培养相匹配的大型计算机集群系统。随着研究课题的拓展,早期建设的计算集群已经满足不了任务要求,需要购建一套几千核以上、并且不少于几百TFlops计算能力的新集群。

根据一期项目痛点以及本次实际应用情况,并基于加速科研成果的考虑,计算集群需要满足以下要求:

► 高速低延迟计算网络

► 适应大规模集群满负载并行计算高效制冷环境

► 固定机房空间设备扩展性

► 多人多类型多任务作业

对此Dell EMC提出了领先适用的方案组合,很好地满足了用户科研、教学和人才培养需求。

高密度计算节点

客户:你们有适合高性能计算的刀片服务器吗?我们一期就用的刀片,隔壁院系也是用的刀片,可是现在设备开关机只能跑到机房操作。

我:有啊!Dell EMC产品完备,可提供端到端的整体解决方案,某985高校就用了我们多套M1000e刀片服务器,结果运行得非常好。不过针对您的情况,我们认为2U4节点设备更合适,推荐采用Dell EMC C6420+Intel 100Gb OPA方案。

C6420在一个2U机架中提供高容量存储和4台双路服务器,形成一个灵活的平台,为苛刻的高性能计算和横向扩展工作负载提供动力。C6420只是共用2U机箱、电源和风扇,其他都是独立的(包括独立的网络和管理口)。既符合高密度环境,又满足高性能计算有效组网的要求,可直接通过C6420外部网口上联计算网络交换机,减少网络层级,实现更低的数据传输延迟以及更稳定可靠的运行平台。

另外,由于一期建设的计算集群没法实现远程管理,用户每次开关机都要跑到机房现场去操作,十分麻烦,而C6420完美解决了这个问题,它可以通过独立IDRAC卡进行远程管理,且利用OME软件的集中部署、更新、监控和维护功能,可以有效提升用户的日常运维效率

嘿!兄弟,你是来唱戏的吗?

C6420更强一点在于,它可以直接配置带100Gb Omni-Path接口的Intel处理器(此处金级6148F CPU),让网络更靠近CPU,不需要PCIE总线即可全线速外联计算网络交换机。这是一种针对高性能计算部署优化的高速互联技术,在中大型集群中降低数据传输延迟,最大程度提升节点间通信性能。相比PCIE插卡方案,性价比更高

嘿!兄弟,你是来唱戏的吗?

更合适的Intel 100Gb Omni-path计算网络

客户:应用需要高并行计算能力,任务求解时,计算节点之间交互数据非常频繁,我们之前用的是40Gb QDR接口网络,这次怎么着都要升级到56Gb FDR。

我:非常理解您的意思,本项目是希望达到更高的并行计算Linpack值,为课题组任务研发注入强劲动力。其实目前这种场景并不是只有一种选择,您可以了解下Intel® Omni-Path计算网络,它带宽100Gb,再配合集成OPA接口的C6420,可以让整个集群具有网络延迟更低、更可靠,实现灵活组网,这个在行业内和TOP500之间也有着广泛应用。

Dell EMC跟Intel向来有广泛和紧密的合作,Dell Networking H9106-OPF和H9124-OPF导向器级交换机、 H1048-OPF 和H1024-OPF 边缘交换机,用的都是Intel® Omni-Path网络设备。为了能达到本项目Linpack值要求,经统计需要150多个节点,所以H9106-OPF(在7U机箱中最大可扩到192个100Gb口)是非常适合本项目的,它可以为小大中小型结构提供最佳性能,凭借超高的端口密度,减少交换机、电缆和机架的数量允许配置大量端口,从而帮助组织简化网络拓扑。

用户可以先按照本次节点数量激活相应端口,并随着将来节点的增长以32个端口为增量平滑添加更多端口。这有助于削减电力散热成本减少设备无序蔓延,并且能在系统横向扩展的过程中避免出现过度订阅的情况。

最适用于高性能计算的MDC模块化机房

客户:硬盘坏了!电源坏了!怎么这么热?为什么今天一个作业任务花了那么长时间?你们有没有水冷设备?我们这个项目再也不能按照老路走了。

我:有是有,但是我们认为对此还有更好的解决方案——采用MDC模块化机房。

高性能计算系统,主要应用的是高功率密度或刀片服务器等高热密度设备。一期项目采用传统机房+国产计算设备,运行时会产生大量热量。尽管配置了精密空间+柜式空调,机柜内外部仍然处于高温“热岛区”,人一旦靠近就会感到非常不适,而且设备故障率也很高,导致运维人员疲于应对。

传统机房正面临着巨大挑战——服务器功耗呈几何级数增长,机房的单个机柜功耗不断提高,单位面积热量急剧上升,导致高热密度机房大量涌现。实践表明,当单个服务器机柜的热负荷超过5KW时,如果仍然采用传统方式的机房专用空调解决方案,很可能出现机房环境温度控制不理想的结果,产生局部热点。

另一方面,针对设备需要大循环风量带走高热的情况,采用传统机房空调系统不但会占用大片机房空间,而且上送风机组要配套大尺寸风管截面,下送风机组的地板架空高度也要大幅提高,同时机房专用机组必须加大风机功率保证送风量,因而导致整个制冷系统的效率大为降低。

Dell EMC有世界著名的企业级基础架构上的数据中心解决方案,早年就已着手开发针对机房环境超高热密度的新一代一体化解决方案。

整体解决方案具有智能设计、模块化设计特点,具备易建设、易管理、易维护、易扩容、易购买等价值,能够为IT客户带来美观、安全、可靠、高效的使用体验。此外,一站式获得的方式将有效降低用户的总体拥有成本

高性能计算系统+MDC模块化机房绝对是Better Together!客户点头表示认同。

高性能计算集群中的云管系统

客户:我们这套计算集群是给多个教授和学生同时使用的,应用程序也不少,需要不同的计算平台环境,你们有什么更好的办法吗?

我:Dell EMC是业界少有的能提供全面解决方案的公司,我们致力于打造领先现代化数据中心,针对这个问题可以采用Fit2Cloud多云管理系统。

随着云计算技术的成熟和发展,采纳云和上云已成为常态,高性能计算上云并非遥不可及。Fit2Cloud可以纳管数据中心异构虚拟化平台和X86物理机,面对多用户、多应用的高性能计算场景, Fit2Cloud能发布CensOS、Redhat、Windows系统,发布裸金属机器,这些操作还可以直接在自助服务门户中完成。

嘿!兄弟,你是来唱戏的吗?

数据存储+备份

客户:我们课题组这几年积累了大量数据,目前已经到200TB了,随着新系统上线,未来数据量会更庞大。当前所有数据都放在单套存储中,尽管存储号称有5个9的可靠性,但毕竟有单点故障存在,且数据如此大量也很难选到一个合适的备份系统。你们有什么好的方案吗?

我:Dell和EMC合并,使我们的产品线极大丰富。存储方面,除了一直在做的NSS和Intel Lustre分布式存储,您还可以选择Dell EMC Isilon产品。关于备份系统,Data Domain 或ECS弹性云存储产品都不错。我们给您介绍下重删压缩效率极高的备份设备,它可以对重要的数据甚至全部数据,实现到本地以及扩展到云端的可靠备份。

Dell EMC Data Domain是业界在线消重专用备份存储中的佼佼者,对于大数据环境有着独到的处理能力。它扮演着备份存储和网络附加存储(NAS)的双重角色,任何写往Dell EMC Data Domain的数据均能实现边写入边消重。Data Domain还支持CloudTier云分层到公共云、私有云或混合云中,从而实现长期保留。数据经过 Data Domain重复消除步骤后,存放在云对象存储中。极高的重复数据消除率,可大幅减少存储占用空间,从而降低总体拥有成本。

嘿!兄弟,你是来唱戏的吗?

系统建设就是具体问题具体分析的过程,这好比量体裁衣,只有量准了领口、袖长、肩宽、身形、腰围等尺寸,才能提出来最合适的解决方案。一味迷信传统,穿了件不合身的衣服上街,岂不要苦了自己、笑了别人。

来源:戴尔易安信

0赞

好文章,需要你的鼓励

2018

10/15

11:14

分享

点赞

邮件订阅
白皮书