江南app软件库
江南app软件库
江南app软件库
江南app软件库
江南app软件库
浪潮存储:基于系统级可靠性设计 为数据存储保驾护航
  • 浪潮存储:基于系统级可靠性设计 为数据存储保驾护航
  • 来源:江南app软件库    发布时间:2024-08-18 12:47:43

概述

  存储系统是由控制器、背板、结构件、硬盘、内存等部件构成的多个子系统组成,其中任何单一元器件故障都可能会引起存储系统出现一些明显的异常问题。因此,系统可靠运行的基础,离不开元器件、部件以及整个控制管理系统的可靠性设计。浪潮存储从系统级开发、电路板级开发、部件引入、生产加工等多个环节来保障系统的可靠性及稳定性。

  在存储系统中,许多元器件出现故障是由于系统模块设计不合理或元器件不正确使用所造成的,并不是元件本身存在缺陷。浪潮存储系统级可靠性设计包含:可靠性模型建立及评估、冗余设计、容错设计、故障隔离(失效分析)、热设计、EMC/EMI(Electro Magnetic Compatibility/Electromagnetic Interference, 电磁兼容性/电磁干扰)设计、安规设计、环境及结构设计等。

  其一,控制器单元冗余设计。关键元器件增加完全相同功能的备用通道,保障该部分发生故障时不影响系统正常运行。比如双BIOS设计,当BIOS由于Flash芯片故障或者升级失败损坏时,可由备用BIOS接管,从而避免无法开机。控制器冗余设计以牺牲成本为代价,但存储系统设计首要考虑因素应是其可靠性。

  其二,控制单元掉电保护。存储系统增加BBU电池(Battery Back-Up)来抵抗电网瞬间断电或电压突降等突发因素,软件系统将掉电信号定义为最高级别中断,使控制单元能及时对掉电做出一定的反应,防止数据丢失,确保业务的连续性。

  其三,结构设计。结构可靠性设计是硬件可靠性设计的重要阶段。结构设计时,首先应注意元器件及部件的安装方法,其次是控制管理系统工作环境的条件(如通风、除湿、防尘等)。

  其四,噪声抑制。存储系统主要通过如下方式对噪声进行抑制:首先,选择高效率双马达风扇,优化系统散热所需风扇转速;其次,优化节点导风罩设计,降低单节点流阻;再次,系统风扇调控导入PID控制,降低低负载时系统风扇转速;最后,通过散热器优化、风道布局优化及系统流阻优化改善散热效果,以此来降低正常工作负载下设备噪声。

  其五,散热设计。存储系统通过对系统布局进行风道划分,大体上分为:Memory风道、CPU风道、节点风道,各风道之间利用机箱布局的结构件实现风道的串联或并联。风机散热风量通过系统风扇加速后,进入并联的节点风道,从节点尾部的开孔结构排出,从而保障系统的稳定运行。

  其六,系统日志收集。存储系统会在一定的时间周期内收集系统的信息,并自动创建能查看的文件。当存储发生故障时,能够最终靠日志快速定位到出问题的部件。

  存储研发团队在设计过程中,正确使用各种各样不同型号的元器件或集成电路,提高硬件可靠性是不可忽视的重要因素。

  一是电路设计。据统计,影响存储系统可靠性的因素约45%来自系统模块设计。为了能够更好的保证系统的可靠性,在电路设计时应考虑最极端的情况。单板设计应考虑所有元件的公差,并取其最不利的数值核算电路每一个规定的特性。如果这一组参数值能保证电路正常工作,那么在公差范围内的其他所有元件值都能使电路可靠地工作。在设计电路时,研发人员还会对单板元器件进行降额分析,对重要元器件给出热应力、电应力的降额情况,并根据以往器件失效分析(FEMA)的经验,对容易损坏的集成电路、关键元器件来优化设计。

  二是元器件选择。在确定元器件参数之后,还要确定元器件的型号,这主要根据电路所允许的公差范围。由于制造工艺所限,有些元器件参数的公差范围可能较大,如电容器电容量等。此外,元器件的额定工作条件包括多个角度(如电流、电压、频率、机械参数以及环境和温度等),设计时要考虑参数裕量,并确保运行在工作条件范围内。

  三是电气性能。元器件的电气性能是指元器件所能承受的电压、电流、电容、功率等能力,在使用时要注意元器件的电气性能,不能超限使用。

  四是SI(signal integrity信号完整性)仿真设计。伴随着信号频率的提升,在存储系统上分析和发现信号完整性问题并有效解决是很复杂的。存储系统借助EDA(Electronic Design Automation,电子设计自动化)工具,对电路的参数进行仿真分析,提前察觉缺陷,从而缩短研发周期,降低研发成本。

  五是生产的基本工艺。由于工艺原因引发的故障通常很难定位排查,一个焊点的虚焊很可能会引起总系统在工作过程中出现不稳定现象。因此,设计印制电路板时应考虑元器件的布局、引线的走向、引线的分类排序等。

  六是硬件测试。浪潮存储开发团队引入价值上百万的高端测试设备,其中包含50G高端示波器、50G高带宽硬件链路误码仪和相关治具。存储硬件研发团队制定了全覆盖、无遗漏的信号测试规范,并逐步加强加固验证测试。这中间还包括板卡间热插拔、固件反复升级验证、单/双控故障,板间信号动态测试,低温启动、高温压力测试,加强验证SI链路可靠性测试。

  硬盘作为存储介质的中坚力量,保证机械硬盘的安全性和可靠性成为存储研发部件团队的重中之重。浪潮存储开发团队通过与硬盘厂商的技术分享搭配自己的专利技术,形成了一套包括磁盘的加密、协议层的定制以及写缓存的关闭等技术的定制方案。配合Raid技术更好地保证了客户对数据安全性的要求,开发出了一套独有的筛盘方案和筛盘设备来满足金融等行业用户的需求。

  针对存储设备,浪潮存储开发团队开发了多控制器系统,配合锁盘技术、硬盘定制化以及Raid技术,实现了硬盘高速读写的需求和安全性、可靠性的完美结合。硬盘经过引入测试、兼容性测试、筛盘测试、老化测试等层层把控为存储设备打造坚实底座。

  生产制造是产品生命周期中重要一环,通过批量生产和用户反馈有助于发现更多前期设计遗漏和缺陷,及时维护查缺补漏。

  浪潮存储在生产线引入了用于测试存储产品在不一样的温度条件下是不是能够正常稳定运行的温循房,环境和温度可以根据需求随时调整,加速缺陷部件的故障复现,以此来降低产品到货即损(DOA)的情况。同时,提出增加极限场景测试和模拟客户实际使用场景的长稳压力测试等生产模式,提高存储产品稳定性和可靠性。

  高端存储产品一定要保证极致稳定,设备生产完毕后先进行7至14天的长稳测试,测试用例中模拟客户实际业务场景,采用客户常见的数据类型进行压力测试,观察测试过程中存储设备是否有告警和异常,将一切不稳定因素拦截在生产阶段,保证设备交付后的稳定、可靠运行。

  近年来,浪潮存储持续加大研发投入和创新,致力于打造安全、可靠、经济、高效的数据存储底座,不断追求“极致稳定”,为数据存储保驾护航,服务各行各业。(柯岩)

  南美洲的一种肺鱼是迄今发现的拥有最大基因组的动物。通过将美洲肺鱼基因组与其他肺鱼基因组作比较,研究人员确定,美洲肺鱼每1000万年向其DNA中添加相当于一个人类基因组的基因。

  中国科学院大连化学物理研究所史全研究员团队与吴忠帅研究员团队合作,在前期柔性相变薄膜的研究基础上,进一步改善化学交联合成方法,并利用湿法纺丝技术,开发出一种具有固-固相变特性的本征柔性相变纤维。实际人体热管理实验表明,该柔性相变纤维具备优秀能力的温度控制性能,为新一代智能调温纤维材料的研究与发展提供了新方向。

  近日,中国医学科学院药物研究所助理教授吴惊香团队揭示了去甲肾上腺素转运体的底物结合及抑制机制,为去甲肾上腺素转运体研究奠定了基础。尽管研究已揭示了去甲肾上腺素转运体的底物结合及抑制机制,但对吴惊香团队来说,“闯关”远未结束。

  研究人员介绍,就像水龙头的阀门能调节水流的大小,晶体管也能够调控由电子或空穴等载流子形成电流的大小。研究团队通过可控调制热载流子来提高电流密度,发明了一种由石墨烯和锗等混合维度材料构成的“热发射极”晶体管,并提出了一种全新的“受激发射”热载流子生成机制。

  人工智能,从技术层面而言,特指使计算机程序呈现出人类智能的技术;从客观存在层面而言,泛指能够表现出人类智能的机器设备。

  文物和文化遗产承载着中华民族的基因和血脉,是传承历史和文明的载体,也是推进文化自信自强的深厚根基。

  作为数字时代的新型生产要素,数据是数字化、网络化、智能化的基础,已成为发展新质生产力的重要支撑和关键引擎。 多措并举打通束缚新质生产力发展的堵点卡点,让数据要素更好赋能新质生产力发展,是实现中国式现代化的重要任务。

  党的二十届三中全会审议通过的《中央关于进一步全面深化改革、推进中国式现代化的决定》强调,建立人工智能安全监管制度。所谓生成式人工智能技术(AIGC),是指基于算法、模型、规则等,生成文本、声音、图片、视频等内容的新一代人工智能技术。

  “木星冰卫星探测器”(JUICE)将于8月19日、20日飞越地球和月球。次飞越可能是整个飞行任务中最复杂的,因为JUICE必须精确通过与地球和月球相关的正确位点,进而“搭便车”前往金星。

  研究星系的形成和演化,对理解宇宙起源和结构有重要意义。南京大学天文与空间科学学院教授王涛团队揭示黑洞通过调制星系冷气体含量影响星系的形成演化,解开了困扰天文学界半个世纪的谜题。”王涛团队通过对样本星系中原子氢和超大质量黑洞的对比研究,发现星系中心黑洞质量与原子氢含量负相关。

  中国科协推出科普大篷车项目,让“移动科技馆”走到乡村孩子身边。潘薇是安徽省科技馆科普大篷车的第一代科普工作者,“我们常在外边跑,陪伴家人的时间很少。

  8月12日晚至13日晨,被誉为“全年最适合观测的流星雨”——英仙座流星雨迎来极大。

  这些年来,在各地各方的共同努力下,长城保护、传承与研究工作有序进行,长城的保护状况得到持续改善。

  大学博物馆面向中小学生开放,有利于促进教育资源的共享与普及,对促进知识传播、文化传承、提升学生综合素养都具有积极意义,无疑值得肯定和点赞。

  近年来长江水生生物资源总体呈现恢复向好态势,以十年禁渔为重点的长江大保护系列政策措施取得明显成效。

  “气温每上升1℃,所选育的小麦品种的环境适应能力将下降8.7%。论文第一作者兼通讯作者熊伟建议,未来必须对现有育种策略做调整,增加抗逆高产品种的遗传多样性,以适应持续不断的增加的极端天气事件。

  日前,中国科学院生物物理研究所研究员赵岩团队和合作者在《自然》发表最新研究成果,为开发治疗与多巴胺转运蛋白(DAT)相关精神疾病的药物提供了重要的指导信息。

  中国汽车工业协会最新统计显示:7月,乘用车国内销量159.5万辆,其中,新能源乘用车国内销量85.3万辆,首次超过传统燃料乘用车74.2万辆的国内销量。