开云-从容应对未知风险——解密亚马逊云科技的韧性之道

[导读]愈来愈多用户但愿企业营业能7×24不中断运行,同时企业却面对愈来愈多营业中止的风险,如企业系统复杂性的增添,频仍的功能更新和发布等。若何确保营业持续性,晋升韧性,成为企业急需解决的问题。 愈来愈多用户但愿企业营业能7×24不中断运行,同时企业却面对愈来愈多营业中止的风险,如企业系统复杂性的增添,频仍的功能更新和发布等。若何确保营业持续性,晋升韧性,成为企业急需解决的问题。 韧性是利用法式抵抗中止或从中恢复的能力,包罗与根本举措措施、依靠办事、毛病设置装备摆设、收集问题和负载激增相干的中止。在亚马逊云科技,构建云韧性是一项最根本的工作。亚马逊云科技从一最先并延续在其根本举措措施、办事设计与摆设、运营模式和机制中将韧性斟酌此中。在此根本上,亚马逊云科技还供给一套周全的办事、最好实践等,进一步帮忙客户晋升本身的韧性。 亚马逊云科技的韧性始在全球根本举措措施 亚马逊云科技全球根本举措措施地舆位置分离,广泛34个地舆区域的108个可用区。为了不单点故障的影响规模,亚马逊云科技最小化全球根本举措措施之间的互联性。每一个区域都自力在其他区域,区域之间的这类隔离机制确保单个区域产生办事故障时,其他区域不受影响仍正常运营。每一个区域由三个或更多个彼此自力,且在物理上分隔的可用区构成。每一个可用区都有自力的电力、制冷和物理平安举措措施,统一区域内的可用区之间的物理距离也颠末精心计较——凡是是100千米之内。可用区的这类隔离机制,既能避免如供电、冷却等常见故障点,也能避免同时遭到如地动、洪水等年夜范围灾难的影响。可用区之间又经由过程冗余的超低延迟收集毗连,可实现可用区间单元毫秒级延迟的数据同步复制。为了取得高可用性的同时可以实现更年夜的容错能力,客户可以将他们的利用法式设计为在多个可用区中运行。 亚马逊云科技将韧性根植在办事和架构设计中 亚马逊云科技构建的办事均知足极高的可用性方针。在办事/系统设计时,亚马逊云科技利用经由过程对办事的节制平面和数据平面进行隔离设计,并采取 “单位架构”设计模式,削减故障产生的可能,并尽量下降故障产生时的影响规模。 亚马逊云科技办事分为节制平面和数据平面,并对他们进行分手设计,即数据平面不依靠在节制平面而自力运行,当节制平面产生故障的环境下数据平面仍能继续正常运行。此中,节制平面供给用在建立、读取/描写、更新、删除和列出(CRUDL)资本的治理 API,例如启动新的 Amazon EC2 实例、建立 Amazon S3 存储桶和描写 Amazon SQS 队列等。数据平面是供给办事的首要功能,例如正在运行的Amazon EC2 实例自己、读取和写入Amazon EBS 卷、在 Amazon S3 存储桶中获得和放置对象等。节制平面常常是复杂的调和和聚合系统,会履行多项使命;数据平面则没那末复杂,比拟节制平面其产生故障事务的可能性要小。这近似在火车系统,节制平面相当在批示中间,数据平面则是铁线路路,当批示中间如通信系统呈现姑且故障时,火车依然能依照既定线路运行。 亚马逊云科技按照区域和可用区的隔离机制和节制平面和数据平面分手的原则,供给三种办事类型:全局(Global)办事、区域级(Region)办事、可用区级(AZ)办事。全局办事的节制平面和数据平面不是在每一个区域中自力存在。全局办事以Amazon Identity and Access Management(Amazon IAM)为例,该办事是全局办事,它的数据平面自力存在在每一个区域(Region),该区域中的每一个云办事都直接与Amazon IAM数据平面交互。Amazon IAM 有自力的节制平面,客户可使用它来治理身份和策略等IAM 资本。当 IAM 节制平面故障的环境下,无需任何更改,每一个区域的身份验证和授权(即IAM的数据平面)都可以继续正常运行。 区域级办事是成立在多个可用区域之上的办事,数据平面和节制平面都是区域级别。以Amazon S3 为例,将要求和数据散布在多个可用区之间,可以主动从可用区故障中恢复。 可用区级办事可在一个区域内的每一个可用区中自力运行,不依靠在其他可用区中的组件,可用区办事可以指定将资本摆设到哪一个可用区,如Amazon EC2属在可用区级办事。客户可以经由过程摆设多可用区架构运行具有更高可用性、容错能力和可扩大性的出产级工作负载。当工作负载利用多个可用区架构时,可以更好地隔离和庇护客户免受影响单个可用区物理根本举措措施问题的影响,即便一个可用区呈现故障,工作负载也能连结运行。 另外,为了进一步下降故障产生时的影响规模即“爆炸半径”,亚马逊云科技还采取了“单位架构”设计模式。该模式将办事切分为多个摆设仓库,每一个摆设仓库称为“单位” ,每一个单位之间都是相互自力的,不同享任何内容,包罗数据库,每一个单位办事在一个或多个客户。采取了单位架构后,以可用区级此外办事为例,办事产生故障的影响规模就限制在单位内,而不是全部可用区。 “经验没有紧缩算法”——经由过程出色的运营和机制确保云办事的韧性 亚马逊云科技还成立内部运营机制,经由过程办事责任模子、运营停当审查、平安/延续摆设和毛病流程纠错来确保云办事的韧性。此中,亚马逊云科技的工程和产物治理工作由小型多学科团队带领,他们对所供给的办事具有壮大的所有权——不但负责设计和发布办事,还负责在出产进程中运营办事,并在呈现问题时随时待命。 在一项办事发布之前,亚马逊云科技还会利用“运营停当审查”流程来审核所有新办事的运营预备环境。当对摆设软件进行办事更新或推出新办事时,亚马逊云科技会利用平安、延续的摆设管道。为了最年夜限度地削减毛病摆设对出产酿成的潜伏影响,亚马逊云科技经由过程利用普遍的预出产测试、主动回滚和交织出产摆设,将主动化摆设平安构建到发布进程中。例如,一项办事的更新会从小处最先,起首摆设到可用区内的单个最小单位,并颠末指定的期待期以验证没有呈现问题,再慢慢摆设到全部可用区的其余部门、其他可用区、单个区域,最后摆设到其余区域。 另外,亚马逊云科技还操纵“纠错流程”,对客户事务进行阐发、研究,找出底子缘由,削减其他办事产生近似问题的可能性,防患在未然。 亚马逊云科技赋能客户操纵“云韧性”晋升“云中韧性” 构建韧性是一个延续的进程,而不是一次性的尽力。为了帮忙客户更轻松地晋升云中利用的韧性,亚马逊云科技基在本身和多年办事客户的普遍经验,总结了一套包括了办事、策略和架构最好实践的“韧性系统扶植生命周期框架”。该框架包括五个阶段:设定方针、设计和实行、验证和测试、延续运营和响应和改良。 亚马逊云科技在每一个阶段都为客户供给了合用的东西和办事。例如,客户可使用Amazon Resilience Hub来设置方针,按照这些方针评估韧性状态开云体育app,并按照Amazon Well-Architected Framework和Amazon Trusted Advisor的建议实行改良办法。在Resilience Hub中,客户可以建立和运行Amazon Fault Injection Service尝试,这些尝试答应客户测试其利用法式将若何响应某些类型的中止。其他办事,如Amazon Backup、Amazon Elastic Disaster Recovery (Amazon DRS)和Amazon Route53 Application Recovery Controller (Route 53 ARC),可以帮忙客户快速响应和从中止中恢复。 正如亚马逊首席信息官 Werner Vogels曾说过“Everything fails all the time”(故障总在情理当中、料想以外),这也是亚马逊云科技从最先并始终增强和成长韧性的缘由。亚马逊云科技将延续为客户供给普遍、深切的架构和运营最好实践办事、东西和指点,帮忙客户在云中构建和运行韧性的利用法式。

欲知详情,请下载word文档 下载文档

北京2024年8月27日 /美通社/ -- 在8月23日举行的2024年长三角生态绿色一体化成长示范区结合招商会上,软通动力信息手艺(团体)股分有限公司(以下简称 软通动力 )与长三角投资(上海)有限...

要害字: BSP 信息手艺

上海2024年8月26日 /美通社/ -- 本日,高端全合成润滑油品牌美孚1号联袂品牌体验官周冠宇,开启全新路程,助力泛博车主经由过程驾驶去摸索更广漠的世界。在全新发布的品牌视频中,周冠宇和分歧布景的消费者表达了对驾驶的酷爱...

要害字: BSP 汽车制造

上一篇:开云-西门子EDA 下一篇:开云-美通社母公司Cision发布CisionOne平台,进军亚太地区媒体监测市场