快捷搜索:

您的位置:金莎娱乐 > 互联网 > 先看看应用工作流,托管与云计算之间的IT业务连

先看看应用工作流,托管与云计算之间的IT业务连

发布时间:2019-10-23 13:37编辑:互联网浏览(161)

    对于服务器、存储设备和网络的可用性,最好的策略是在谈判时就确定SLA,以便于指定可用性保证和发生故障时恢复服务的时间。用户应当了解在云计算数据中心所在的区域是否会经常发生诸如飓风或暴风雪这样的灾害性天气,这一点是非常重要。同时,还应确定数据中心是否配有备用电源,是否配有一个能够接替正常工作的备用数据中心。

    原文链接:

    灾难恢复应该只被视为最终的安全网。企业的IT平台宕机每一秒,就会付出相应的成本。业务连续性应该是目标,因为它使得组织能够在IT平台的任何部分不会发生故障,而不只是尽量减少停机时间。

    尽管云平台会发生故障,但企业对云的信赖度依然很高。Gartner 研究主管 Sid Nag 曾表示,云服务市场的增长速度比几乎所有 IT 市场都要快,其中大部分增长是以传统非云服务为代价,尤其是基于云计算的 IaaS 需求在继续增长,预计将在未来 5 年呈现最快增长趋势。

    与东华软件、AWS、京东金融、饿了么四位大咖探讨精准运维!

    通常,包交换网络和云计算服务的可用性和性能违反都是基于一个相当长的报告期的——即每周或月的停用情况。所以最好采用“停机间隔时间”这样的协议而不是简单的故障次数,因为后者无法涉及平均修复时间。响应时间SLA也是很难成文的,因为我们很难正确地测量响应时间。如果你的SLA中包括有响应时间,那么就需要花时间来让双方确定将如何对响应时间进行测量。

    企业更多地依赖云或托管业务连续性吗?

    最后,通过堡垒机或者云平台自带的审计功能,至少知道发生故障时干了什么,怎么干的,这样恢复环境比较容易。

    最好的可用性管理必须是与应用程序本身集成。任何时候,数据库更新都是对多个副本同时进行的,如果在更新过程中发生了故障,那么数据完整性就存在着丢失的风险。联机事务处理系统通常包括一个“两阶段提交”的过程以确保不会由于无法成功更新所有数据库副本而发生问题。有时,单个数据库的更新也会因为网络故障而处于一个不确定的状态。有必要审查专为确保网络故障或数据中心故障而开发的应用程序,从而确保所存储的数据库不会发生数据受损或不一致的风险。

    定义云计算SLA的边界

    当企业与供应商洽谈构建云计算和IT业务连续性计划时,确保平台的所有方面都采用了设施内的适当冗余,其中包括冷却系统,不间断电源和其他辅助电源系统。

    近日,一则阿里云平台发生宕机的新闻引发众网友关注。细数这两年,国际主流云厂商在安全性和可靠性层面做了不少努力,但所有服务都不可能百分百稳定,企业应该思考的是在问题出现时如何自救,而不是坐以待毙。

    原标题:怎样最小化云宕机事件的影响?

    对于SLA 中的经济处罚,应将处罚金额限于在中断期间服务成本以下作为基线,如果中断情况严重,那么可加上整个测量间隔服务成本。你是否有机会得到这样一个惩罚性条款将取决于你的合同规模以及你成为供应商未来客户的潜力。

    图片 1

    备份数据中心必须位于不同于主数据中心的另一区域,所以它就不会受到相同问题的影响,同时它还必须拥有足够的容量以处理云应用的故障转移。由于很少有供应商能够为主数据中心的100%故障转移提供足够的备份数据中心容量,所以SLA将说明如何管理故障转移。

    SLA中的最后一个问题就是违规行为的检测,以及处罚和补救程序。一般而言,你或者你的云计算供应商或者其他的网络合作方都不会根据其中某一方的参数测量结果来接受一份SLA。好的SLA会在各方都同意的基础上定义一个边界测量点供独立测量使用,从而进行状态验证。你自己的SLA应确定这些点、将进行的测量以及用于确定是否违反SLA的被测条件。

    【编辑推荐】

    从统计上看,中小企业的运维水平远低于主流云平台,故障概率要高得多,损失更不可控。因此,不必对云服务故障抱有恐惧,只需要保持正常的认知和高度灾备意识即可。

    必须解决云应用的弹性问题

    【编辑推荐】

    那些数据的存储费用仍然比较昂贵,它们基本上是在主站点上发生的事情的完整镜像。

    在这种情况下,企业首先应该反问自己,如果不用云平台,解决方案是什么?常规的解决方案,比如定期备份归档策略,包括服务器、数据库、存储等方面。

    免受云宕机事件影响的第一步就是要评估云厂商数据中心的可靠性。大部分的云厂商都拥有着很少数量的数据中心,通常情况下只有一个,而这些数据中心易于产生与企业相同类型的故障。最广为人知的云计算故障往往是那些整个云计算数据中心发生故障的事件,通常都是由于自然灾害而发生的故障。为了在有可能发生的故障中保护好你自己,你必须要求特定的数据中心配置信息或从你的供应商那里获得可用性保证。

    思考混合云计算工作流程

    虽然这种冷映像方法更多的是备份和恢复策略,但现代云平台可以在很短的时间内切换映像,只要数据被同步镜像即可。这远远优于从数据备份中恢复一切,其中真正的问题是尽量减少恢复点目标和恢复时间目标之间的时间。

    无论是传统环境还是云环境,都不能做到绝对的“持续可用”。大部分情况下,云环境的可用性和可靠性都比传统环境要高,这主要是因为云平台的运维更加专业。既然任何环境都有出现故障的可能,那么需要重视的问题就是“发生故障时,应该怎么办”。

    云计算并不是天生就是不可靠的,但是如同所有的IT形式一样,必须仔细挑选和管理云服务以实现特定的可靠性和可用性目标。这些步骤可以是合同形式的、是技术形式的或者甚至可能需要重新思考你的应用程序架构。如果没有经过慎重考虑,那么你从云计算中的收益可能要少于你的预期。

    图片 2

    托管的业务连续性挑战

    近两年,因为云平台宕机造成的事故数不胜数,比如 Gitlab 曾因误删除引起服务中断 18 小时,并且无法完全恢复;亚马逊 AWS 因一条错误指令引起宕机,随后大部分互联网,包括 Slack、Quora 和 Trello 在内的企业平台停机 4 个小时;微软 Azure 公有云出现超过 8 小时的存储可用性问题;亚马逊 AWS 访问存储块出现问题,影响 S3 存储服务;谷歌自动化失效引起停运 93 分钟;亚马逊 AWS 北弗吉尼亚地区数据中心出现硬件问题等。

    云计算故障的最常见原因通常并不是云计算,而是网络。大部分的云应用都是通过互联网进行访问的,而互联网可用性则是大多数云宕机事件的罪魁祸首。解决这个问题的唯一方法就是采用虚拟私有网络(VPN)或虚拟局域网服务,或确保同时让多个互联网服务供应商(ISP)提供服务以供网站访问云应用使用。如果安全性和合规性问题可以得到解决,并得到供应商的合同确认,那么这是一个很不错的选择。除非云厂商已经使用了运营商提供的VPN服务,否则很可能需要你支付一笔特殊费用。

    公共云计算服务在其范围内提供了令人难以置信的灵活性和效率,但是其广度范围取决于服务成本、可用性以及性能。这提供了评估云计算SLA中常见错误和最佳实践的信息。其涵盖内容包括响应时间SLA、从网络供应商和云计算供应商处获得保证,混合云计算SLA问题等等。

    企业在构建IT业务连续性计划时,云计算平台可以提供比数据中心托管具有更灵活和更具成本效益的方法。然而,许多托管提供商与云计算提供商合作,并提供混合应用的可能性。

    按照此模式,云下系统做云上灾备也是防范传统环境出现可用性问题的一种重要手段。作为企业的 IT 人员,日常做到以下四点可以尽可能避免云故障带来的损失。

    责任编辑:

    对您的云计算服务进行评估并编写SLA要比为简单连接服务(如虚拟专用网VPN)制定SLA要复杂得多。为了正确评估云计算SLA,应了解云计算体验的细节以及实际上是由谁来提供它们。寻找应用程序的工作流程,因为关键应用程序问题可以毁了一个很好的SLA。此外,要确定你有一个实际可行有效的验证和补救方法。

    对于站点级业务连续性,组织必须在不同设施中为其镜像站点支付费用,并面临保持远程同步的挑战。因此,为托管构建完整的IT业务连续性计划仍然可能非常昂贵。

    在云计算出现之前,企业内部自建数据中心依旧会出现很多问题,不少问题甚至是致命的。上云之后,公有云厂商至少可以帮助技术能力有限的企业进行合理范围内的监控、预警和备份。不可否认,云的出现确实解决了现阶段企业在计算、存储等方面的很多问题,但完全依靠云计算厂商提供安全性的做法是不可取的。

      9月15日技术沙龙

    如果SLA只关注于这一过程中的某一点(例如与公共云计算托管相关的一部分),那么SLA是没有用的。如果这一工作流程的任意部分中断,那么应用程序就会发生故障。如果这一流程中的任何部分发生性能问题,那么应用程序的使用体验质量就会受到影响。当其他环节只是得到笼统的保证时,那么只是针对云计算内性能或可用性的严格要求是没有任何好处的。

    为了实现灾难恢复安全,为企业的数据中心构建IT业务连续性计划。但在企业实施之前,需要权衡使用数据中心托管与云计算的利弊。

    (本文章转载自infoq, 如有侵权, 请联系作者删除)

    网络性能问题或缺少将导致云宕机事件

    让所有参与者都确保SLA

    当涉及到构建IT业务连续性计划时,团队应该采用不同的方法来获取托管和云平台的服务。

    企业应该具备容灾意识,并在故障发生的第一时间采取措施弥补损失。因为云而产生的故障风险一般分为两类:一是因为误操作导致的问题(其实用不用云服务都有这个问题);二是云平台故障导致的问题。

    期望云应用能够具有比内部应用相同或更高的可靠性是不合理的。此外,你所设定的可靠性和特定目标可能会让你花费很多。当构建你的业务案例时,请记得考虑可靠性成本,或者你可能会发现你的应用程序必须在可靠性和成本之间作出某种妥协。返回搜狐,查看更多

    由于云平台在多个用户之间共享,良好架构的云平台将已经涵盖任何单一设备故障,它在很大程度上遵循N M模型。然而,在云计算中存在太多的故障,其中提供商仅在某些区域(诸如存储区域网络中的光纤通道控制器或者广域网连接)中实现N策略。

    其次,分散风险。云环境的同城双活、异地灾备等方案基本就绪,尽量在经济和人员条件可行的情况下使用这些分散风险的方法。如果故障只出在一个服务器集群,采用异地灾备方案可以在最快时间切换到另一个集群,从而保持系统可用。虽然还是会有中断,但是可以最快时间恢复。

    随着小型企业的互联网服务成本不断下降,为一个分支办公室提供两个ISP就成为可能。但是,请确保在两个办公室之间没有共同的故障点。通常,可在多个供应商之间共享对等点和共享互连“酒店”。即使是ISP之间最普通的访问布线,也有可能使双网络连接的好处落空。

    补救或处罚始终是一个棘手的事。很多用户认为,如果发生SLA违反(也就是通常所谓的间接伤害),那么他们就可以根据业务损失得到赔偿。这种情况是极少发生而且代价昂贵的;与其试图通过谈判来兑现这一协议,还不如花功夫想办法让你的应用程序具有更高的可用性。

    热映像仍然比较昂贵;它们基本上是在主站点上发生的事情的完整镜像。由于云计算资源的弹性,它们可以在没有多余的资源的情况下被占用,因为工作负载需要从主站点切换到备份站点。

    在云计算环境下,平台基本都提供类似功能,例如服务器有快照,数据库和日志有备份等。这些功能都“实用性”地提供了解决方案,并且比自己构建类似服务要简单好用,但很多企业为了节省成本可能并未接受云厂商的服务,此时就需要依靠企业自身的技术能力。

    SLA降低了使用云厂商数据中心而产生的风险

    遵循应用程序的工作流程

    企业通过与云计算提供商对话,以确保企业有一个远程的IT业务连续性计划。一种具有成本效益的方法是保存所需应用程序的镜像,如果主站点关闭,那么这个应用程序应该准备好接管。对于高优先级工作负载,可使用已在远程站点上配置和运行的热映像以及镜像数据存储。而使用冷映像,需要切换到活动的操作状态,主要是那些相对不重要的工作负载。

    未来,云服务很可能像水电煤一样成为基础设施,即便是这些基础设施,我们也无法保证百分百可用。因此,如果自身服务非常重要,可以考虑租用多个云服务互为主备,甚至自建机房,只是这样成本和技术复杂度会成倍增加。

    如果云计算数据中心和云计算网络故障问题都已解决,那么下一个问题就是应用程序本身的弹性问题了。管理高可用性和云服务的最大问题都涉及数据库访问和可靠的事务处理。

    云计算服务买家对于云计算SLA的最关键错误是忘记所有应用程序都是真正的工作流程。一个通过网络连接从用户发向应用程序的请求通常是由多个组件组成的。然后,该请求会导致产生流向其他组件的工作——在云计算内的或者返回数据中心的——以及对位于云计算内外数据库的多次访问。最终,通过网络向用户返回响应结果。

    有了云计算,注意你的SLA

    其次是权限问题,云平台的账户权限管理严格避免无意或者恶意的误操作,就像传统环境下,如果 root 口令全公司都知道,那么出了事情也不奇怪。

    在这种情况下,为优先级支付费用可能是必要的。如果你的云服务包括了地理多样性以支持分布式的用户群体,那么你自己的各种设施就可以为云厂商故障提供某些保护措施;仔细检查你的合同以确保有足够的容量来处理额外的负载。

    通常SLA中的最大问题是网络连接问题,因为在大多数情况下,除了在云计算本身内部的情况外,云计算供应商是不会提供网络服务。如果你希望严格的SLA,那么你将需要为网络服务编制一份SLA。所以,你应当首先确认你的云计算供应商是否会提供一个VPN或者他们是否能够与你所使用VPN服务的供应商进行协作。在很多情况下,你仍然需要使用互联网来实现用户的连接性,但是VPN将为你提供一个你希望获得保证的坚实网络边界。

    图片 3

    1、备份、备份,还是备份,要异机异地;2、数据容灾;3、业务双活;4、定期对灾备和双活进行演练。

    如果一个数据中心发生故障,即便另一个备用数据中心能够备份使用这些数据的应用程序,在数据中心中所存储的数据都是不可用的。除非是在多个位置的“热待机”状态维护应用程序数据,否则一次故障都将导致数据访问丢失,从而使其它冗余措施都大部分实效。这个问题同样也存在于内部数据中心备份,因此那些为他们自己数据中心提供冗余的企业会发现相同的措施在云计算中也会同样有效。与其说这是个技术策略还不如说这是个金融策略;由于云计算存储和服务费用的原因,在云计算中维护冗余数据的成本要更高。一个更好的解决方案是把你所有的内部数据都布署在一个高可用性的受保护数据中心中,并从多个云计算位置进行访问。

    用户报告说,SLA中最有用的处罚是一个自动升级条款。如果发生SLA故障,应向供应商运营中心报告这一故障。如果在规定时间没有解决这个问题,或者故障发生频率超过了某一阈值,那么就应向供应商的管理链发送这一故障通知——让更高层人员来负责检查问题并亲自与你联系讨论状态更新和补救措施。这一条款可确保高级管理人员能够关注你的问题,从而提高问题解决的概率。

    冷映像与热映像

    接受风险,这一点很重要。对于现阶段国内的云计算发展进程来看,上云是不可避免的,在这种情况下,企业应该保持正确的心理,毕竟只要是系统,都会发生故障。国内主流云计算厂商已经投入了大量精力和成本在可用性和可靠性层面,这肯定要优于不少技术能力不足、成本有限的企业自建服务器。如果出现这种情况,那么走应急预案,用非系统的方式尽量降低风险。例如,某个服务宕机了,及时在官网做出声明。

    评估云计算SLA的另一个问题是无法让所有相关参与者都确保SLA。云计算工作流程通常涉及三方——企业本地自有网络的员工、让员工访问云计算的网络供应商以及云计算供应商。具体可能还涉及企业的数据中心(网络与托管)和提供“云计算至数据中心”连接的另一家网络供应商。供应商通常不会撰写或接受用于处理他们所不涉及工作流程环节的SLA。你需要让他们同意成为他们为此收取一定费用的“主要承包商”或者为所涉及的每一方得到或编写一份SLA。

    托管的问题是组织仍然拥有放置在数据中心设施内的所有硬件。正如企业在自己的数据中心内部实施的内部部署平台一样,希望采用“N M”冗余策略:对于每N台设备,应有M个冗余设备来处理任何单个项目的故障。然而,这意味着企业很多设备支付更多的费用,以防万一。这涉及资本成本以及许可证,设备维护,电力和空间等多种因素。此外,这只提供低级设备故障保障,一般是通过将工作负载从一台设备切换到另一台设备来维持业务连续性。

    混合云计算中的“边界交叉”也会产生SLA问题。工作流程遵循应用程序和业务逻辑确定的路径,如果这些路径在数据中心和云计算之间形成了多个可变交叉,那么就出现了性能与可用性风险。当确保性能或可用性时,你的云计算供应商是无法触及工作流程模式的移动目标的,因此应试图确保你不会在你希望公司保证的工作流程中引入明显的变量。如果你无法做到这一点,那么你将不得不撰写一份非常详细复杂的SLA来解决所有的变量,而且很多供应商根本就不会接受它。

    冷镜像运营费用低廉,其存储成本低,这应该包括一个商定的SLA,指定它们能够快速启动,有足够的资源,并让事情恢复和重新工作。

    由于企业在云计算中不拥有硬件,因此服务级别协议(SLA)具有一定的控制权。在这样的SLA中,需要确定云计算提供商承诺的业务连续性的哪些级别。

    本文由金莎娱乐发布于互联网,转载请注明出处:先看看应用工作流,托管与云计算之间的IT业务连

    关键词: