实现超大型数据中心运维能力全方位提升。

出品| 优云客户成功团队
本文约2500字|预计阅读时间:12分钟
跻身业务数字化的时代,随着云计算、大数据技术日趋成熟,互联网和传统架构的融合发展,企业所管理的数据中心规模随之剧增,业务应用也日趋复杂。根据Global Market Insights研究预测,到2027年,全球超大规模数据中心市场收入将突破600亿美元。
相关研究指出,超大规模数据中心对维护和支持服务的需求正在不断增加。因此,为了促进业务转型、加速业务迭代,超大型数据中心的运维自动化能力也需要进行高效升级,以应对不断增长的数据量与业务需求。
拥抱“自动化”
破解超大型数据中心业务扩张挑战
在信息化与数字化的今天,我们不难发现,超大型数据中心所承受的运维压力日益渐增,传统的运维模式难以适应业务和IT架构的扩张,需要找到一条高效且安全的路径来实现运维自动化与敏捷化升级。
以广通优云服务多年的某超大型数据中心客户为例,伴随其国内公司业务的发展,核心业务交易量变大,新业务中的在线核心龙头交易应用持续增长,需要的服务器数量也与之剧增。该数据中心的生产环境中运行着10万+的服务器,迫切需要应用自动化工具来实现对IT基础设施、业务应用任务处理和运维流程的高效管理。
在过去,为解决诸如此类的问题,包含该数据中心在内的许多用户会选择结合开源软件进行自研的方式,然而各部门结合开源自研的自动化工具往往较为分散且性能不一,相互调用繁冗,工具竖井化严重,影响业务迭代效率。
比如个别场景需要集成众多自动化工具,在调用期间出现部分工具性能不好或响应慢的情况。亦或是部分工具的高并发能力与负载均衡能力难以支撑起庞大的数据处理需求,执行步骤缺乏敏捷性与灵活性,导致运行不稳定或执行缓慢的问题。
超大型数据中心往往会面临相对复杂的自动化运维场景,如资源交付、巡检、技术变更、配置比对、CMDB资源发现、安全加固等等。其中,巡检、配置比对每天可达到数十万机器次;技术变更、资源交付、CMDB资源发现每周可达到数万机器次;伴随着网络安全重要性的提升,安全加固作业的数量也呈指数级增长。
而传统的运维平台由于执行效率较低,容易造成任务堆积,影响业务上线与处理。如进行一次巡检或一次CMDB资源发现,即会占用大量平台资源,若底座支撑能力不足,则大大影响业务技术变更与资源交付等。
此外,随着云计算的发展,该超大型数据中心也在大力拓展云上资源的使用,随之便会遇到如何对云上云下资源进行统一管理,来更好地助力企业业务发展的问题。
针对以上痛点与难点,广通优云为该数据中心打造了一个支持高性能、高并发与高可用需求的自动化引擎底座,破解工具竖井化难题,同时支持云上云下数据资源的统一纳管,符合云计算时代下的多元运维需求。
“继承与开辟”
超大型数据中心运维自动化升级之路
广通优云为上述超大型数据中心的运维底座实现了平滑过渡与高效升级,构建统一的自动化引擎底座,实现了运维平台的“继承与开辟”。
平台实现了对原有系统历史资产的稳定迁移,同时引入更加先进的执行代理处理新增场景。既保证了业务迁移的稳定性,高效处理上层调用请求及下发命令数亿次;又扩展了平台能力,为数据中心运维进一步发展奠定了坚实的基础。优化后的运维底座具备以下能力特点:
高性能采控通道,满足自动化场景所需:采控通道作为所有请求的流量入口,主要承担着路由分发、安全管控、实时监测等功能,广通优云所提供的高性能采控通道能够支持10W级代理同时接入、每秒1GB数据接入,同时可支持万级代理秒级任务下发,满足自动化运维场景所需。敏捷的调度策略,轻松应对多元调度需求:平台可支持串行、并行、循环以及多级子流程任务调度逻辑,可以通过手动、定时调度、事件触发以及流程触发,满足基础架构自动化、应用自动化以及业务自动化等各类调度场景。云上云下一体化,实现资源统一纳管:面向所有自动化操作,提供统一管控与编排,以场景化思路贯穿云上云下,达到日常运维场景一体化的自动化目标,实现自动化能力的标准化、服务化输出,支撑数据中心各类场景的建设。LocalAgent(本地代理),灵活扩展快速响应:本地代理通过保持长连接,瞬时高效地处理服务端的请求,可以通过灵活的插件以及脚本扩展,快速丰富自动化能力。运维任务与业务应用,全方位安全保障:任务调度提供二次认证、复核审批、高危拦截等确保任务执行安全,通过通信加密、单向访问、低资源占用、自保护机制等确保代理安全。从而全面保障主机上的业务应用不受运维作业影响。“运”有成效
超大型数据中心运维能力全方位提升
广通优云赋能该数据中心实现新老平台无缝衔接和高效升级,形成了一个统一的自动化引擎底座,在多中心、高可用、系统自愈等层面持续优化,实现了系统分级、主副双活和异常场景自愈,进一步提升系统稳定性及性能。
平台充分考虑了数据中心业务灵活性及底层架构的坚实性,保证上层灵活适配业务,底层技术稳定保障大并发考验。平台纳管服务器达10万+,对多地多中心所有服务器的统一管控,满足“一个入口,管理所有”的目标。
该项目可支持万级并发任务的下发式操作与实时交互式操作,平台下发加上报耗时在一秒内,为非业务原因成功率近100% ,每月累计的自动化请求数近千万,相应的服务器操作任务为数亿次,实现了数据中心执行效率及稳定性双提升。
同时,平台通过标准化能力沉淀运维成果。脚本及编排通过测试与审批后,进入统一的脚本和任务编排库,利于团队智慧的沉淀及共享,显著提高任务执行质量,减少重复性工作量,快速提升工作效率。
写在最后
随着云计算时代变革与超大型数据中心的蓬勃发展,广通优云集成多行业头部客户的运维经验,沉淀运维知识方法论,结合丰富的技术开发与产品服务经验,紧跟时代发展的步伐及客户持续演进的需求,赋能超大型数据中心实现可持续运营,让数字化、自动化与智能化升级更进一步!


还没有评论,来说两句吧...