云杉网络DeepFlow帮助5G核心网和电信云构建可观测性
为什么5G核心网和电信云需要可观测性?在过去的2021年,其实5G核心网在全球发生了多次影响范围大、持续时间长、社会影响广的故障。2021年的4月份加拿大Rogers发生了一次长达26个小时全国范围的移动通信网故障,故障发生后缺乏快速定位手段,导致故障难以在短时间内定位、消除。
5G通信网的稳定运行是保障社会稳定运行的重要基础,而5G核心网则是5G通信网的枢纽和大脑,是整个通信网运行、维护、保障的重中之中。通过以上事件可以感知5G核心网在运行稳定性上还有待提升,另一方面现有的故障监测、快速定位、快速恢复能力存在短板。
5G核心网的运维困境
云杉网络通过对多个运营商的一线运维技术人员调研和交流之后,发现现阶段5G核心网的运维痛点集中在:(1)云网络"黑盒化":(2)运维技术难度高;(3)故障定责定界难;(4)云平台面向业务的保障难。以下举几个实际例子。
例子一:当PCF出问题的时候,核心网运维可能会联系云平台"我们这里的PCF1服务不正常,看到服务器上有告警,你们赶紧处理一下",而云平台运维可能会觉得"服务器的告警好像和PCF的服务异常没什么关系,是不是PCF软件出问题了?"
例子二:某个VNF升级之后,服务有异常,核心网运维查了半天也找不出原因,最后看到虚拟机有告警,反馈给网络云运维后,很可能得到这样的反馈"升级前后都有相同的告警,升级前没有问题,是不是你们新版本软件的原因?"
追究其原因,5G核心网和电信云是通过通用x86+云技术、容器技术,提供软硬解耦的解决方案,稳定性不确定,更多的需要依靠云、容器的动态、弹性能力提供相对的可靠性。同时,5G核心网完全承载在一个Overlay叠加Underlay的网络上,网元内部复杂的微服务通过一个Full-Mesh的网络互联,网元之间的边界不清晰、路径不清晰,网络基本处于"黑盒"状态。由此也不难看出:可观测性对5G核心网的可靠性运行非常重要!
近几年,云原生可观测性已经成为IT领域解决业务可靠性的重要理论,"可观测性=可靠性"基本成为IT运维的共同认知。所谓云原生可观测性,简单来说就是快速有效的诊断复杂业务系统内部的运行状态。经过近十年的发展,云杉网络从SDN核心技术逐步走向网络自动化和可观测性,致力解决云原生应用诊断难的核心痛点,其中DeepFlow产品在各行各业积累了大量的实战经验,成功帮助数家企业构建多维度、一体化的可观测性平台。
DeepFlow 帮助5G核心网和电信云构建可观测性
DeepFlow是一款面向5G核心网,应对网络功能服务(NFS)解耦后的新挑战,进行网络流量采集、分发、可视化与监控保障的产品。帮助运营商在5G核心网基于服务架构中统一采集网络、系统、应用的可观测指标数据,并动态关联其资源、服务、业务、事件等属性,实现对5G核心网全景性能监控;并提供容器化后网元服务间访问调用的全栈链路追踪,帮助构建5G核心网可观测性能力,应对云原生特点,紧密结合5G服务,解决5G核心网生产中遇到的监控、运维、保障等难题。
1. 多维度、深层次5G核心网全景性能监控
在5G核心网中,自身运行的网络IP节点数量已经百倍以上规模的增长,容器化微服务POD形成一个Full-Mesh的网络,网络的虚拟化、弹性变化,使得整个5G核心网的内部网络"黑盒化"。
对5G核心网来说,可以通过DeepFlow的采集器技术,实现网络+应用的全面可观测性,不用再依赖5GC开发厂商的日志输出能力、指标输出能力、用户追踪数据输出能力。同时借助DeepFlow强大的数据分析能力,可以对5G核心网网元、云平台,从宏观到微观、不同层次、不同维度的全景性能监控。
比如,云平台运维人员:可以从全网宿主机的观测视图,监测云资源池、宿主机之间的流量互访拓扑、业务访问性能;可以从单网元的宿主机观测视图,监测某个网元(比如AMF或SMF)的VNF软件内部的微服务/模块在宿主机上的分布情况,在宿主机之间的互访拓扑、互访性能,快速发现宿主机维度的异常情况。
比如,核心网运维人员:通过VNF网元的维度,观测全网VNF网元SBI口的业务互访关系和业务互访性能;通过VNF网元内部的微服务POD维度,观测VNF网元内部POD粒度的互访关系、互访性能;通过POD到POD的网络全栈链路追踪,观测任意一次客户端到服务端在云网络中的流量流转路径。
2. 跨层、逐段分解网络全栈链路追踪
DeepFlow的网络全栈链路追踪,是解决5G核心网、云平台之间快速跨层故障定界的关键能力,将虚拟化所实现的逻辑通信进行逐步展开,清晰展示每段的网络状态、性能,结合知识图谱及丰富的指标数据,快速定位性能异常的问题范围边界。
对于5G核心网和电信云平台的运维人员来说,目前最头痛事情就是故障的跨层定界,通过DeepFlow跨层的网络全栈链路追踪,可以非常迅速的确定某一次业务访问是否有丢包、时延问题,并快速确定故障发生的位置,从而在云平台和软件层之间做快速的定界、定位。
3. 业务访问从应用到网络端到端追踪
除了全栈链路追踪,DeepFlow对每一次业务访问的应用层实现了应用+网络的端到端追踪。运维人员可以通过系统检索、分析、追踪任意一次访问,快速洞察应用异常。"从客户端进程——>服务1进程——>服务2进程——>……——>服务n"的端到端服务调用关系,每一段服务调用的时延、异常均实现了关联分析,包括每一段服务调用的流量在云网络中的关键路径及时延指标关联分析,可以说DeepFlow实现了应用+网络统一的可观测性,并且深入且细致到每一次业务访问的粒度。
在5G核心网领域,监控、运维、保障都是新难题,作为一家IT网络解决方案厂商,云杉网络将加大创新力度,重点发展5G方面的业务,持续为中国5G高质量发展贡献力量。