芝能智芯出品
在向区域化(Zonal)和软件定义汽车(SDV)演进的过程中,电子电气架构正经历从分布式ECU向中央计算与区域控制并存的重大转型。
以太网逐渐成为车内主干通信网络,承载着动力系统、ADAS、座舱、车身控制等多种不同安全等级和实时性要求的数据流。
这种高度集中、跨域融合的通信方式显著提升了系统效率,但也引入了新的安全挑战:一旦网络发生故障,影响范围将远超传统CAN或LIN架构。

NXP在《Fault-tolerant Ethernet communication in future car architectures》介绍中介绍了汽车EE架构必须从“故障安全(fail-safe)”迈向“故障可运行(fail-operational)”,而容错以太网通信是实现这个目标的关键基础设施。

在L3及以上自动驾驶或高度自动化辅助驾驶场景下,系统可用性要求显著提升。车辆在发生故障时不能简单地进入安全停止状态,而需要在限定时间内维持核心功能运行,直到驾驶员接管或车辆完成最小风险机动(MRM)。
这意味着通信网络不仅要具备检测故障的能力,还必须在部分故障存在的情况下继续提供关键服务。
传统端到端(E2E)保护机制只能发现通信异常,却无法防止功能丢失,更无法阻止故障扩散。因此,网络本身必须具备容错能力和结构性隔离能力。
从功能安全角度看,汽车系统中的故障主要分为两类:
◎ 系统性故障和随机硬件故障。系统性故障具有确定性,通常源于设计缺陷或流程问题,只能通过开发阶段的规范、验证和架构设计来预防;
◎ 随机硬件故障则具有概率分布特性,在产品生命周期内可能随时发生,例如器件老化、瞬态软错误或电气应力导致的失效。
ISO 26262将故障定义为可能导致元件或系统失效的异常状态,包括永久性、间歇性和瞬态错误。
在高ASIL等级功能中,如线控制动、线控转向或L3最小风险机动,系统必须同时满足极低的危险失效概率(PMHF < 1 FIT)和极高的单点故障覆盖率(SPFM > 99%)。



为了应对随机硬件故障,汽车以太网通常采用静态冗余架构,例如通过双路径网络、802.1CB帧复制与消除或VLAN冗余机制,实现通信链路和节点的备份。当主路径发生故障时,系统可以无缝切换到备用路径,保持数据传输不中断。
然而,这种冗余设计主要针对“独立故障”场景,如果故障在多个通道同时发生,或一个故障触发了连锁反应,单纯的冗余就无法保证系统安全。
更危险的是级联故障,即一个故障通过共享资源或内部耦合机制影响到原本独立的冗余通道,从而导致主、备路径同时失效。
在区域化和中央计算架构中,共享资源越来越多,例如电源、交换核心、TCAM表项、配置管理单元等,这些资源一旦发生异常,可能同时影响多个通信端口和功能通道,形成隐蔽的单点失效风险。
比如,端口对地短路会导致供电电压下降,影响同一供电域内的其他端口;TCAM故障可能导致转发表指向错误端口,引发流量异常甚至网络拥塞;软错误可能破坏端口配置,而全局重置又会导致超过200毫秒的通信中断,这对于MRM来说是不可接受的。
依赖冗余路径并不足以满足高安全等级系统的需求。关键在于引入“故障隔离区域”(Fault Containment Regions, FCR)的架构思想。
FCR的核心目标是将故障的影响范围限制在最小功能或最小系统单元内,防止一个通道的故障扩散到另一个通道,从而避免级联失效。
通过在中央计算平台、区域控制器以及网络交换设备内部划分多个相互隔离的功能区,可以在发生故障时实现局部降级,而不是全局瘫痪。



在中央或域控制器内部,将处理器划分为多个独立的子系统FCR,每个子系统包含自己的CPU核心、数据存储和外设资源,并由安全管理器统一协调。
安全管理器既支持全局安全状态,也支持多个本地安全状态,从而允许部分功能进入降级模式,而不影响其他关键功能运行。
在区域控制器侧,FCR还需要覆盖电源域、以太网交换机、气囊控制模块和USB等不同安全等级的功能模块,避免QM等级的功能干扰ASIL-D功能。
针对具体的故障类型,针对性的FCR解决方案。
◎ 对于短路故障,通过独立电源供应、子模块电流限制以及过热检测与自动断电机制,可以在毫秒级切断故障区域的供电,防止电压跌落影响其他端口。
◎ 对于TCAM故障,交换机需要具备快速故障检测能力(典型FHTI约10ms),并阻止错误指针指向无关端口,从而避免流量被错误转发。
◎ 对于软错误,系统应支持局部修复和独立重配置,而不是全局复位,以保持链路连通性并避免重新建立连接所需的长延迟。



从系统层面看,具备FCR能力的以太网交换机必须支持四项核心功能:故障检测与定位、故障隔离、诊断以及本地恢复,交换机还需要将故障源信息上报给整车安全管理系统,满足ASIL-B(D)等级的系统性能力要求。
对于软错误,应尽可能在本地进行修复;对于永久性错误,则应将受影响端口或功能切换到安全状态,而不是影响整个网络。

这种“局部失效、整体可用”的设计理念,是未来高安全等级汽车网络的核心特征。

从架构演进的角度来看,区域化和中央计算虽然提升了算力利用率和软件灵活性,但也放大了通信网络在整车功能中的关键性。
一旦网络失效,分布式执行器和集中式决策之间的协同就会被切断,直接影响制动、转向和动力系统的安全运行。
因此,NXP强调,故障可运行系统必须配套容错通信网络,而容错通信网络的基础是结构化的故障隔离区域设计。
在最小风险机动场景中,系统通常只有约200毫秒的时间窗口来完成安全状态切换。如果此时冗余通信路径因级联故障同时失效,车辆将无法获取必要的传感器或执行器反馈,从而失去安全控制能力。
通过FCR机制保持通信可用性,可以避免端到端保护机制触发紧急中断,确保关键控制链路在降级状态下仍然可用,这对于L3及以上自动化功能尤为重要。


小结
NXP在这份介绍中构建了一套从故障分类、风险分析、冗余设计到故障隔离的完整技术逻辑。
其核心观点可以归纳为四点:故障可运行系统离不开容错通信网络;仅靠冗余不足以防止级联故障,必须引入FCR;交换机等网络核心设备需要具备检测、隔离和本地恢复能力;通过保持通信可用性,可以避免系统进入不可控的安全停机状态。
对于未来的区域化、软件定义汽车架构而言,这种以通信可靠性为核心的安全设计,将成为实现高等级自动化和复杂功能融合的关键基础。
原文标题 : 汽车SDV架构中的容错以太网通信
(来源:维科网)








