智能出行已经成为一个非常明显的发展趋势,其中低空经济目前是我国制造业等领域内的最热话题之一,越来越多的制造商正在考虑开发新型无人机和飞行汽车等低空设备;同时我国已经连续十多年登顶世界最大汽车产销国,每年3000万台的汽车产销量足以推动更多的自主创新。由智能化、网联化、电气化和服务化组成的“新四化”不仅影响了汽车行业的发展,而且也成为了这两个领域内的厂商打造智能出行解决方案的创新机会。
所有智能出行系统产品都需要新的计算、通信和连接芯片的支撑,例如用于控制的微控制器(MCU)、用于计算的中央处理器(CPU)、用于渲染和人工智能计算的图形处理器(GPU)和用于可编程计算的现场可编程门阵列(FPGA)等。但是随之而来的是这些芯片的系统级故障或意外行为可能引起的危险,因此在设计这些芯片和构建系统的时候就需要发现这些故障或意外,并提供相应的措施来确保这些低空飞行器和汽车芯片功能安全(Functional
Safety,亦简称FuSa)。
为了保障这些场景中的电子系统能够满足功能安全需求,汽车和航空产业制定了相应的标准。汽车行业的功能安全标准是ISO 26262,它是一种源自IEC
61508标准,该标准目前随着汽车智能化程度加速提升而越来越为行业和用户所熟知。
航空电子产品则往往适用《航空器机载电子设备硬件设计保障指南(DO-254)》,以及作为其补充的AMC
20-152A标准,它们是工程师在开发航空机载电子设备硬件时的通用标准,也是设备获得适航证必须通过的标准。随着智能网联技术的发展,一些新的标准在智能汽车、低空设备和航空电子设计设计中都被采用,但是主要是集中在信息安全领域,而不是本文讨论的功能安全主题,例如ISO
21434网络安全标准。
为汽车和飞行器芯片的开发和电路设计建立所需要的功能安全标准,就为相关芯片或者系统的开发者带来了明确定义的可靠性指标和操作安全性规则,从而降低电子电路的运行故障或者意外行为的发生,同时也为产品开发商在选择相应解决方案时提供指导。例如,飞机起落架的控制系统及芯片所需的功能安全等级就要高于飞机上厨房灯光控制系统和芯片的等级。要实现不同的功能安全等级,就要根据安全要求制定相应的安全策略,并在产品的设计和制造等环节开展相应的创新。
汽车功能安全领域内的创新开始涌现
在汽车应用中,具体到一款MCU、CPU或者GPU,或以它们为核心的SoC或者专用集成电路(ASIC)上,功能安全就是要确保芯片功能按照设计的要求去运行。如果一辆汽车不能按照你设计的功能去执行,那诸如目标和指示牌识别、减速刹车或者其他自动驾驶功能可能就会失效,这个时候就很危险并为驾驶员、乘客、路人、车辆和其他财物等带来了威胁。所以功能安全很重要,但也需要付出一定的成本,比如额外的芯片面积,招聘有经验的设计人员,执行严格的功能安全研发流程,进行安全认证等。这一切给汽车芯片设计制造企业及车厂和一级供应商等环节带来了更高的成本和更多的工作量,使许多车厂最终选择了忽略或者降低功能安全要求的行为,这在先进驾驶员辅助(ADAS)和自动驾驶(AD)越来越普及的今天带来了更多不安全因素。
目前市场上主要的功能安全解决方案有两种:应用最广泛的一种被称为“锁步(lockstep)”解决方案,这是一种比较简单粗暴的方法,在汽车CPU中被广泛使用。该方法就是用两个处理器内核等同样的逻辑来执行一个程序以实现同样的一个功能,由它们同时执行并在执行完了之后来比较这个结果,看看这两个结果是否一致。在受到高温或者高湿影响时,如果这两个内核得到的两个结果是一致的话,那证明这两块逻辑是运行正确的,有关计算和控制还能正确地执行。但这种方案带来代价是什么?代价就是两套相同的计算和处理单元要消耗多一倍的芯片面积,或者就是面向同样处理功能的汽车芯片的面积要比传统的手机芯片的面积要大一倍。
第二种实现功能安全的办法就是去把同一项工作执行两次,如GPU渲染两次或者CPU计算两次,再看一下这两次数据处理运算的结果是否一致。如果两次运算的结果不同就会发现错误,因为汽车的使用环境非常复杂,芯片里面有些错误是随机错误,那有些错误是长期错误。对于随机错误,通过重复执行两次比较一下结果,如果是不一样就上报情况以确认这个功能有问题。这种重复执行的方法就可以避免一些随机错误。这样的方法带来的结果是什么?因为重复工作所得到的性能就会减到原来的一半,所以这也可能是用户没法接受的方案。
因此,无论是锁步方案还是重复执行方案给汽车厂商和芯片厂商都带来了甚至是没法接受的挑战,这也导致了功能安全在许多实际汽车应用中很难得到全面的接收。最主要的原因为性价比,因为芯片面积增加一倍或者是性能降低为二分之一,对于厂商来说它的成本也就增加了一倍。这个增加一倍的成本,最后都要转嫁到消费者头上,在过去汽车智能化程度比较低的情况下,没有太多客户愿意为这个功能安全买单,所以没有急迫性一直没有得到全面的应用。但汽车智能化这一趋势正在迫使行业做出改变。
不久前,全球汽车GPU领域内在功能安全技术方面也出现了一个颠覆性的创新,这种创新被称为分布式功能安全机制(Distributed Functional
Safety),它利用了GPU的一些特性来非常灵活地实现了功能安全机制:第一个特性是:作为一种并行处理器,GPU里面有一套并行计算的机制,GPU为了掩饰和隐藏延迟,在计算时采用了并行的很多线程或者重复单元;第二个特性就是当一个线程拿不到它要执行的资源时,它就会自动地被切换出去或者把它移出执行,等到它有资源来到的时候再去执行。
根据这两个特性,在GPU的一个线程停工等待的时候,就在其中插入一些测试模板或者测试集;利用同样的测试集,在另一个线程处于等待的时候,也插入同一个测试模板或样例,然后执行这两个测试。在执行完了这两个线程之后,对比结果就会知道这两个线程执行的结果是否一致,如果有不同就会上报结果提醒系统和用户审核该功能是否安全;该机制也知道了一项功能具体在哪一个硬件上去执行,就保证了这些执行的硬件的功能安全。分布式功能安全机制几乎完全消除了以前的其他两种机制带来的性能以及片芯面积损失,大大降低了实现功能安全的代价,它仅仅额外消耗了大概10%的片芯面积,用10%的片芯面积带来了100%性能,可以实现ASIL
B等级的功能安全性。
展望:低空经济兴起推动航电功能安全性技术创新
作为一个非常成熟的产业,航空工业已经为机载电子系统建立了一整套非常完善的适航验证体系,在开发相应的航电产品和芯片时,可以根据这些产品的用途参考DO-254标准和A
20-152标准,以及 在2020和2022年,欧洲航空安全局(EASA)和美国联邦航空管理局(FAA)先后发布的双方联合制定的AMC/AC
20-152A和AC 00-72,新的标准对原有DO-254标准提供了更清晰的补充,以及进行了进一步澄清和指导说明。其他标准还可以参考FAA的Order
8110.105A、Job Aid CEH,以及EASA发布的SWCEH-001和SWCEH-004。
但是随着低空飞行设备的广泛兴起,将给航空电子设备产业带来六个巨大的变化,包括:产业规模的数量级扩大、应用场景的多样化、智能技术的全面引入、单位运力成本快速下降、无人化渗透率快速提升和可升级技术的高频和广泛使用。这些变化给传统的适航认证体系和航空电子硬件设计使用都会带来新的挑战,并促进相关芯片设计企业开展创新以新的技术来获得适航认证,就像我们前面提到的利用GPU的特性来实现ASIL
B等级的功能安全一样。
总之,未来的天地一体智能出行非常值得展望,同时也带来了许多创新机会,包括推动现有适航认证体系的变革,对机载电子硬件适航策略的重新思考,以及针对适航要求和设备定位规划的大量技术创新。这是我国制造业走向更全面的自主创新和高质量发展的一个难得的机会。