国家兴亡匹夫有责,从神九用到CAN总线讲起(3)前事不忘,后事之师
这是二个真实的故事,一个是技术层面的,知道了对你可能有用,一个是管理层面的,可能会触动你的良心,使你更为坚强。
有冗余就不会再出问题吗?这里举出例子,说明冗余只有在关键性部位才有用,如果还存在失效单点,就不能保证不出问题了。这涉及常说的短板理论,短板理论是指水桶的容量由最短的那块板决定,别的板再长也不起作用。有的控制系统用了多重冗余,那么能否避免通信造成的故障呢?这要看冗余措施是否对症下药,不然也是空有其表。下面是有4重冗余的系统,它依然失效了:
https://wiki.sei.cmu.edu/aadl/images/9/97/Honeywell-NetworkModeling-AADL-4-17-12.pdf
2008年5月13日12:12分NASA的航天飞机加氢燃料时发生了4台控制计算机的不一致,情况是3比1,3台是一致的,3秒之后,不一致变为2比1比1,诊断时剩下的2台还不一致,4台计算机变为1比1比1比1,整个系统全不一致。但是没有一台计算机有错,它们间的通信也没有错。有错的是MDM FA2仪表盒,它通过多挂接口的总线(类似于MIL STD1553)对4台计算机发消息。查出的结果是数据接口的二极管内有一裂纹,将二极管变为电容的特性了。
据称,在其它实践中还有别的变化例子,如电容变为电阻,晶体管变为可控硅,放大器变为振荡器。
就通信而言,硬件损坏能造成这样的后果,软件故障也能造成这样的后果,例如在电磁干扰下通信接口会有局部的暂时的错,CAN就会有错帧漏检,多重冗余的计算机就收到不同的值,造成不一致。CAN通信接口会局部的暂时的中断服务,也就使冗余的计算机得不到消息,而造成不一致。
又如有的应用采用二条CAN总线来传送同一条消息,或者在同一CAN总线上送二次。这样的措施对错帧漏检是无效的,因为收到二条“合法”的然而值不相同的消息,你是没法判断那条是对的。对这种拜占庭错要用到专门的表决方法(参见:杨福宇,“分布式嵌入系统中的交互一致性“,《单片机与嵌入式系统应用》,2011, No.3,p.4-7)。当采用附加的软件CRC检验时,对检验结果要有一个反馈消息(ACK或NACK),节点间对同一消息要取得一致,更要对这个反馈消息实行表决,通信系统的瑕疵用主机上的软件来纠正,需要大量带宽与充分的响应时间,严格论证多种错误交互影响时的失效概率的复杂性大为增加。
对于广大年轻工程师来说,对自己不了解的东西不妨多问几个为什么,不要觉得是对权威的不尊重,不要别人说已经有了冗余就认为万事大吉了。当你心中有了短板的概念,你就会找到你的系统可靠性上的短板。你的问题也许正切中了要害,也许帮助澄清了问题,甚至挽救了事业,避免了危机。
我在1986年观看美国挑战者11号发射失败实况转播时的印象是永远不会忘却的。我在这里提这件事是因为它已经久远,现在当权的人已经没有印象,许多80后的工程师还没有出生或难以记忆那时发生过的事。当时现场的人们就在渡假,无比轻松愉快,孩子们欢呼地送他们的老师进入舱门,但是73秒后爆炸夺取了7名宇航员的生命,人们惊恐万状,难以面对这一悲剧。那时我在英国,与同事谈起此事时,大家的表情都十分沉痛,因为那不只是美国的挫折,也是全人类的挫折。现在,真相已披露出来,请看:
挑战者号航天飞机_百度百科http://baike.baidu.com/view/317208.htm
“其实本来这场事故本来可以避免。在发射前13小时,一位重要工程师向公司上级召开了电话会议,指出了上次“挑战者”号的发射由于助推器O型环失效差点毁灭,但上级由于急着完成快捷而便宜的太空旅行,保持了自己的观点。“
“博伊斯乔利在总统委员会的听证会上对瑟奥科尔公司的经理们连连发炮。他的做法受到公司的指责,公司认为他不该把相关的文件披露给总统委员会,同事们更是对他怀恨在心,因为他打碎了他们的“金饭碗”。“
“挑战者”的悲剧在于,博伊斯乔利在发射前6个月就对“O圈”提出质疑,因为一年前他曾亲自跑到佛罗里达,对上一次发射时使用的火箭进行了检查,让他吃惊的是,第一层“O圈”失灵,热气跑了出来,幸运的是,第二层“O圈”拦住了热气。博伊斯乔利现在仍保存着当时拍摄的“O圈”照片,本应是蜜色的润滑油被熏成了黑色。第一层“O圈”的很多部分不见了,很显然,它们被烤焦了。他说:“我看到这一切时,心口像堵上了一团棉花。那次发射,航天飞机竟然没有爆炸,简直是奇迹!”
“博伊斯乔利的分析引起了宇航局的注意,把“O圈”列入需要认真检查名单。瑟奥科尔公司也成立了一支“特遣部队”,专门解决这一问题。然而,由于器材和人手短缺,课题进展缓慢。作为“特遣部队”一员的博伊斯乔利给瑟奥科尔公司副总裁发去一件备忘录,请求对“O圈”进行全面的更严格的试验。他在备忘录中写道:“我诚实地说,我真的非常担心,如果我们不迅速采取措施,不仅发射会失败,连发射平台也会付之一炬,而最严重的后果将是灾难性的人机俱毁!”
“讨论进行了近5个小时,宇航局终于表示,它不会不听火箭设计者的建议而强行发射。就在这个时候,瑟奥科尔公司副总裁请求暂停会议5分钟。接着,瑟奥科尔总裁杰里·马森就开口说:“我们必须作出一个可操作的决定。”博伊斯乔利马上意识到,公司主管为了取悦最主要的客户——宇航局,态度已从“不要发射”变成了“可以发射”。 公司内部的讨论持续了不是5分钟而是30分钟。包括博伊斯乔利在内的工程师被排除在外,4名高级经理投票赞成发射。博伊斯乔利站起来,抓起那张被烧毁的“O圈”的照片,放到4名高级经理面前的桌子上。但他们连看都不看。老板随即接通了电视会议,通知宇航局,瑟奥科尔的态度有了变化,“挑战者”可以发射。在随后的一段时间里,宇航局一直在询问瑟奥科尔公司关于发射的问题,但就是没有问一问瑟奥科尔高层为什么突然改变了主意,他们只是请瑟奥科尔公司把他们改变主意的原因写成文字。当载着新建议的传真在午夜时分传到卡纳维拉尔角时,宇航局已经下定了在第二天上午发射“挑战者”的决心。悲剧于是发生了……“
我之所以大段引用,是因为在我们周围仍然存在着这样的土壤:有人可以为了一己私利不顾大局;有人可以为了取悦客户不惜冒险;有人为了自己的金饭碗打击那些正直的讲科学的同事;….。
所以当你们在这种环境中奋斗时不仅要增长自己的知识,更要有负责任的决心与勇气,你的肩上有我们的寄托。
|