未来索引
开启左侧

为什么智能语音把IOT盘活了

[复制链接]
方芝维 发表于 2017-12-1 10:08:18 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
前两天蒋总的朋友问我,如何在自己的豪宅布置智能家居(真是扎心)。交流了各种协议走线问题后,我问他控制中心怎么做,豪哥提出打算用美帝的Control4的触控面板。屌丝终于在此刻找到了自豪感,我淡淡地告诉他,自从用了粗粮家的『小爱同学』,家里的无线开关已经开始积灰了,更不用提智能家庭App了。
虽然无法精确度量,但喜欢窝在沙发上看国剧的我,本能地发现说一句『小爱同学,关闭客厅的灯』要比伸手去找遥控器(或者遥控器替代品)要省时省力,耗能少。某声学项目的FA曾严谨地比较过不同交互方式的优劣(当然他们的结论是Voice First)。 我的理解是,不同的任务,有不同的最佳交互路径,例如对于复杂的长时间输入(例如写这篇文章,或是coding),目前的软件仍然需要键盘的支持。对于多轮次复杂逻辑的交互,由于视觉的反馈很快,触控也具有一定优势(例如重设一部手机,或是在App上买机票)。但如果是单轮轻度输入,语音的优势就会很明显(例如,让小爱/Siri帮忙设置早上7点的闹钟,绝对是Killer App)。更有趣的是,在这个场景下语音将复杂的输入设置(早晨,7点,每天重复,确认)合并了,一气呵成,妙不可言。
但真正让智能语音用起来的,并非单纯的识别技术,甚至不是玄妙的智能对话,我觉得是这种交互第一次突破了距离的限制。能够躺在床上/沙发上随意发号施令,之前只能由『真人助理』来完成。虽然早几年的Siri等一票语音助手希望解决同样的问题,抛开时不时的答非所问不讲,单纯拿起手机按下Home键再举到嘴边这个动作,就已经很令人扫兴了。
相反地,红楼梦在王熙凤出场时,用到了『粉面含春威不露,丹唇未启笑先闻』这句诗。可以想象,当凤姐还远在屏风之后时,笑声已然传来;同样的,主人在卧室看书,也可以通过语音把客厅的灯和电视关掉。之前曾有人希望通过视觉或超声波做『隔空手势识别』,相对于同样远距离的语音,使用的复杂度和学习成本都太高了。
远场的一系列功能是如何实现的呢?为什么之前的语音助手都是近距离的呢?引用相非老师的技术架构图,在进行语音识别(包括本地和云端)之前,有一系列复杂的声学前端算法,包括:
  • 回波抵消(去除音箱自己播放的音乐)
  • 波束形成(只听人说话的那个方向,去除其他方向的干扰)
  • 去混响(简单理解为去除桌椅板凳的声音反射)
  • 声纹识别(爸爸在说还是妈妈在说)等

经过这一系列的声学处理,相对『干净』的语音信号才会进入负责唤醒的模型,唤醒之后才会进一步地进入云端负责语音识别的模型。
这一交互涉及到了:
  • 物理硬件层(声腔结构设计,麦克风阵列设计)
  • 信号层(上述声学处理)
  • 后续的数据层(语音识别,NLP,TTS等)

这三层分别需要物理声学,信号处理,和计算机专业三个领域的人才相互配合,是个相当复杂的工程。这还只是语音技术层面,作为消费级产品,一款音箱想要达到好的效果,还涉及到产品层,和产品之上应用层面的一系列问题。
亚马逊号称已经投入5000人的研发团队,另外还有1000个职位Open,地主家的余粮还是多多的。当然,贝索斯敢于如此投入,也和Alexa一骑绝尘的战绩相关,目前根据三方统计,贝爷家的各种音箱已经出货1500台以上,这还不包括通过AVS认证的第三方设备(大概在400-500万台之间),整个市场占有率应该在70-80%。更有杀伤力的是,随着出货量的增长,Skills(类似手机上Apps)的数量也几乎同步增长,看来已经形成了『硬件-系统-软件』的正循环。
回到本文的主题。IOT喊了很多年,从20年前的智能家居,到09年无锡落地的物联网产业园,再到14年火热的智能家居创业,乃至去年底孙正义大神提出鞋子比人更聪明,IOT都处在只打雷不下雨的尴尬状态。之前我的认识是『云——网——端』三层中端的密度不够,即设备数量还不够多,从而数据量不够大,和人接触点也不够多。
但根据小米公布的数据,MIOT在16年底大约5000万入网设备,17年中6000万,17年11月开发者大会上讲是8000万。5000万和8000万我觉得并没有本质的差别,但融入了智能语音交互后,原先的App指令控制,传感器触发,变成了远场语音控制。这样一来,交互界面从单一的手机App(家里不方便),传感器触发(冷冰冰且不丰富),扩展到了无处不在的语音指令(方便且有温度)。这大概解释了小米开发者大会场面火爆的原因吧。
本文来自微信号段小张说
当然,语音交互绝不止是远距离版的遥控器而已。再借用相非老师一张图,独立于智能家居的硬件设备外,语音交互有机会将随身设备,车载设备,乃至互联网的一系列服务串起来。例如,我们可以在车里通过语音提前把外卖点好(真是屌丝福音),或是在跑步时通过耳机把家里的热水器打开(目前还需要解决低功耗唤醒问题),或是在家通过音箱把凯叔召唤出来给孩子讲故事(已经实现)。
或许,技术本身就是让原本少数人的特权(钢铁侠的Javis)飞入寻常百姓家。能够见证这一过程,的确令人兴奋。

哎...今天够累的,签到来了1...
高级模式
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

发布主题
阅读排行 更多
广告位
!jz_fbzt! !jz_sgzt! !jz_xgzt! 快速回复 !jz_sctz! !jz_fhlb! 搜索

智能技术共享平台 - 未来论

关注服务号

进入小程序

全国服务中心:

运维中心:天津

未来之家:天津 青岛 济南 郑州 石家庄

                商务邮箱:xy@mywll.com

Copyright © 2012-2021 未来派 未来论 (津ICP备16000236号-5)