春节期间有个视频特别火,一度爬上各大热搜榜,讲的是山东大汉和车载导航吵架,竟然无语落败。为什么智能语音就不能像《Her》里的萨曼莎一样,跟我们肆无忌惮的聊天呢?
事实上,智能语音识别设想的提出还早在计算机的发明之前。此后,随着技术不断突破,智能语音也不断发展,直到苹果将Siri应用到手机上,才再次掀起了一场以智能语音识别为特色的人机交互体验热潮。
如今,智能语音功能虽已被许多消费者熟知,但使用率一直不高:72%的用户认为语音识别度不够,56%的用户表示语音交互能力不足,实际使用中频频出现各种尴尬状况。
这就要从智能语音有多“智能”说起了——
语音识别率是关键
视频里,车载导航一直“误解”山东大汉,最主要的就是识别率不高的问题。一方面可能车载导航本身识别率不够;另一方面涉及到降噪;再一个,就是方言识别。
目前各语音公司的识别准确率,基本都在90%以上。前几日IT领袖峰会上,百度表示目前其识别率已经达到95%,虽然实际使用效果并不理想,但我们可以设想,识别率高的语音技术应用范围不可小视。就如之前挺火的语音商OKVoice声称其在垂直领域识别率能高于95%,有了这识别率,他们可以放肆地衍伸出类似于口语测评、音视频字幕生成等产品,只要企业拿到这些产品API接口,无论是培训行业还是影视行业都可以毫无顾忌地走上智能化之路了。
我们再来看这个车载导航的视频,很明显视频里的这个车载导航并没有方言识别能力。方言种类繁多,口音各异,如果要识别某一种方言,就要去建立针对该方言的语料库,这是一件非常费时费力的事情。所以早期的智能语音公司都是以单一的普通话识别来打天下:相对来说覆盖率广,回报率高。但是随着智能语音的发展,单纯普通话识别已经不能满足广大用户的需求,一些比较出色的语音公司,也陆续推出了自己的方言识别功能,比如科大讯飞号称支持多种方言,OKVoice也在其官网上主打精准的粤语、上海话识别。
关于降噪,大家都知道车里的环境非常嘈杂,人声背景里夹杂发动机等各种杂音。语音识别的工作原理正是将人声提取出来进行发音匹配,如果背景过于嘈杂,无疑对提取结果产生很大影响。这也是目前各大智能语音公司头疼的问题。不过三菱电机号称已开发车载设备语音提取技术,据说能去除96%的环境噪音,预计2018年可推广上市。如真有此效果,相信语音降噪不再是问题,语音识别率也将向前大跨一步。
语音交互还不够智能
我们都觉得智能语音不够“聪明”,它不能像普通人类交流一样自然的停顿,提取信息,甚至揣测信息。原因是现在的智能语音交互基本上采取关键词命令的形式,即读取到限定的关键词,从而执行该关键词下的命令。比如山东大汉一直重复的“拨号”、“纠正”,就是一种关键词。如果它接收不到数据库中的关键词,你说的再多,也只是对牛弹琴。要期待它的突破,就要依赖目前大热的大数据和机器学习了。
语言歧义甚多,不同场景不同含义
有这么一个笑话,讲“模拟汉语四级考试题绕晕外国学生”,很能表达这种情况:
1、“小明,今晚上有思修课呢!你去不去?”
“我去!!你有病啊!!”
——问:小明去不去思修课?
2、“小明,昨天下午你抱着的是谁呀?你女朋友吧?”
“你妹!!我妹!!”
——问:小明抱着的是谁?
中文语言含义丰富,歧义甚多,语义和语言环境及表达习惯关系密切。同样一句话,因场合不同或者说话人不同,可能表达出完全不同的意思。到底是“你妹”还是“我妹”,这对机器来说其实是一个很深奥的问题。
同时我们注意到视频里的一个细节:山东大汉念1(幺)3581(幺)887557,智能语音重复为1(一)35……再比如门牌号,我们念一号楼520(五二零)室,有些智能语音会念五百二十室,听起来总是怪怪的,这就是常用字符的合成问题。这个问题其实是可以避免的,我曾经试过国内几个成熟的智能语音体验平台,只有科大讯飞和OKVoice的语音合成在读“13581887557”、“135”和“1、3、5”的时候,会根据场景读出不同的结果,有兴趣的可以去试试。
总之,智能语音作为人工智能的一部分,虽在上世纪五六十年代提出,但一直到近二十年才迎来发展高潮。它是人机交互的最理想方式——自然,零成本,无门槛,但也对机器学习提出了非常艰巨的要求。如何能让机器像人类一样思考,想必是未来几十年最需要突破的问题。一旦打通任督二脉,智能时代就真的到来了。到那时,拥有一个萨曼莎,将不再是梦想。
欢迎光临 智能家居 (https://bbs.mywll.com/) | Powered by Discuz! X3.4 |