南方网> 科技>科技业界

无声语音识别暂难成消费级产品

2019-02-18 10:38 来源:科技日报

  世界知识产权组织(WIPO)日前公布了一项微软申请的“无声语音输入”(Silent Voice Input)专利,丰富了“机器听懂人话”的场景。

  虽然还很难判断使用者能否接受该专利的另类语音输入方法及该专利的市场前景,但很多看似天马行空的研发往往孕育着巨大的商机,如果它们能找到正确的市场和恰当的推动方法。

  验证了语音交互技术的又一种可能

  语音识别技术离完美还很远,噪杂的环境、吐字不清的词汇、俚语及方言都会让机器陷入混乱,开发更精准更私密的语言识别技术,仍是包括微软在内的产业和学界的主要科研方向。

  通常情况下,语音输入首先要发出声音,其次需要一个相对安静的环境。根据微软这项专利的说明,只要让麦克风等设备靠近嘴巴,该语音输入解决方案就能捕捉到极低的,如同耳语般的声音信号,并过滤掉周围的杂音。除自己之外,别人听不见或听不懂。

  当然,说话方式可能需要练习。一般情况下,我们讲话时吐气,微软的解决方案要求使用者在吸气时执行语音输入。

  此外,尽管语音输入的性能持续被改善,但除了“调戏”siri,很少有人会在公共场所一本正经的用语音输入,怕打扰别人,也有语音内容私密性的顾虑。在这种情况下,微软的专利不失为一种妥善的解决方案。

  而麻省理工学院的研究人员开发的新型人机接口“AlterEgo”则更为魔幻,骨传导耳机环绕用户的耳朵和下巴,计算机系统处理并翻译耳机接收的数据并输出反应,如同人们在阅读时的“默念”。

  这个系统有点像“肌电假体”,当你准备作出某种行为时,大脑会告诉肌肉怎么做,同理,当你想着某个词时,大脑会向面部及喉部肌肉发送信号。

  主要研究人员Arnav Kapur表示,他们的初衷是将人类和机器以某种方式进行混合,仿佛人类自身认知的内部延伸。

  如果这台设备真的能商用,确实意义非凡。但是,当前的无声语音识别都处在技术验证阶段,这究竟是一种无用的“情怀技术”,还是可演变为用于特殊场景的产品,尚待业界探索。

编辑: 罗予岐

相关新闻

微信
QQ空间 微博 0
回到首页 回到顶部

网站简介- 网站地图- 广告服务- 诚聘英才- 联系我们- 法律声明- 友情链接

本网站由南方新闻网版权所有,未经授权禁止复制或建立镜像 广东南方网络信息科技有限公司负责制作维护

违法和不良信息举报电话:020-87373397 18122015029 18122015068

ICP备案号:粤B-20050235