编辑推荐推荐书籍

智能语音技术是道坎
来源:互联网  (转载协议)   发布日期:2012-07-30 21:16   浏览:7391专栏投稿 值班编辑:QQ281688302

某一天,人可以和一台机器人进行无障碍的交谈,人脑和机器人的电脑将没有区别在一些美国大片里,这样的场景经常出现,不过从事智能语音技术研究的科学家对此并不乐观。 中国科学院声学研究所所长助理颜永红在接受《中国科学报》记者采访时说:不管是现在,还

赞助本站

    某一天,人可以和一台机器人进行无障碍的交谈,人脑和机器人的电脑将没有区别在一些美国大片里,这样的场景经常出现,不过从事智能语音技术研究的科学家对此并不乐观。
    中国科学院声学研究所所长助理颜永红在接受《中国科学报》记者采访时说:“不管是现在,还是可见的将来,这样的场景都不可能出现在真实社会,因为通过技术手段很难实现。”
    智能语音技术小有成绩
    从科大讯飞(002230,股吧)的手机语音软件讯飞语点到iPhone 4s的Siri应用功能,用户可以通过语音,向自己的手机“发号施令”。
    讯飞语点的开发基于科大讯飞“语音云”技术。来自科大讯飞公司的数据显示,当前该技术的终端用户已达3000万,每天在线用户超过120万。除了手机,“语音云”技术的应用还涉及车载、互联网电视、智能家电等多个领域。
    iPhone 4s的Siri应用功能在自然语音处理方面比较智能。曾有媒体报道了Siri在国外的应用,比如就“生活的意义是什么”这个语音提问,Siri将给出至少3种不同的语音回答,分别是“我在思考这样的问题”、“我不知道,但是我想应该有其他App可以解决这个问题”、“我回答不了,但是给我些时间,让我写个什么事也没发生的长剧本”等。
    此外,智能语音技术在搜索引擎领域也有着很好的应用。由中科院声学所参与研发的百度语音搜索引擎,可以下载到手机客户端,根据人的语音指令,进行搜索。腾讯搜搜和QQ语音输入法也是基于声学所核心技术开发的。
    除了正常的语音输入,百度语音搜索引擎还可以通过用户哼唱的旋律,找到对应的曲目。虽然现在这项技术已经在多款语音软件上得到实现,但它最早是由中科院声学所中科信利语音实验室(现名中科院语言声学与内容理解重点实验室)从事研究,并在两个月时间内完成开发的。
    身为实验室的主任,颜永红告诉记者,该实验室的语音识别技术在国内多次获得第一名,音乐检索技术在世界音乐搜索组织(MIREX)评测中连续4年获得第一名。
    尽管智能语音技术取得了不少成果,颜永红表示,当前智能语音技术成熟度仍有待大幅提高,尤其是核心的自然语言理解的处理技术。
深语义理解之难
    智能语音主要包含两项技术,分别是语音识别和自然语言理解。语音识别就是将简单的发音变成文字,而自然语言理解则包含对语义的判断。换句话说,语音识别是语音到文字的抄录,而自然语言理解则让计算机做到像人一样的思考。
    目前的情况是,用户往往对计算机的人机对话实现功能期望过高。人对一项事物的描述可能有多种形式,而在计算机的记忆条目里可能没有记载那么多数据。
    另外,每个人的知识领域有着一定的边界,颜永红举了一个简单的例子,比如一个化学家向一个作家讲述他的研究成果,作家可能会不知所云,因此,计算机很多时候也会听不懂人话。
    当前,计算机智能语音技术并不成熟。颜永红说:“相比较而言,语音识别技术的成熟度相对较高,而自然语言理解在深层次理解的实现上还存在很大难度。”
    虽然语音识别依旧会存在从语音到文字的输入错误,但颜永红表示,只要搜集大量的语言和语音模式,比如方言的口音,并输入计算机,这项技术的突破就会更快一些。
    智能语音技术最核心的部分是计算机如何准确揣摩人的心理,并在人机对话中给出正确答案。给计算机输入简单的数据不难,比如地图、算术法则、文学库和歌曲库,“难就难在如何让计算机处理不确定的问题。”颜永红说。
    颜永红客观地表示,当前自然语言理解的技术突破在短期内无法实现。换言之,这也是机器人和人永远的差别,那就是感性认知。
应用面尚不够宽
    颜永红告诉记者:“相对于用户的期待,智能语音当前的应用领域仍然比较狭窄。”一方面受制于核心技术难以突破,另一方面也与该技术的研发投入有很大关系。
    以语音识别技术为例,颜永红表示,多语种、多方言的语音识别技术可以实现。只需要将各种语音输入数据库,但问题是谁来搜集这些信息?
    如果是商业机构,那么赢利是主要目的,但一些语种和方言的受众比较有限,这些商业机构不得不担心可能会入不敷出。“因此,商业机构会谨慎地对待此事。这也是当前智能语音在民用技术领域发展的一个现状。”颜永红说。
    另外,不少从事智能语音开发的小企业,他们没有实力参与智能语音核心技术的研发,产品多数通过现有技术的合成,往往技术含量较低。相反,大企业有充足的资金和研发团队,还能及时发现并将好的资源和创新应用收入囊中,苹果收购Siri就是最好的证明。
    虽然国内的语音企业和科研单位开发了不少应用,但颜永红表示,在全球智能语音技术市场,国内企业的技术相比一些国际大企业还存在着一定差距,特别是在多语言支持方面。曾有业内人士提出质疑,一旦大量用户群体同时使用讯飞语点,该软件的后台能否给出及时回应就不好说了。
    与此形成对比的是,苹果收购Siri,使用了Siri开发商Nuance Communications的语音识别技术,该公司一直以来致力于语音识别技术软件的研发,苹果公司在此基础上进行研发,起点就比其他智能语音公司高。“这也是苹果Siri在世界智能语音技术领域能保持相对领先的原因。”颜永红说。
登陆 | 注册 欢迎登陆本站,认识更多朋友,获得更多精彩内容推荐!

赞助本站

人工智能实验室
网友评论
好车贷
本月热点
热门排行
展开