展会信息港展会大全

人类语言波形直接建模 谷歌要改变语音合成方式
来源:互联网   发布日期:2016-12-22 09:57:29   浏览:44995次  

导读:十几年前,人工智能开始出现在我们生活中。现在,我们把调侃Siri当成一种乐趣。试想一下,未来几年,从冰冷的手机扬声器中,如果传来的比你男/女朋友还温柔的声音,你还有心思去谈恋爱吗?现在,那个凭借开发AlphaGo火爆全球Google DeepMind团队,正在为你量...

十几年前,人工智能开始出现在我们生活中。现在,我们把调侃Siri当成一种乐趣。试想一下,未来几年,从冰冷的手机扬声器中,如果传来的比你男/女朋友还温柔的声音,你还有心思去谈恋爱吗?现在,那个凭借开发AlphaGo火爆全球Google DeepMind团队,正在为你量身打造一款你喜欢的另一半。

的确,我们从呱呱坠地到呀呀呓语,早就习惯了人类语言的语气和发声模式,任何声音只要有一丝偏离我们意识中的“正常”语言,都会被我们马上辨认出来。这就是为什么一直以来开发真正人声语音文本是件极其困难的工作。

但是现在,Google的DeepMind AI研究团队通过改变他们的机器学习模型,解决了这一难题,并且在“WaveNet”平台上展示出了他们惊人的科学成果。

在人机交互和机器语音识别领域,Google和其他科技公司已经取得了巨大的进步。但是,要想做到使机器语音如同人类说话那样自然流畅,迄今为止一直都是机器学习领域的一大难题。

截至目前,大多数的文本阅读(text-to-speech ,TTS)系统都是基于所谓的语音拼接技术,这严重依赖于单词组合的语音片段数据库。这就会产生因为数据库不完善,而导致的语音突变或者断句错误等问题,让人听起来很不自然。

通过对人类语言的原始波形进行直接建模,DeepMind正在改变语音合成的方式。在WaveNet平台上,这一先进的方法可以合成任意类型的语音,甚至包括音乐。下面就是通过语音拼接技术和WaveNet语音合成的例子,可以感受一下语音品质。

0:05语音拼接技术合成的声音 来自DeepTech深科技

其实,将人类语音的原始波形进行直接建模成波形是件无比困难的工作,这对于机器学习而言,无疑是个巨大的挑战。

在建模的过程中,每秒都需要对下一时刻做上千个预测,而大多数预测都是基于前期的结果。DeepMind利用神经网络技术,并用人类语音波形对其进行训练,在下面的GIF动画中,你可以看到多层计算网络来估计语音概率分布,进而得出最终输出音频。

多层计算网络来估计语音概率分布

通过对输出音频的比较,DeepMind团队发现,WaveNet产生的音频比其他方法得到的合成语音更加逼真。甚至对于WaveNet来说,即使没有输入文本,神经网络也能得到相应的输出音频。

只不过,这时你听到的是机器的牙牙学语,听起来就像是一个人在说你从未听过的语言。这时,如果你使用古典钢琴曲而不是人声来训练,这种机器的“咕噜”声就会变成狂乱但是有趣的音乐片段。

每一秒的音频输出都需要做上千次的预测。

赞助本站

人工智能实验室
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港