A前瞻官网
前瞻网
a 当前位置: 前瞻网 » 资讯 » 产经

阿里公布新语音合成技术 录音10分钟即可定制专属“AI声音”

分享到:
 Evelyn Zhang • 2019-07-11 14:36:48 来源:前瞻网 E11250G0
100大行业全景图谱

以往,我们了解到一些世界领先的语音合成技术,它们研发出来的“语音合成助手”软件可以完美的完成语音合成工作。而最近阿里也推出了一项新语音合成技术,录音10分钟即可定制专属“AI声音”。

1

7月10日,阿里巴巴发布新一代语音合成技术KAN-TTS,称可大幅提高合成语音与真人发声的相似度,并将语音合成定制成本降低10倍以上。该技术由达摩院机器智能实验室自主研发。

阿里方面称,当前业界商用系统的合成语音与原始音频录音的接近程度通常在85%-90%之间,而基于KAN-TTS技术的合成语音可将该数据提高到97%以上。

KAN-TTS深度融合了目前主流的端到端TTS技术和传统TTS技术,从多个方面改进了语音合成,有望通过图灵测试。阿里利用Multi-Speaker Model与Speaker-aware Advanced Transfer Learning相结合的方法,将语音合成定制成本降低10倍以上,周期压缩3倍以上。也就是说,用1小时有效录音数据和不到两个月制作周期,就能完成一次标准TTS定制。

此外,这使得普通用户定制“AI声音”的门槛更低。只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。

基于KAN-TTS的语音合成技术现在已经向B端客户开放商用,它能基于5大场景(通用、客服、童声、英文和方言)、提供34种不同声音,而且能够让企业与个人定制其专属“AI声音”,该技术目前已经用在了高德地图、天猫精灵、夸克浏览器等应用中。

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

和语音合成一样,语音识别技术也是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的关键技术,越来越多的公司和行业都在向这方面靠拢。2017年,全球的语音识别软件市场规模就已经达到11亿美元,随着AI等各种技术的成熟,对语音识别的市场需求也在逐年提升。预计到2025年,全球语音识别市场的整体规模将达到69亿美元。

2

本文来源前瞻网,转载请注明来源。本文内容仅代表作者个人观点,本站只提供参考并不构成任何投资及应用建议。(若存在内容、版权或其它问题,请联系:service@qianzhan.com) 品牌合作与广告投放请联系:0755-33069875 或 hezuo@qianzhan.com

p17 q0 我要投稿

分享:

品牌、内容合作请点这里:寻求合作 ››

前瞻经济学人微信二维码

前瞻经济学人

专注于中国各行业市场分析、未来发展趋势等。扫一扫立即关注。

前瞻产业研究院微信二维码

前瞻产业研究院

如何抓准行业的下一个风口?未来5年10年行业趋势如何把握?扫一扫立即关注。

前瞻经济学人 让您成为更懂趋势的人

想看更多前瞻的文章?扫描右侧二维码,还可以获得以下福利:

  • 10000+ 行业干货 免费领取
  • 500+ 行业研究员 解答你的问题
  • 1000000+ 行业数据 任君使用
  • 365+ 每日全球财经大事 一手掌握
  • 下载APP

  • 关注微信号

前瞻数据库
企查猫
前瞻经济学人App二维码

扫一扫下载APP

与资深行业研究员/经济学家互动交流让您成为更懂趋势的人

下载APP
前瞻经济学人APP

下载前瞻经济学人APP

关注我们
前瞻经济秀人微信号

扫一扫关注我们

我要投稿

×
J