十三 发自 凹非寺
量子位 报导 | 大众号 QbitAI
文本转语音,又出了个神器。
这个东西来自MIT,而且仍是在线、免费,能够用它来生成各种字符的44.1 kHz声响。
这些声响是运用多种音频组成算法和定制的深层神经网络实时生成的。
最冷艳的是,这个东西只需要少数的文本数据,还能保存文本所表达出来的韵律,能够说是适当的“声情并茂”了。
运用起来分外的简略,主页中的“Source”供给了几部电影或动画,“Character”供给了里边的一些人物。
只需要在文本框中输入不多于140字符的文本,点击生成,就能很快输出对应人物、带有韵律的语音。
文本转语音,有内味儿了
作用怎么样?咱们先来看看几个比如(可拜访网站试听)。
首先是《Portal 2》中的GLaDOS的声响。
The Enrichment Center would like to announce a new employee initiative (inishutive) of forced voluntary participation. If any Aperture Science employee would like to opt out of this new voluntary testing program, please remember, science rhymes with compliance.
接下来是《My Little Pony》中Fluttershy的声响。
As we speak I am contacting (cawnt tacting) my secret network of spies across the USA (you ess ay) and your IP (iypea) is being traced right now so you better prepare for the storm, maggot. The storm that wipes out the pathetic (puh thetic) little thing you call your life.
最终,是来自《Doctor Who》中Tenth Doctor的声响。
Harry tells me you’re quite the science whiz. You know, I’m something of a scientist myself.
嗯,的确有内味儿了!
好玩,但能够更完美
当然,咱们也能够从一些比如悦耳出来,出来的声响并不是完美的,作者对此也做出了解说。
为什么有些语句听起来像机器人或许声响比较沙哑?
这个东西生成音频文件的采样率为44100 Hz,而大多数深度学习文本到语音完成运用的是传统采样率,为16000 Hz。
这样处理的一个长处便是发生的音频质量比较高,可是价值也是显着的。
运用一个外部程序(例如 Audacity)来下降音频的采样率,这样就能够让声响听着不那么像机器人。
为什么有些字发音不正确?
这是因为和规范数据集比较,字符数据集十分小,规范音频一般有超越40小时的对话,包括许多不同的词汇。
而这个东西的字符数据集,每个字符只要30至120分钟的对话。
当然,作者也表明,因为英语拼写的不一致,即使是人类也无法100% 精确地说出不熟悉的单词。其间一些问题将来可能会得到解决。
传送门
东西地址:
https://fifteen.ai/app