立即参赛

官方媒体

微信公众号

APP下载

APP下载

在线客服

客服杨女士

资讯速递 > 只需3秒钟音频,微软的新AI即可克隆出你的声音

浏览量:393 2023-01-30

        人工智能最近很火,不过火的主要是图像生成和聊天工具。人工智能的近期应用之一语音却一直沉寂。但是,微软最近推出了一个新的 AI,VALL-E,据说它只需要你三秒钟的音频样本即可模仿出你的口音。是不是有点震撼?

        

        VALL-E 来了

        微软表示,只需提供三秒钟的音频片段,其新的文本转语音 AI 即可克隆你的声音和语气等。这个 AI 的名字叫做 VALL-E。对此我们的心情很复杂。

        这个系统背后的底层技术,微软在一篇新论文中称之为“神经编解码器语言模型”。这个技术复杂,但实际上,这套系统的使用似乎非常简单:只需插入音频样本,然后再插入一些文本,接着就能得到真实的语音。

        当然,文本转语音的已经有很多应用了。比方说,大多数新闻网站都提供了机器驱动的听写服务,而像 Siri 和 Alexa 这样的语音助手也已非常受欢迎。

        不过,大多数现有的语音生成程序都需要大量输入。那些应用还没有完全弄清楚如何让 AI 的声音听起来特别像人,这主要是因为情绪基调以及微小的语型变化是很难表达出来的。

        如果微软的系统确实能够在几乎不需要输入端的情况下模仿人的口吻的话,那可就不得了了。

        喜忧参半

        根据开发者的说法,VALL-E 有许多应用,包括“零样本的 TTS、语音编辑以及内容创建”,并补充说,如果 OpenAI 的 GPT-3 语言建模系统(微软给这项技术背后的开发者 OpenAI 进行了大量投资以及投入了大量资源,并且已经在开发多款产品)可以与这款新的语音生成器相结合起来的话,会是一种特别有用的技术,可以用来作为创作内容的一种手段。

        如果你喜欢后者这种可能性的话,那么微软确实有它的道理。从理论上来讲,通过将 VALL-E 与 GPT-3 这两项强大的 AI 驱动技术结合到一起,你很快就能将大量听起来真实可信的内容拼凑在一起。

        但是,当然,一些道德上棘手的假设这时候也会冒出来。

        问题之一显然是虚假的、带误导性的声音——毕竟,如果只需要三秒钟的音频即可模仿的话,理论上你可以利用从名人采访到真人 Instagram 故事的任何东西来冒充某人。

        话虽如此,微软还是很谨慎地解决了这一问题,并解释说,由于存在“滥用模型的潜在风险”,自己在约束它的使用(至少目前是这样)——微软并没有开源代码。他们还声称自己正在努力整合某种系统,以检测音频是否是用 VALL-E 创建的,但也许他们应该问问他们在 OpenAI 的朋友,做到这一点究竟有多容易。

来源 | 36氪

发布 | 雨诗

底部资讯 (1).jpg

创成汇平台

创成汇是一家全球专业的创新创业生态链平台,旨在以线上系统为服务载体,整合国内外优质双创资源,采用大数据、智慧智能等高新技术理念和互联互享的物联网先进产业模式,从而搭建起政府、企业、人才、资本、园区、创服为一体的生态链,助力各地政府打造双碳园区、低碳园区和产业聚集区,助力当地双碳目标加快实现,积极响应国家“碳达峰、碳中和”绿色发展目标!

image.png至今,平台已服务政府机构380+,平台入驻创新型企业138000多家,高层次创新人才20000多位,入驻深创投、英诺天使、朗玛峰创投、梅花创投、凯辉基金、毅达资本、启赋资本、星瀚资本、同创伟业、东方富海、达晨创投等国内知名机构投资人900多位,拥有超百万线上创业资源,平台生态交易额达数亿元

我们提供优质的双创服务,包括但不限于:三招三引(招才引智、招企引税、招商引资)、投融对接、创业孵化、科技园区运营、产业基金运营、双创平台运营和离岸孵化器等。

点赞

评论

试试以这些内容开始评论吧!

登录后发表评论

暂无记录