​OpenAI,再次“炸场”

OpenAI,再次“炸场”

作 者丨孔海丽

编 辑丨骆一帆

图 源丨图虫

继文生视频大模型 Sora 后,近日,OpenAI 终于将按捺许久的语音引擎模型— Voice Engine 公之于众。

利用文本输入和单个 15 秒音频样本,Voice Engine 就能生成与原说话者非常相似且情感丰富的自然语音。不过,和文本生成视频模型 Sora 一样,目前 OpenAI 只针对少部分内测用户开放 Voice Engine。

OpenAI 在其官网披露,2022 年底,Voice Engine 就被首次开发,并已经用它来支持文本转语音 API 以及 ChatGPT 语音和朗读中可用的预设语音。但考虑到合成语音被滥用的潜在风险,OpenAI 选择了谨慎有序地推进和发布 Voice Engine。

近两年,全球生成式 AI 应用规模呈现爆发式增长。据 IDC 预测,全球 AI 软件市场规模有望从 2022 年的 640 亿美元增长至 2027 年的 2790 亿美元,复合增长率为 31.4%。

华泰证券分析师认为,随着基础模型能力优化,多模态应用有望在内容创作、AI 教育、虚拟陪伴等场景加速落地。

Voice Engine 的问世,解锁了语音模型的更多可能性,例如辅助阅读、视频转译等,也将在发音障碍人群的语言表达上提供有效帮助。

当 AI 瞄准声音克隆技术

去年," 霉霉 " 说地道中文的视频火上微博热搜,而这背后的 AI 工具来自 Voice Engine 的采用者之一— AIGC 初创公司 HeyGen,此话题的阅读量超 600 万。

通过 Voice Engine 进行实时转换翻译,说话者将保留原始口音,原语言不仅能转换成中文、英文、日文等各类语言,也能让面部嘴型完美匹配。

除此之外," 特朗普 " 随口飙一段中文、" 郭德纲 " 用英语说相声、" 蔡明 " 阿姨讲段子的视频也在各大社交平台上广为流传。

Voice Engine 的官宣也有迹可循。2024 年 3 月 19 日,OpenAI 已经为 "Voice Engine" 申请了商标,商标的覆盖范围主要是围绕语音识别、语音合成和语音生成等方面。

谷歌前员工 Jonathan Chavez 也曾在前段时间透露,OpenAI 将在今年推出一款全球最好的个人助理产品,就像钢铁侠中的 Jarvis。

果不其然,Voice Engine 如期而至,团队还公示了多场景下的内测结果与相关音频。

根据 OpenAI 的介绍,Voice Engine 能够通过自然、富有感情的声音为非读者和儿童提供阅读帮助;可以翻译视频和播客等内容,以便创作者和企业可以用自己的声音流利地接触世界各地的更多人;支持非语言人群和帮助患有突发性或退化性言语病症的患者恢复声音。

OpenAI 语音引擎产品团队成员杰夫 · 哈里斯 (Jeff Harris)表示,该模型是根据 " 许可数据和公开数据的组合 " 进行训练的。

对于 Voice Engine 的进展,网友直呼:" 人工智能的发展速度令人兴奋,势不可挡。"

从业人士认为,Voice Engine 将对播客、配音艺术家、口语表演者、有声书和广告解说员、游戏玩家、流媒体主播、客户服务代理、销售人员等众多职业带来现实影响,这其中也包括就业压力。

大众也期待,当 OpenAI 的 Sora 与 Voice Engine 这两项前沿科技相碰撞,又会擦出什么样的火花,真正意义上的有声 AI 视频乃至电影短片,是不是也就不远了。

勒紧 " 深度伪造 " 的缰绳

对于 Voice Engine 技术的使用,除了惊喜与赞叹声,也有人提出了质疑,如果这样的技术用于电信诈骗,后果会很可怕。

有在校大学生告诉 21 世纪经济报道记者,家长曾接到 AI 伪造学生声音的诈骗电话。

其实,OpenAI 去年所发布 " 可以说话 " 的 ChatGPT 版本,长期以来一直为各种企业提供根据配音演员的录音所创建的声音,并没有发布从短视频中复制声音的技术。OpenAI 产品经理杰夫 · 哈里斯(Jeff Harris)表示,以这种方式复制任何声音的能力是有风险的。

2024 年 2 月,美国曾发生利用 AI 生成语音影响选民投票事件。据报道,在大选之际,新罕布什尔州的部分选民接到一个神秘来电,电话中酷似美国总统拜登的声音号召他们不要在该州初选中投票。后经证实,该来电是机器人语音电话,并非拜登本人录制。此事件在当时引起了不小的轰动,加剧了人们对竞选 " 深度伪造 " 的担忧。

为加强语音引擎的安全构建,OpenAI 在官方公告中称,公司正在与来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴合作,以确保在建设过程中吸收他们的反馈。不过,OpenAI 与这些合作伙伴针对语音引擎的业务进展,需要原始发言者的明确和知情同意,合作伙伴还必须清楚地向观众强调,他们听到的声音是由 AI 生成的。

OpenAI 将为 AI 生成的语音添加水印,以追踪并主动监控其使用方式,以确保其透明度和安全度。 

OpenAI 官方表示:"我们目前不会广泛发布这项技术,仅小部分开放内测,希望语音引擎的这次内测既能强调其潜力,又能增强潜在问题的抵御能力,以应对越来越逼真的生成模型带来的挑战。"

此外,他们还将采取一系列安全措施,包括逐步淘汰基于语音的身份验证作为访问银行账户和其他敏感信息的安全措施;探索保护人工智能中个人声音使用的政策;教育公众了解人工智能技术的能力和局限性,包括欺骗性人工智能内容的可能性;加速开发和采用追踪视听内容来源的技术等。

相关推荐

​信用卡没有奇迹

​信用卡没有奇迹

195

信用卡没有奇迹 设为星标不迷路 ~ 如果说,过往的信用卡「奇迹」是人口、消费、科技三大因素交互演化、共同推动的结果。那么未来,可能再难有创造奇迹的动力了。 ——馨金融 洪...

​跟出一个百亿东鹏特饮

​跟出一个百亿东鹏特饮

185

跟出一个百亿东鹏特饮 在昨日诡秘的 A 股,东鹏饮料仍能收获一个大涨,是市场对其业绩的嘉奖。 早年, 东鹏饮料以模仿华彬红牛产品起家 ,踩中了中外红牛纷争的时间窗口迅速崛起...

​固态电池时代来了?上汽智己新车争议中上市

156

固态电池时代来了?上汽智己新车争议中上市 经济观察网 记者 濮振宇 4 月 9 日,截至当日收盘,A 股固态电池板块大涨 6.66%,涨幅在所有概念板块中位居第一,其中十余只个股涨停。...

​消失199天,基金“顶流”蔡嵩松出事了

​消失199天,基金“顶流”蔡嵩松出事了

75

消失199天,基金“顶流”蔡嵩松出事了 从 2020 年底手握 400 亿基金管理规模,到 2024 年 4 月传闻获刑,蔡嵩松这个出身名校的学霸在不到三年半的时间里,大起大落。当基金经理主动或...

​ASC24落幕,超算人才培养才刚刚开始

​ASC24落幕,超算人才培养才刚刚开始

186

ASC24落幕,超算人才培养才刚刚开始 4 月 13 日,2024 ASC 世界大学生超级计算机竞赛(简称 ASC24)在上海大学落下帷幕,北京大学以总成绩第一一举夺魁,成为 ASC24 总冠军,中山大学斩获...

​4月起,这些新规将影响你我生活!

97

4月起,这些新规将影响你我生活! 来源:新华社 ▍《托育机构质量评估标准》4 月 1 日起施行 国家卫生健康委发布《托育机构质量评估标准》,自 2024 年 4 月 1 日起施行。《标准》明...