GPT-4o语音模式部分开放，秋季覆盖所有付费用户

ongpt3个月前 (08-02)GPT资讯155

继此前 OpenAI 方面在今年 5 月发布多模态大模型 GPT-4o，原计划今年 6 月开放语音模式的测试，随后以 " 需要改进模型检测和拒绝某些内容的能力 " 为由推迟后。当地时间 7 月 30 日官方已向部分 ChatGPT Plus 订阅用户开放基于 GPT-4o 的高级语音模式（Advanced Voice Mode）测试，并宣布将在今年秋季逐步扩展至所有 ChatGPT Plus 用户。

据悉，ChatGPT 此前的语音模式是基于转录、大语言模型和文生语音 3 个独立模型来实现的语音功能。公开信息显示，GPT-3.5 的平均延迟为 2.8 秒、GPT-4 为 5.4 秒，而 GPT-4o 则能够以平均 320 毫秒的速度回应音频输入，与人类在典型对话中的反应时间相似。

对此 OpenAI 首席技术官 Muri Murati 表示，" 在 GPT-4o 中，我们训练了跨文本、视觉和音频的端到端全新统一模型，这意味着所有输入和输出都由同一个神经网络处理 "。

据 OpenAI 方面透露，高级语音模式除了可以提供更自然的实时对话、允许用户随时打断之外，还能够感知或响应用户的情绪语调，包括悲伤、兴奋等。但需要注意的是，该模式目前设置了 Juniper、Breeze、Cove、Ember4 种预设语音，对此 OpenAI 发言人 Lindsay McCallum 曾表示，"ChatGPT 不能冒用他人的声音，包括个人和公众人物的声音，并且会阻止与这些预设声音之一不同的输出 "。

日前 OpenAI 方面还解释了高级语音模式仅向部分用户开放的原因，因此通过逐步推出，其可以密切监控用户的使用情况，并根据反馈不断改进模型的能力和安全性。需要注意的是，这部分用户将在 ChatGPT 应用程序中收到提醒，并收到一封有关如何使用高级语音模式的说明邮件。

返回列表

上一篇：84%收入来自近1000万名ChatGPT付费用户，机构预计一年创收34亿美元！OpenAI营收拆解！

下一篇：单次输出 64K tokens, OpenAI 测试长输出版 GPT-4o

GPT资讯网

GPT-4o语音模式部分开放，秋季覆盖所有付费用户

相关文章

移除 Copilot Pro 的 GPT Builder 功能，微软将于 7 月进行！

开源类ChatGPT产品Grok，马斯克将在本周宣布执行！

GPT-4正接管人类数据专家：先验知识让LLM大胆预测，准确率堪比传统方式

Canvas来了，可辅助完成编程、写作,ChatGPT史诗级大更新！

84%收入来自近1000万名ChatGPT付费用户，机构预计一年创收34亿美元！OpenAI营收拆解！

解锁大模型时代的无限可能，从GPT-3到Sora

Copyright GPT资讯网 ICP备:赣ICP备2023002588号-2

Powered By Z-BlogPHP. Theme by TOYEAN.