最新，OpenAI向ChatGPT所有付费用户推出新语音助手

49 0 0

推荐使用GPT中文版,国内可直接访问：

今日凌晨，人工智能领域的领军企业OpenAI宣布，将向更多付费用户推出ChatGPT的高级语音模式 (Advanced Voice Mode，简称AVM) 。这一举措标志着AI与人类交互向着更加自然、智能的方向迈进了一大步。

这是 ChatGPT 的一项功能，可让您更自然地与 AI 模型对话。它允许您在句子中间打断其回答，并且它可以从您的语调中感知和解读您的情绪并相应地调整其回答。

这些功能早在 5 月份 OpenAI 发布 GPT-4o 时就被曝光过，但直到7 月份才正式发布，而且只对受邀者开放。（至少在最初，该模型似乎存在一些安全问题；OpenAI 早在 5 月份就向几位《连线》记者提供了语音模式的访问权限，但该杂志报道称，该公司“出于安全考虑，第二天早上就撤下了它”。）尝试过该模型的用户大多将该模型描述为一款速度快、动态逼真的语音助手，这让其他一些OpenAI 用户尤其沮丧。

今天，OpenAI 首次承诺将新语音模式带给广大用户。以下是你需要知道的内容。

它能做什么？

尽管 ChatGPT 目前为付费用户提供标准语音模式，但其交互可能比较笨拙。例如，在移动应用中，你无法用语音打断模型通常冗长的回答，只能点击屏幕。新版本解决了这个问题，并承诺根据从你的声音中感知到的情绪来修改其回答。与 ChatGPT 的其他版本一样，用户可以通过要求模型记住有关自己的事实来个性化语音模式。新模式还改进了非英语语言单词的发音。

AI 投资者 Allie Miller 在 8 月份发布了该工具的演示，其中强调了许多与 OpenAI自己发布的视频相同的优势：该模型速度快，并且善于改变其口音、语调和内容以满足您的需求。

更新还增加了新的声音。GPT-4o 发布后不久，OpenAI 就因演示视频中名为 Sky 的女性声音与电影《她》中饰演 AI 恋人的斯嘉丽约翰逊的声音过于相似而受到批评。OpenAI 随后删除了该声音。现在，它又推出了五种新声音，分别是 Arbor、Maple、Sol、Spruce 和 Vale，在标准和高级语音模式下均可用。《麻省理工技术评论》还没有听过这些声音，但 OpenAI 表示，它们是使用来自世界各地的专业配音演员制作的。“我们采访了数十位演员，以找到那些我们认为人们会乐于与之交谈数小时的声音——温暖、平易近人、好奇，具有丰富的质感和语调，”一位公司发言人说。

功能升级，交互体验显著提升

相比标准语音模式，AVM在多个方面都有显著提升:

首先，交互更加流畅自然。用户可以在ChatGPT回答的过程中随时打断，而AI助手能够灵活调整回应。这种类似人类对话的交互方式，大大提升了用户体验。

其次，情感识别能力增强。AVM能够通过分析用户的语气语调，感知用户的情绪状态，并据此调整回答的内容和方式。这种”察言观色”的能力，让AI助手更显得”懂人心”。

再次，个性化程度提高。用户可以通过”Custom Instructions”功能设置个人偏好，让ChatGPT根据自己的习惯来交流。同时，”Memory“功能让AI助手能够记住对话内容，实现连贯的长期交互。

此外，OpenAI还新增了5种AI声音选项，使总数达到9种。这些名为Arbor、Maple、Sol、Spruce和Vale的声音，都带有自然元素的特点，意在让交互感觉更加贴近自然。值得一提的是，此前因与斯嘉丽·约翰逊声音相似而引发争议的”Sky”声音已被移除。

多语言支持是AVM的另一大亮点。据悉，该功能可以支持超过50种语言的交互，体现了其在跨语言沟通方面的强大实力。

分批推广，确保平稳过渡

OpenAI采取了分阶段推广的策略:首先向ChatGPT Plus和Teams用户开放，企业和教育用户将在随后获得访问权限。这种渐进式的推广方式，有利于公司收集用户反馈，及时优化产品。

值得注意的是，AVM目前尚未在欧盟、英国等部分欧洲地区推出。这可能与当地的数据隐私法规有关，OpenAI需要进一步调整以符合相关要求。

安全性受到高度重视

在推出如此先进的AI交互功能时，安全性自然成为关注焦点。OpenAI表示，他们已与外部专家合作，对AVM进行了广泛的安全测试。测试涵盖了45种语言，代表29个不同地区，以确保功能在多语言、多文化环境下的安全性。