推荐使用GPT中文版,国内可直接访问:
今日凌晨,人工智能领域的领军企业OpenAI宣布,将向更多付费用户推出ChatGPT的高级语音模式 (Advanced Voice Mode,简称AVM) 。这一举措标志着AI与人类交互向着更加自然、智能的方向迈进了一大步。
这是 ChatGPT 的一项功能,可让您更自然地与 AI 模型对话。它允许您在句子中间打断其回答,并且它可以从您的语调中感知和解读您的情绪并相应地调整其回答。
这些功能早在 5 月份 OpenAI 发布 GPT-4o 时就被曝光过,但直到7 月份才正式发布,而且只对受邀者开放。(至少在最初,该模型似乎存在一些安全问题;OpenAI 早在 5 月份就向几位《连线》 记者提供了语音模式的访问权限,但该杂志报道称,该公司“出于安全考虑,第二天早上就撤下了它”。)尝试过该模型的用户大多将该模型描述为一款速度快、动态逼真的语音助手,这让其他一些OpenAI 用户 尤其沮丧。
今天,OpenAI 首次承诺将新语音模式带给广大用户。以下是你需要知道的内容。
它能做什么?
尽管 ChatGPT 目前为付费用户提供标准语音模式,但其交互可能比较笨拙。例如,在移动应用中,你无法用语音打断模型通常冗长的回答,只能点击屏幕。新版本解决了这个问题,并承诺根据从你的声音中感知到的情绪来修改其回答。与 ChatGPT 的其他版本一样,用户可以通过要求模型记住有关自己的事实来个性化语音模式。新模式还改进了非英语语言单词的发音。
AI 投资者 Allie Miller 在 8 月份发布了该工具的演示,其中强调了许多与 OpenAI自己发布的视频相同的优势:该模型速度快,并且善于改变其口音、语调和内容以满足您的需求。
更新还增加了新的声音。GPT-4o 发布后不久,OpenAI 就因演示视频中名为 Sky 的女性声音与电影《她》中饰演 AI 恋人的斯嘉丽约翰逊的声音过于相似而受到批评。OpenAI 随后删除了该声音。现在,它又推出了五种新声音,分别是 Arbor、Maple、Sol、Spruce 和 Vale,在标准和高级语音模式下均可用。《麻省理工技术评论》还没有听过这些声音,但 OpenAI 表示,它们是使用来自世界各地的专业配音演员制作的。“我们采访了数十位演员,以找到那些我们认为人们会乐于与之交谈数小时的声音——温暖、平易近人、好奇,具有丰富的质感和语调,”一位公司发言人说。
功能升级,交互体验显著提升
相比标准语音模式,AVM在多个方面都有显著提升:
首先,交互更加流畅自然。用户可以在ChatGPT回答的过程中随时打断,而AI助手能够灵活调整回应。这种类似人类对话的交互方式,大大提升了用户体验。
其次,情感识别能力增强。AVM能够通过分析用户的语气语调,感知用户的情绪状态,并据此调整回答的内容和方式。这种”察言观色”的能力,让AI助手更显得”懂人心”。
再次,个性化程度提高。用户可以通过”Custom Instructions”功能设置个人偏好,让ChatGPT根据自己的习惯来交流。同时,”Memory“功能让AI助手能够记住对话内容,实现连贯的长期交互。
此外,OpenAI还新增了5种AI声音选项,使总数达到9种。这些名为Arbor、Maple、Sol、Spruce和Vale的声音,都带有自然元素的特点,意在让交互感觉更加贴近自然。值得一提的是,此前因与斯嘉丽·约翰逊声音相似而引发争议的”Sky”声音已被移除。
多语言支持是AVM的另一大亮点。据悉,该功能可以支持超过50种语言的交互,体现了其在跨语言沟通方面的强大实力。
分批推广,确保平稳过渡
OpenAI采取了分阶段推广的策略:首先向ChatGPT Plus和Teams用户开放,企业和教育用户将在随后获得访问权限。这种渐进式的推广方式,有利于公司收集用户反馈,及时优化产品。
值得注意的是,AVM目前尚未在欧盟、英国等部分欧洲地区推出。这可能与当地的数据隐私法规有关,OpenAI需要进一步调整以符合相关要求。
安全性受到高度重视
在推出如此先进的AI交互功能时,安全性自然成为关注焦点。OpenAI表示,他们已与外部专家合作,对AVM进行了广泛的安全测试。测试涵盖了45种语言,代表29个不同地区,以确保功能在多语言、多文化环境下的安全性。
公司还强调,他们采取了多项措施来防止生成不当内容或模仿特定个人。这反映了OpenAI在推进AI技术的同时,也在积极应对可能带来的伦理和安全挑战。
然而,作为闭源模型,OpenAI的产品在透明度方面仍面临一些质疑。与开源模型相比,独立研究人员更难以全面评估其安全性、偏见等问题。这也是OpenAI未来可能需要进一步平衡的方面。
市场影响与行业趋势
AVM的推出无疑将对AI助手市场产生深远影响。作为行业领先者,OpenAI此举很可能引发一波模仿和追赶潮。我们可以预见,其他AI公司也将加大在语音交互、情感识别等方面的投入。
对用户而言,AI助手的功能边界正在不断拓展。从简单的问答到近乎自然的对话,再到根据情绪调整回应,AI正在变得越来越”懂人”。这种趋势或将加速AI在日常生活和工作中的渗透。
然而,这也带来了新的思考:当AI变得如此”像人”,我们该如何定义人机关系?如何在享受便利的同时,避免过度依赖?这些问题值得社会各界深入探讨。
对企业用户而言,AVM的推出为智能客服、虚拟助理等应用场景带来了新的可能。更自然、更智能的语音交互,有望提升客户体验,提高工作效率。但与此同时,如何平衡AI与人工服务,如何确保数据安全,都是企业需要认真考虑的问题。
未来展望
尽管AVM已经展现出强大的功能,但OpenAI显然不会止步于此。据悉,公司此前演示的视频和屏幕共享功能尚未推出。这意味着未来ChatGPT很可能进一步扩展到视觉处理领域,实现更全面的多模态交互。
另一个值得关注的方向是AI的创造性。随着语言模型的不断进化,AI不仅能够理解和回应,还有望在创意写作、音乐创作等领域发挥更大作用。这将为创意产业带来新的机遇与挑战。
OpenAI推出的高级语音模式,代表了AI交互技术的一次重要飞跃。它不仅提升了用户体验,也为AI的未来应用开辟了新的可能性。然而,在为科技进步欢呼的同时,我们也需要保持清醒,审慎思考AI发展带来的伦理、安全和社会影响。只有在推动技术创新和保障人类利益之间找到平衡,AI才能真正成为造福人类的工具。
本文链接: