随着人工智能技术的飞速发展,对话模型作为其中一项重要应用,已经广泛应用于智能客服、智能助手、虚拟偶像等领域。近年来,随着深度学习技术的不断进步,对话模型的逼真度也越来越高,甚至有些模型已经能够达到让人难以分辨是真人还是机器的程度。本文将揭秘几款目前最逼真的对话模型,探讨它们如何与人类大脑进行对话。
1. 谷歌对齐大模型与人脑信号
谷歌最近的研究成果显示,其大型语言模型(LLM)与人脑语言处理机制高度一致。谷歌通过将真实对话中的人脑活动与语音到文本LLM的内部嵌入进行比较,发现两者之间呈现线性相关关系。这一发现揭示了LLM在语言理解生成机制上的惊人相似性。
研究方法
- 人脑活动记录:研究人员使用皮层电图记录了参与者在进行开放式真实对话时语音生成和理解过程中的神经信号,累计100小时。
- 语音到文本模型:研究人员使用Whisper模型提取低级声学、中级语音和上下文单词嵌入。
- 编码模型:开发编码模型,将这些嵌入词线性映射到语音生成和理解过程中的大脑活动上。
结果
通过估计线性变换,模型能准确预测未用于训练模型的新对话中语言处理层次结构的神经活动。例如,在听到“How are you doing?”时,大脑对语言理解的神经反应序列如下:
- 语音嵌入:预测沿颞上回(STG)的语音区域的皮层活动。
- 语言嵌入:预测布罗卡区(位于额下回;IFG)的皮层活动。
这种动态变化反映了神经处理的顺序,首先在语言区计划说什么,然后是在运动区如何发音,最后是在感知语音区监测说了什么。
2. 科大讯飞星火超拟人数字人
科大讯飞在2024年全球1024开发者节上发布了星火超拟人数字人。该数字人率先实现了语义贯穿的口唇-表情-动作超拟人技术,其表情、动作逼真,仿佛与真人进行对话。
技术特点
- 语义贯穿:数字人根据语音节奏和语义自动生成丰富的表情和自然流畅的动作。
- 多模态交互:数字人可以识别摄像头中的内容,例如同时展示孙悟空和奥特曼、品牌和作用等信息。
3. 脑-声神经假体
美国加州大学伯克利分校和加州大学旧金山分校的研究人员利用脑-声神经假体技术和AI模型,开发了一种流式处理方法,为神经假体带来了与Alexa和Siri等语音助手相同的快速语音解码能力。
技术特点
- 实时语音解码:该技术能在80毫秒内合成语音,并能同时进行文本解码。
- 同步语音流传输:解码器能将脑信号接近实时地合成为能被人耳听到的语音。
总结
以上三款对话模型在逼真度上达到了令人难以置信的程度。谷歌对齐大模型与人脑信号的研究揭示了LLM在语言理解生成机制上的惊人相似性;科大讯飞星火超拟人数字人则实现了语义贯穿的口唇-表情-动作超拟人技术;脑-声神经假体则将脑信号解码为可被人耳听到的语音。这些模型的发展为人工智能领域带来了新的机遇,有望在未来为人类提供更多便利和服务。