10月25日,智谱对外宣布,其大模型家族加入了一位新成员——GLM-4-Voice 端到端情感语音模型。
据介绍,GLM-4-Voice 能够理解情感,有情绪表达、情感共鸣,可自助调节语速,支持多语言和方言,并且延时更低、可随时打断。同时,GLM-4-Voice 会部署在清言 app 上。也就是说,清言的聊天会更加自然,是一个靠谱的对话伙伴,能听懂你的情绪并回应。
作为端到端的语音模型,GLM-4-Voice 避免了传统的 “语音转文字再转语音” 级联方案过程中带来的信息损失和误差积累,也拥有理论上更高的建模上限。同时,GLM-4-Voice 发布即开源,这是智谱首个开源的端到端多模态模型。
与传统的 ASR + LLM + TTS 的级联方案相比,端到端模型以音频 token 的形式直接建模语音,在一个模型里面同时完成语音的理解和生成。
智谱方面表示,GLM-4-Voice 的出现是其在迈向 AGI 的道路上迈出的最新一步。面向 AGI 的分级,智谱也有自己的一些思考。L1 语言能力,L2 逻辑与思维能力,L3 工具能力大家是比较有共识的。其认为 L4 级人工智能意味着 AI 可以实现自我学习、自我反思和自我改进。L5 则意味着人工智能全面超越人类,具备探究科学规律、世界起源等终极问题的能力。

众所周知,大脑是一个非常复杂的系统,包括听觉、视觉、语言等多模态的感知与理解能力,短期和长期记忆能力,深度思考和推理能力,以及情感和想象力。另外,作为人身体的指挥器官,大脑还懂得调动身体的各个部分协同运转,使用工具。
而智谱面向 AGI 的技术升级曲线,实际上就是围绕大脑的能力维度展开的。从2021年以来,特别是最近一年多来的升级,大模型在L1 语言能力的方面完成的已经很好了(大概80%-90%)。智谱希望在不远的未来实现各种模态混合训练的原生多模态模型,它不仅在认知能力上比肩人类,同时能在价值观层面和人类对齐,确保 AI 的安全可控。
文/广州日报新花城记者:张露
广州日报新花城编辑:麦晓颖



















































