智谱首个开源的端到端多模态模型上线

2024-10-25 23:22 来源:大洋网

10月25日，智谱对外宣布，其大模型家族加入了一位新成员——GLM-4-Voice 端到端情感语音模型。

据介绍，GLM-4-Voice 能够理解情感，有情绪表达、情感共鸣，可自助调节语速，支持多语言和方言，并且延时更低、可随时打断。同时，GLM-4-Voice 会部署在清言 app 上。也就是说，清言的聊天会更加自然，是一个靠谱的对话伙伴，能听懂你的情绪并回应。

作为端到端的语音模型，GLM-4-Voice 避免了传统的 “语音转文字再转语音” 级联方案过程中带来的信息损失和误差积累，也拥有理论上更高的建模上限。同时，GLM-4-Voice 发布即开源，这是智谱首个开源的端到端多模态模型。

与传统的 ASR + LLM + TTS 的级联方案相比，端到端模型以音频 token 的形式直接建模语音，在一个模型里面同时完成语音的理解和生成。

智谱方面表示，GLM-4-Voice 的出现是其在迈向 AGI 的道路上迈出的最新一步。面向 AGI 的分级，智谱也有自己的一些思考。L1 语言能力，L2 逻辑与思维能力，L3 工具能力大家是比较有共识的。其认为 L4 级人工智能意味着 AI 可以实现自我学习、自我反思和自我改进。L5 则意味着人工智能全面超越人类，具备探究科学规律、世界起源等终极问题的能力。

众所周知，大脑是一个非常复杂的系统，包括听觉、视觉、语言等多模态的感知与理解能力，短期和长期记忆能力，深度思考和推理能力，以及情感和想象力。另外，作为人身体的指挥器官，大脑还懂得调动身体的各个部分协同运转，使用工具。

而智谱面向 AGI 的技术升级曲线，实际上就是围绕大脑的能力维度展开的。从2021年以来，特别是最近一年多来的升级，大模型在L1 语言能力的方面完成的已经很好了（大概80%-90%）。智谱希望在不远的未来实现各种模态混合训练的原生多模态模型，它不仅在认知能力上比肩人类，同时能在价值观层面和人类对齐，确保 AI 的安全可控。

文/广州日报新花城记者：张露
广州日报新花城编辑：麦晓颖

[ 编辑： gzck ]

智谱首个开源的端到端多模态模型上线

广州24小时

图片

视频

热闻