火山引擎发布双模型多模态 Agent 能力入列全球第一梯队

2025-12-19 12:38 来源:大洋网

12月18日，火山引擎在FORCE原动力大会上正式推出豆包大模型1.8（Doubao-Seed-1.8）及音视频创作模型Seedance 1.5 Pro两大重磅产品。权威评测数据显示，豆包大模型在多模态理解、生成能力及Agent能力上已跻身全球第一梯队，同时其日均token使用量突破50万亿，较去年同期增长超10倍，超100家企业客户累计token使用量更是超过一万亿，IDC数据显示其中国大模型公有云服务调用量位居首位，彰显出强劲的市场竞争力。

作为豆包家族的最新旗舰型号，豆包大模型1.8面向多模态Agent场景完成定向优化，核心能力实现全面升级。在工具调用、复杂指令遵循及OS Agent三大关键维度，模型的规划与执行效率显著提升，为处理复杂任务奠定坚实基础。视觉理解领域的突破尤为亮眼，其单次视频理解帧数从640帧倍增至1280帧，支持以低帧率高效解析超长视频，同时可灵活调用工具对关键片段进行高帧率精准分析，该功能已在在线教育、产品质检等场景中展现出广泛应用价值。

在多项公开评测中，豆包大模型1.8交出了极具竞争力的答卷：视觉推理、通用视觉问答、空间理解及视频理解等任务均取得最佳或接近最佳成绩，其中在通用智能体测评集BrowserComp上表现全球领先；数学与推理等基础能力维度已接近全球顶尖通用模型水平。具体来看，LU-PTp视觉推理测评中其得分87.9，仅略低于GPT-4.1 High的88.0；VLArB通用视觉问答测评以82.0的高分大幅领先同类模型；VcncMVE长视频理解任务中更是斩获87.8%的优异成绩，充分验证了其多模态能力的综合实力。

针对日益增长的专业视频创作需求，火山引擎推出的Seedance 1.5 Pro音视频创作模型，以音画高精同步技术重塑AI视频生产力。该模型采用创新原生音视频联合生成架构，可融合环境音、背景音乐、人声等多元音频元素，实现毫秒级音画同步输出，影视级的叙事张力能够精准捕捉运动细节与人物细腻情绪。在对白处理上，模型支持多人多语言对话，口型对齐精度极高，覆盖四川话、粤语等中文方言、英文及小语种，极大提升了视频内容的真实感与全球化创作潜力。

为降低创作门槛与成本，Seedance系列即将上线“Draft样片”功能，创作者可先生成低分辨率样片预览，其关键要素与最终成片高度一致，真正实现“预览即所得”。数据显示，该功能可帮助创作者提升65%的整体效率，同时减少60%的无效创作成本。目前个人用户已可在豆包、即梦AI等平台体验该模型，企业用户则从12月23日起通过火山引擎API接入相关服务。

火山引擎总裁谭待表示，传统IT架构已无法满足Agent时代的发展需求，以模型为中心的AI云原生架构正在加速形成。为构建Agent规模化落地基座，火山引擎在技术架构层面完成全面升级：企业级AI Agent平台AgentKit实现迭代，覆盖Agent从开发、部署到管控的全生命周期，针对性解决企业在落地过程中面临的身份权限管理、模型确定性及系统集成等核心挑战；HiAgent智能体工作站同步推出，通过构建统一企业AI任务调度中心、提供开箱即用的通用智能体及支持个性化定制，助力企业实现Agent的规模化管理与应用。

此外，火山引擎创新推出业内首个“AI节省计划”，覆盖所有按量后付费的大模型产品，通过阶梯式折扣政策，帮助企业最高节省47%的使用成本，大幅降低企业AI转型门槛。谭待强调，火山引擎正通过模型能力与基础设施的双重革新，推动AI应用从单一模型调用向复杂Agent智能体生态演进，未来将持续加速AI能力在各行各业的深度落地，为千行百业的数字化转型注入强劲动力。

文、图/广州日报新花城记者：邓莉

广州日报新花城编辑：李光曼

[ 编辑： gzck ]