5分钟开发出一款大语言模型应用腾讯云大模型三大引擎升级

2024-09-06 22:49 来源:大洋网

大模型“落地”持续加速中。“随着大模型与生成式AI的技术突破，图片、视频、语言的理解与生成已经有很大进步，人与人的沟通、人与系统的交互方式，都可能会被重塑。”9月5日，腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生对外表示，最近半年，产业界对AI大模型的关注重点，开始从模型技术本身，转到智能应用落地上。

“面向场景创造价值才是大模型发展的意义。”当日，腾讯云副总裁、腾讯云智能负责人、优图实验室负责人吴运声亦谈到，大模型已经在全球发展了两年，一方面，模型性能不断提升，围绕着模型的产品使用门槛变得更低、更加易用；另一方面，企业积极探索大模型与自身业务场景的结合，大模型的落地场景变得更丰富、更纵深。

为了进一步迎合产业需求，腾讯亦构建起了全链路的大模型产品矩阵。其中，包括底层基础设施、帮助企业训练专属模型的TI平台和行业大模型解决方案，自研的混元大模型，构建应用的平台工具，以及基于大模型的各类智能应用。

“混元Turbo”输入和输出价格仅是前代模型的一半

越来越多的企业有开发AI原生应用的需求，而在该领域，多家AI厂商都加速创作引擎等工具的推出。据了解，今年5月，腾讯云就推出了三款PaaS产品知识引擎、图像创作引擎和视频创作引擎，加速应用落地。

通过大模型知识引擎，企业用自然语言和简单配置，5分钟就可以开发出一款大语言模型应用，服务于客服营销、企业知识社区等业务场景。经过几个月的产品迭代，知识引擎产品在用户需求识别与理解、企业知识处理、检索和理解能力上，都有很大升级。同时，知识引擎支持组件能力单独输出，企业可以按需购买文档解析、文档拆分、向量化等能力，按需部署到自身的应用中去。

在图像创作引擎层面，基于混元生图能力的升级，图像风格化、AI写真、商品背景生成、模特换装等功能也进一步实现了迭代。在AI写真层面，图像创作引擎实现了免训练技术突破，输入一张照片后可直接跳过训练环节等待，一键生成高清写真艺术照，整体出图耗时缩短75%。

针对很多电商商家高频使用的商品背景生成能力，图像创作引擎可实现商品在不同场景中高度逼真的虚拟效果展示。在模特换装场景下，采用3D先验方案，提升重建人像效果，在高度保持模特脸部、手部细节的同时，精确将服装版型细节与模特身体特征对齐，确保换装后的效果逼真自然。

基于混元的DiT架构模型，视频创作引擎也迎来了全新的升级。新增了图片跳舞、图片唱演和视频转译等能力，已经实现了单段舞蹈的生成时间从10分钟下降至1分钟级别，同时支持转身、侧身等难例舞蹈动作。同时，针对很多客户有需求的视频转译能力，视频引擎接入了混元文生文大模型和TTS技术，让转译后的视频能够保留说话人的音色特征，同时实现说话人口型与目标语种一致的视听效果。目前视频转译功能支持超过15种小语种，覆盖主流外语翻译，可应用于视频本地化、跨境电商等场景。

为了让企业能便捷地打造专属模型，人工智能开发平台TI平台也进行了全新升级。TI平台致力于构建面向实战的大模型精调工具链，帮助用户训练出真正可用的大模型，并缩短模型开发周期，提升研发效率与资源利用率。

在精调数据准备层面，TI平台全新支持面向多模态大模型的数据集管理和数据标注，首创了基于Schema的标注方法，支持自动生成个性化标注工作台，支持文生文、图生文、图文改写、图文混合问答等主流场景下的全部细分任务类型。

值得留意的是，新一代大模型“混元Turbo”已在腾讯云上线，输入和输出价格只有前代模型的一半。另外，AI应用“元宝”宣布品牌智能体专区也正式上线。

文/广州日报新花城记者：文静

广州日报新花城编辑：杨维玲

[ 编辑： gzck ]