大模型“落地”持续加速中。“随着大模型与生成式AI的技术突破,图片、视频、语言的理解与生成已经有很大进步,人与人的沟通、人与系统的交互方式,都可能会被重塑。”9月5日,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生对外表示,最近半年,产业界对AI大模型的关注重点,开始从模型技术本身,转到智能应用落地上。
“面向场景创造价值才是大模型发展的意义。”当日,腾讯云副总裁、腾讯云智能负责人、优图实验室负责人吴运声亦谈到,大模型已经在全球发展了两年,一方面,模型性能不断提升,围绕着模型的产品使用门槛变得更低、更加易用;另一方面,企业积极探索大模型与自身业务场景的结合,大模型的落地场景变得更丰富、更纵深。
为了进一步迎合产业需求,腾讯亦构建起了全链路的大模型产品矩阵。其中,包括底层基础设施、帮助企业训练专属模型的TI平台和行业大模型解决方案,自研的混元大模型,构建应用的平台工具,以及基于大模型的各类智能应用。
“混元Turbo”输入和输出价格仅是前代模型的一半
越来越多的企业有开发AI原生应用的需求,而在该领域,多家AI厂商都加速创作引擎等工具的推出。据了解,今年5月,腾讯云就推出了三款PaaS产品知识引擎、图像创作引擎和视频创作引擎,加速应用落地。
通过大模型知识引擎,企业用自然语言和简单配置,5分钟就可以开发出一款大语言模型应用,服务于客服营销、企业知识社区等业务场景。经过几个月的产品迭代,知识引擎产品在用户需求识别与理解、企业知识处理、检索和理解能力上,都有很大升级。同时,知识引擎支持组件能力单独输出,企业可以按需购买文档解析、文档拆分、向量化等能力,按需部署到自身的应用中去。
在图像创作引擎层面,基于混元生图能力的升级,图像风格化、AI写真、商品背景生成、模特换装等功能也进一步实现了迭代。在AI写真层面,图像创作引擎实现了免训练技术突破,输入一张照片后可直接跳过训练环节等待,一键生成高清写真艺术照,整体出图耗时缩短75%。
针对很多电商商家高频使用的商品背景生成能力,图像创作引擎可实现商品在不同场景中高度逼真的虚拟效果展示。在模特换装场景下,采用3D先验方案,提升重建人像效果,在高度保持模特脸部、手部细节的同时,精确将服装版型细节与模特身体特征对齐,确保换装后的效果逼真自然。
基于混元的DiT架构模型,视频创作引擎也迎来了全新的升级。新增了图片跳舞、图片唱演和视频转译等能力,已经实现了单段舞蹈的生成时间从10分钟下降至1分钟级别,同时支持转身、侧身等难例舞蹈动作。同时,针对很多客户有需求的视频转译能力,视频引擎接入了混元文生文大模型和TTS技术,让转译后的视频能够保留说话人的音色特征,同时实现说话人口型与目标语种一致的视听效果。目前视频转译功能支持超过15种小语种,覆盖主流外语翻译,可应用于视频本地化、跨境电商等场景。
为了让企业能便捷地打造专属模型,人工智能开发平台TI平台也进行了全新升级。TI平台致力于构建面向实战的大模型精调工具链,帮助用户训练出真正可用的大模型,并缩短模型开发周期,提升研发效率与资源利用率。
在精调数据准备层面,TI平台全新支持面向多模态大模型的数据集管理和数据标注,首创了基于Schema的标注方法,支持自动生成个性化标注工作台,支持文生文、图生文、图文改写、图文混合问答等主流场景下的全部细分任务类型。
值得留意的是,新一代大模型“混元Turbo”已在腾讯云上线,输入和输出价格只有前代模型的一半。另外,AI应用“元宝”宣布品牌智能体专区也正式上线。
文/广州日报新花城记者:文静
广州日报新花城编辑:杨维玲