首页 > 传媒 > 关键词  > 腾讯云最新资讯  > 正文

腾讯云副总裁吴运声:大模型全矩阵产品升级 助力产业落地

2024-09-06 16:33 · 稿源: 站长之家用户

9月5日,在2024腾讯全球数字生态大会云上智能峰会上,腾讯云副总裁、腾讯云智能负责人、优图实验室负责人吴运声分享了腾讯云在智能领域的比较新进展,并探讨了大模型在产业中的应用和未来发展。

腾讯云副总裁、腾讯云智能负责人、优图实验室负责人吴运声

吴运声在演讲中指出,大模型的发展呈现出两个明显趋势:模型性能不断提升和落地场景不断丰富。他强调,面向场景创造价值才是大模型发展的意义。基于全矩阵的大模型产品,腾讯已经服务了众多客户,在知识管理、智能客服、研发提效、智能营销、内容生成、办公协同、风险管控等场景中,帮助企业实现了降本增效和业务创新。

腾讯云的大模型策略以实用性为核心,满足不同企业在大模型时代的需求。腾讯已经构建起了全链路的大模型产品矩阵,包括底层基础设施、帮助企业训练专属模型的TI平台和行业大模型解决方案,自研的混元大模型,构建应用的平台工具,以及基于大模型的各类智能应用。

吴运声介绍,腾讯比较新发布的混元Turbo版本通过自研的万亿级层间异构MoE技术,相比前代模型实现了训练效率提升108%,推理效率提升高,推理成本降低50%。同时,混元Turbo的效果在多个基准测试上对标GPT-4o,且第三方测评居国内首先。

腾讯云在今年5月还一并推出了三款PaaS产品——大模型知识引擎、图像创作引擎和视频创作引擎。经过两个月的迭代,这些产品的能力进一步升级,可以为电商、出海等领域的客服营销、企业知识社区等众多业务场景提供效率的助力和创新的支持,也进一步加快了大模型在实际场景中应用落地的速度。

在模型训练工具方面,为了帮助企业用户更便捷地打造专属模型,人工智能开发平台TI平台也进行了全新升级。在精调数据准备层面,TI平台全新支持面向多模态大模型的数据集管理和数据标注,首创了基于Schema的标注方法,支持用户自动生成个性化标注工作台,支持文生文、图生文、图文改写、图文混合问答等主流场景下的全部细分任务类型。

同时,腾讯云将2D数智人、3D数智人和声音复刻管线全面输出,支持企业私有化部署和灵活定制。管线输出意味着,客户可以将训练数据和训练模型都部署在自己的环境上,推动数智人在更多场景的普及和落地。

附:演讲全文

尊敬的各位嘉宾、媒体朋友们,

大家好!

我是腾讯的吴运声,很高兴在这里跟大家分享腾讯云在智能领域的比较新进展和思考。

大模型已经发展了两年,我们能明显看到两个趋势:一方面,模型性能在不断提升,围绕着模型的产品使用门槛也变得更低、更加易用;另一方面,企业和开发者积极探索大模型与自身业务场景的结合,大模型的落地场景不断丰富、更纵深。我们认为,面向场景创造价值才是大模型发展的意义。

腾讯的大模型策略,从最开始就以实用为目标,我们希望构建起离产业最近的AI产品矩阵。从底层的高性能计算、存储、网络等AI infra产品,到一站式的人工智能开发平台TI和行业大模型解决方案,再到自研的混元大模型,以及基于大模型的各类工具和智能应用,我们提供了全方位的产品,满足企业在大模型时代的各类需求。无论是做大模型的企业,还是想要搭建AI应用的创业者,还是想利用AI来实现降本增效的企业,都能在腾讯云上找到好用的工具。

去年的生态大会上,我们正式发布了全链路自研的腾讯混元大模型。经过不断的迭代创新,混元已经稳居国内大模型首先梯队。

今天,我们正式推出了更快更强的混元Turbo版本,通过自研的万亿级层间异构MoE结构,混元Turbo用更多的专家数、更少的激活参数量实现了更好的效果。相比前一代MoE大模型,腾讯混元Turbo的训练效率提升108%,推理效率提升1倍,推理成本降低50%,仅用一半训练语料,就实现效果提升14%,中文场景的效果对标GPT-4o。技术创新让我们可以更多地让利给客户,混元Turbo的定价仅为混元Pro版的一半。

在多模态领域,混元的多项能力也在国内保持领先。混元生图是头个中文原生的DiT架构文生图开源模型,目前在网络衍生的模型数量超过2000个。这也充分证明了开发者对于我们模型能力的认可。

近期,混元还推出了基于 MoE 架构的多模态理解大模型混元vision。我们在架构、训练方法和数据处理方面进行了创新和深度优化,显著提升了性能,能支持比较高7K 分辨率、比较大长宽比16:1的图片的理解。在近期发布的中文多模态大模型 SuperCLUE-V 基准评测中,腾讯混元斩获国内排名首先,超越了多个主流闭源模型。

在自研的混元大模型之外,为了帮助企业用户更便捷地打造专属模型,我们的人工智能开发平台TI平台也进行了全新升级。在精调数据准备层面,我们全新支持面向多模态大模型的数据集管理和数据标注,首创了基于Schema的标注方法,支持用户自动生成个性化标注工作台,支持文生文、图生文、图文改写、图文混合问答等主流场景下的全部细分任务类型。

高质量的训练数据是精调出一个可落地大模型的前提条件。TI 平台的多模态数据集管理和数据标注能力,可提升大模型精调的数据准备效率和训练数据质量,从而提升大模型训练效率和最终效果。

大模型训练之外,针对OCR和工业质检场景等垂直训练场景,我们也对产品进行了升级。OCR场景中,可以实现智能反馈出模糊、反光等场景下的误识别,水印识别平均准确率提升至95%。在工业质检场景下,我们全新支持基于Visual Prompting 的小样本分割链路,并推出缺陷感知通用模型、缺陷自动合成功能,可实现“0” 标注或“1”标注下解决质检问题。

具体到模型工具产品方面,今年5月,我们推出了三个大模型PaaS产品:知识引擎、图像创作引擎和视频创作引擎,帮助企业快速、轻松打造AI原生应用。

大模型知识引擎聚焦企业知识服务场景。通过该平台,企业用自然语言和简单配置,5分钟就可以开发出一款大语言模型应用,服务于客服营销、企业知识社区等业务场景。经过几个月的产品迭代,知识引擎产品在用户需求识别与理解、企业知识处理、检索和理解能力上,都有很大的升级。

比如,我们综合运用向量检索、摘要检索、text2sql多种技术手段,显著提升了复杂大表的检索及问答准确率。同时,我们升级了升级多模态知识解析、检索、阅读理解能力,实现读懂文中的“数据图”、“自然场景图”、“图文关系”。

同时,我们提供了更灵活的购买方式,支持组件能力的单独输出,企业可以按需购买文档解析、文档拆分、向量化等能力,按需部署到自身的应用中去。

在图像创作引擎层面,基于混元生图能力的升级,我们的图像风格化、AI写真、商品背景生成、模特换装等功能也进一步实现了迭代。在AI写真层面,我们实现了免训练技术突破,输入一张照片后可直接跳过训练环节等待,一键生成高清写真艺术照,整体出图耗时缩短75%。

针对很多电商商家高频使用的商品背景生成能力,我们大幅提高了背景画面真实度、商品分割细腻度,以及商品与背景间融合的自然度与交互合理性,实现商品在不同场景中高度逼真的虚拟效果展示。在模特换装场景下,我们采用3D先验方案,提升重建人像效果,在高度保持模特脸部、手部细节的同时,比较准确将服装版型细节与模特身体特征对齐,确保换装后的效果逼真自然。

基于混元的DiT架构模型,我们的视频创作引擎也迎来了全新的升级,新增了图片跳舞、图片唱演和视频转译等能力。

首先,我们来看下图片跳舞能力,目前,我们已经实现了单段舞蹈的生成时间从10分钟下降至1分钟级别,同时支持转身、侧身等难例舞蹈动作。人物跳舞的自然度已经有了很大的提升,这背后是我们基于3d-boby重建技术,进一步优化了算法,画面的真实度和自然度也有了明显提升。

在图片唱演层面,我们目前可以支持一张人像图片生成一段唱演视频,视频生成的人物的面部表情和情绪演绎都更加自然灵动。

同时,针对很多客户有需求的在视频转译能力,我们接入了混元文生文大模型和 TTS 技术,让转译后的视频能够保留说话人的音色特征,同时实现说话人口型与目标语种一致的视听效果。目前视频转译功能支持15+小语种,覆盖主流外语翻译,可应用于视频本地化、跨境电商等场景。

基于腾讯先进的形象驱动、自然语言理解和识别能力,我们的数智人形象自然度业界领先。目前,腾讯云智能数智人已经在业务办理、用户运营、营销获客以及品牌宣传等业务场景中落地。

今天,我们也将2D数智人、3D数智人和声音复刻管线全面输出,支持企业私有化部署和灵活定制。管线输出意味着,客户可以将训练数据和训练模型都部署在自己的环境上。我们的合作伙伴也可以基于我们的管线能力批量生成数智人,更好地推动数智人在更多场景的普及和落地。

基于我们全矩阵的大模型产品,我们已经服务了众多客户,在知识管理、智能客服、研发提效、智能营销、内容生成、办公协同、风险管控等场景中,很多客户利用我们的产品实现了降本增效和业务创新。

在智能客服与知识管理场景中,基于大模型的生成能力,可以显著提升复杂问题的解决效率,提升回答质量。比如,汽车售后服务是一个典型的专业客服场景,涉及的知识复杂,汽车说明书包括图片、表格等众多形式,传统客服机器人无法及时准确地回答问询。我们与长安汽车共创,利用大模型知识引擎整合汽车使用手册等资料,有效解决了客户在车辆使用和维护中的疑问,显著提升了客户服务体验。

在智能营销场景,大模型可以提升广告素材的生产效率,提升营销互动的趣味和互动性。比如,蒙牛在一场营销活动中,利用图生图能力,将用户上传的全家福转化生成为特制的卡通画风,助力会员拉新、提升用户活跃。活动期间小程序相对于去年同期提升80%以上。

在内容创意场景,大模型可以让内容生产的周期大幅缩短,提供更多的创意玩法。比如,人民日报、新华社等媒体结合我们的文生视频能力,创作了很多视频作品。过去,视频内容需要一帧帧进行设计和制作,制作周期短则数天,长则数月。现在借助视频生成能力,只需一段文字或者几张图片,就能在几分钟内生成优质视频内容。

在研发提效领域,我们一方面提供了TI平台等工具,帮助易车、阅文等企业搭建自己的大模型,显著降低了模型构建的时间和成本;另一方面,通过AI代码助手等工具,我们也辅助开发者,提升研发的效率,帮助企业提升整体研发效能。

在办公协同场景中,腾讯旗下的企业微信、腾讯会议、腾讯文档都已经接入了混元大模型。在大模型的助力下,企业微信可对英文邮件进行智能检查,辅助英文邮件纠错,腾讯会议可以自动总结会议纪要,腾讯文档能够自动生成各类文档。这些功能把个体从繁琐的工作中解放出来,也显著提升了团队协同的效率。

在风险管控领域,风控大模型可以解决传统风控中建模时间长、效率低的难题。通过打包丰富的反欺诈知识,实现“小样本”训练,快速构建契合业务需求的风控模型体系。比如,东风日产汽车金融,基于少量提示样本迁移,就完成了适配自身业务场景的风控模型定制。相比于传统的建模方式,模型KS性能提升超过20%,在跨场景的泛化性测试上性能提升53%。

今天我们也很荣幸请来了很多客户来分享他们的落地实践。未来,我们也希望与更多客户携手,推动大模型落地到场景中,真正为企业创造价值!谢谢大家!

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • Product Description Generator:利用AI技术生成多语言产品描述

    Product Description Generator是一个基于人工智能技术的电商演示项目,它能够让用户上传产品图片,并生成不同语言的详细产品描述。该项目由Together AI和Llama 3.2 Vision提供支持,使用户能够快速生成适合多语言市场的电商产品描述。它的重要性在于帮助电商企业节省编写产品描述的时间和成本,同时提高产品的国际化水平。

  • Zeli:用中文阅读Hacker News和AI论文

    Zeli是一个旨在帮助用户快速挑选感兴趣的科技新闻文章阅读的平台。它专注于提供Hacker News和AI论文的中文翻译,让用户能够更便捷地获取和理解最新的科技资讯和研究成果。Zeli通过翻译和聚合内容,降低了语言障碍,使得中文用户能够更容易地接触到全球的科技创新和学术进展。

  • DrunkSense:全球首个无需呼吸测醉器的被动醉酒驾驶检测系统

    DrunkSense是VinAI公司推出的一款革命性的醉酒驾驶检测技术,它利用多传感器方法,结合面部表情跟踪、车辆控制监控和空气酒精传感器,能够在无需驾驶员主动配合的情况下,以85%的准确率检测出驾驶员是否处于醉酒状态。这项技术不仅提高了检测的灵敏度,还减少了因醉酒驾驶引发的交通事故,为现代交通安全带来了突破性的改进。DrunkSense技术的出现,为汽车制造商提供了符合严格标准的安全解决方案,有助于提升所有交通参与者的安全感。

  • Intel Core Ultra Desktop Processors:首款AI PC英特尔®酷睿™至尊台式机处理器

    英特尔®酷睿™至尊200系列台式机处理器是首款面向台式机平台的AI PC处理器,为发烧友带来卓越的游戏体验和行业领先的计算性能,同时显著降低功耗。这些处理器拥有多达8个下一代性能核心(P-cores)和多达16个下一代能效核心(E-cores),与上一代相比,在多线程工作负载中性能提升高达14%。这些处理器是首款为发烧友配备神经处理单元(NPU)的台式机处理器,内置Xe GPU,支持最先进的媒体功能。

  • OneIMGAI:一键生成图片的AI工具

    OneIMG是一个基于人工智能技术的在线图片生成工具,它通过用户输入的文本描述来生成相应的图片。这种技术的应用可以极大地提高设计师和创意工作者的工作效率,因为它可以快速地将创意转化为视觉图像。OneIMG的背景信息显示,它是一个创新的产品,旨在通过AI技术简化图片创作流程。目前,OneIMG提供免费试用,但具体的定价策略尚未明确。

  • Silo:多模型对话,文生图

    Silo是一个专注于多模型对话的平台,它通过整合不同的对话模型,为用户提供丰富、深入的交流体验。该平台不仅能够处理文本对话,还能生成图像,为用户提供视觉化的交流方式。Silo的背景信息显示,它是一个创新的尝试,旨在通过技术手段打破传统对话的局限,让交流更加生动和有趣。目前,Silo提供免费试用,具体价格和定位尚未明确。

  • Copilot Lab:探索和体验Microsoft Copilot的智能辅助功能

    Copilot Lab是微软推出的一个在线平台,旨在展示和教育用户如何使用Microsoft Copilot的智能辅助功能。Copilot通过集成到常用的Microsoft 365应用程序中,如Word、Excel、PowerPoint等,帮助用户更高效地完成工作。它利用人工智能技术,根据用户提供的指令(prompts)自动生成内容,从而提高工作效率和创造力。Copilot Lab提供了丰富的示例和指导,帮助用户快速上手并充分利用Copilot的强大功能。

  • We, Robot:特斯拉自动驾驶技术与机器人的未来愿景

    We, Robot 是特斯拉公司展示其在自动驾驶技术和机器人技术领域愿景的页面。它强调了特斯拉对于创建可持续未来、提高交通效率、可负担性和安全性的承诺。该页面介绍了特斯拉的全自动驾驶技术(监督)以及未来自动驾驶汽车和机器人的潜在应用,如Robotaxi、Robovan和Tesla Bot。这些技术旨在通过自动化提高日常生活的便利性,同时减少交通事故,降低交通成本。

  • Kimi探索版:深度推理AI搜索功能,像人类一样思考和解决问题。

    Kimi探索版是Kimi新增的深度推理AI搜索功能,通过理解、拆解问题,再进行搜索和推理给出答案,一次搜索即可精读500个页面。新功能让Kimi能像人类一样思考,提供更准确、实用的搜索结果。还能使用数学模型和编程处理复杂问题,并在必要时进行自我反思以优化答案。简而言之,Kimi探索版让AI搜索更智能,更接近人脑的工作方式。

  • The Innovation Workspace:AI驱动的协作平台,助力团队从想法到成果快速推进。

    The Innovation Workspace 是一个集成了人工智能技术的协作平台,旨在帮助团队更高效地将想法转化为实际成果。它提供了一个无限的画布空间,让团队可以添加内容、推进项目,并共同工作直至想法成真。该平台拥有超过80M用户和250,000家公司,正在使用它来加速和管理他们的端到端创新生命周期。Miro提供了广泛的配置和原生安全控制,以适应不同组织规模和复杂性的具体要求。

  • Inbox AI:AI驱动的个人生产力工具

    Inbox AI是一款AI驱动的个人生产力工具,旨在帮助用户通过智能化的方式管理和自动化电子邮件任务。它提供了基于云的AI服务,同时也支持隐私优先的本地AI处理。用户可以根据自己的需求选择使用在线AI或本地AI,以提高日常工作效率,减少重复性任务,专注于更重要的事情。Inbox AI的主要优点包括无需重复订阅费用、支持多种输入方式(如邮件、屏幕截图、语音命令等)、与多种应用(如Notion、Obsidian等)集成,以及提供Apple Mail扩展等。

  • State of AI Report 2024:2024年AI发展状态的权威报告

    State of AI Report 2024是由AI领域投资者Nathan Benaich和Air Street Capital共同制作的年度报告,旨在分析AI领域最有趣的发展,并引发关于AI现状及其对未来影响的知情讨论。报告涵盖了研究、产业、政治、安全等多个维度,提供了对未来AI发展的预测和评估。这份报告是了解AI领域最新进展和趋势的重要资源,对于研究人员、企业家、政策制定者以及对AI感兴趣的公众都具有极高的参考价值。

  • Cheating LLM Benchmarks:研究项目,探索自动语言模型基准测试中的作弊行为。

    Cheating LLM Benchmarks 是一个研究项目,旨在通过构建所谓的“零模型”(null models)来探索在自动语言模型(LLM)基准测试中的作弊行为。该项目通过实验发现,即使是简单的零模型也能在这些基准测试中取得高胜率,这挑战了现有基准测试的有效性和可靠性。该研究对于理解当前语言模型的局限性和改进基准测试方法具有重要意义。

  • Cove:AI协作者,共同探索、规划和工作的新方式。

    Cove是一个新型的AI协作者,它通过共享工作空间、直接编辑内容、学习用户添加的内容,并提供多个可能的方向来推动用户的工作。Cove利用最新的网络数据,加速用户的工作,同时通过并行搜索提高效率。Cove支持多种文件格式,如文本、表格、图像、网页和PDF等,让AI和用户之间共享上下文,从而更好地协作。Cove的产品背景信息包括由红杉资本领投的600万美元种子轮融资,并且提供Chrome扩展,方便用户在不同的网站和应用中使用。

  • Kvistly:AI驱动的互动式测验制作工具

    Kvistly是一个利用人工智能技术创建互动式测验的平台,旨在提升销售培训、团队建设、培训和入职等环节的效率和参与度。它通过实时的互动学习连接真人,增强团队协作和知识传递。产品背景信息显示,Kvistly在教育和商业培训领域具有重要性,通过游戏化学习提高员工的参与度和学习效果。价格方面,Kvistly提供定价信息,但具体细节需访问其定价页面了解。

  • Quetzal:现代国际化平台,快速实现产品多语言支持。

    Quetzal是一个现代国际化平台,旨在帮助用户快速将产品翻译成多种语言,以获得全球新客户。该平台提供工具,支持20多种语言,与Next.js和React兼容,并且拥有快速设置流程,仅需约10分钟。Quetzal利用人工智能技术,结合应用程序的上下文,在几分钟内实现最佳翻译效果。它还提供了一个仪表板,让用户可以在一个地方查看和管理所有的字符串。产品背景信息显示,Quetzal由Quetzal Labs, Inc.在奥克兰精心打造,并且提供了一个慷慨的免费计划,直到用户添加第二种语言。

  • Aria:多模态原生混合专家模型

    Aria是一个多模态原生混合专家模型,具有强大的多模态、语言和编码任务性能。它在视频和文档理解方面表现出色,支持长达64K的多模态输入,能够在10秒内描述一个256帧的视频。Aria模型的参数量为25.3B,能够在单个A100(80GB)GPU上使用bfloat16精度进行加载。Aria的开发背景是满足对多模态数据理解的需求,特别是在视频和文档处理方面。它是一个开源模型,旨在推动多模态人工智能的发展。

  • Marqo:训练和部署嵌入式模型的AI平台

    Marqo是一个专注于训练和部署嵌入式模型的平台,它提供了一个端到端的解决方案,从模型训练到推理,再到存储。Marqo支持150多种嵌入式模型,并且可以快速原型设计,加速迭代,并无缝部署。该平台支持多模态模型,如CLIP,可以从图像和其他数据类型中提取语义信息,实现文本和图像的无缝搜索,甚至可以将文本和图像组合成一个向量。Marqo还支持100多种语言的搜索,提供最先进的多语言模型,无需手动进行语言配置即可扩展到新的地区。此外,Marqo的可扩展性允许用户在笔记本电脑上的Docker镜像中运行,也可以扩展到云端数十个GPU推理节点,提供低延迟的搜索服务。

  • AMD Instinct MI325X Accelerators:为AI基础设施提供领导性的AI性能

    AMD Instinct MI325X加速器基于AMD CDNA 3架构,专为AI任务设计,包括基础模型训练、微调和推理,提供卓越的性能和效率。这些产品使AMD的客户和合作伙伴能够在系统、机架和数据中心层面创建高性能和优化的AI解决方案。AMD Instinct MI325X加速器提供了行业领先的内存容量和带宽,支持6.0TB/s的256GB HBM3E,比H200多1.8倍的容量和1.3倍的带宽,提供了更高的FP16和FP8计算性能。

  • Ryzen™ AI PRO 300 Series Processors:第三代商用AI移动处理器,为商务用户带来前所未有的AI计算能力和多日电池续航。

    AMD Ryzen™ AI PRO 300系列处理器是专为企业用户设计的第三代商用AI移动处理器。它们通过集成的NPU提供高达50+ TOPS的AI处理能力,是市场上同类产品中性能最强的。这些处理器不仅能够处理日常的工作任务,还特别为满足商务环境中对AI计算能力的需求而设计,如实时字幕、语言翻译和高级AI图像生成等。它们基于4nm工艺制造,并采用创新的电源管理技术,能够提供理想的电池续航能力,非常适合需要在移动状态下保持高性能和生产力的商务人士。

今日大家都在搜的词: