首页 > AI头条  > 正文

彩云小梦V3.5上线!突破性提升Transformer效率

2024-11-14 18:01 · 来源: AIbase基地

彩云科技日前在北京举办"From Paper to App"主题沟通会,正式发布基于DCFormer架构的通用大模型"云锦天章",并宣布旗下AI RPG平台彩云小梦升级至基于DCFormer的V3. 5 版本。这标志着人工智能领域在模型架构效率方面取得重大突破。

在AI领域,Transformer架构一直是ChatGPT、Gemini等主流大模型的核心技术支撑。今年,彩云科技在国际顶级会议ICML上发表的论文《Improving Transformers with Dynamically Composable Multi-Head Attention》首次提出DCFormer架构。测试显示,基于该架构开发的DCPythia-6.9B模型在性能上实现了对传统Transformer模型1.7- 2 倍的显著提升。

对于AI发展面临的能源挑战,彩云科技CEO袁行远指出,根据预测,到 2050 年全球AI耗电量可能达到目前地球发电能力的 8 倍。英伟达CEO黄仁勋更形象地表示,按目前发展速度,未来可能需要" 14 个行星、 3 个星系、 4 个太阳"来为AI提供能源支持。

针对这一困境,彩云科技选择从改善模型底层架构入手。DCFormer通过引入可动态组合的多头注意力(DCMHA)机制,解除了传统多头注意力模块(MHA)中注意力头的固定绑定,实现了更灵活的动态组合,从而大幅提升模型表达能力。该创新使彩云科技在ICML会议上的三篇论文获得平均 7 分的高分,并成为国内仅有的两家受邀在维也纳ICML2024 登台演讲的企业之一。

作为DCFormer架构的首个落地产品,新版彩云小梦展现出卓越性能:支持 1 万字的长文本输入,故事背景设定长度可达 1 万字,整体流畅性和连贯性提升20%。这意味着AI能够更好地维持剧情连贯性,保持人物性格一致性,并具备情节反思和修正能力。

彩云科技作为国内最早涉足大语言模型的企业之一,目前已拥有彩云天气、彩云小梦、彩云小译三款盈利性AI产品。公司表示将继续加大对DCFormer的研发投入,致力于打破"国外技术层、国内应用层"的传统格局,推动国产AI技术在全球竞争中占据优势地位。

通过这次技术突破,彩云科技不仅展现了中国企业在AI底层架构创新方面的实力,更为解决AI发展中的能源瓶颈提供了新思路,有望加速AI技术的可持续发展。


  • 相关推荐
  • 微算法科技MLGO突破性的监督量子分类器:纠缠辅助训练算法为量子机器学习开辟新天地

    量子机器学习(QML)正成为计算科学领域的研究热点。传统机器学习面临计算瓶颈和数据处理的局限性,而量子计算凭借其并行处理能力展现出巨大潜力。微算科技提出基于量子纠缠的新型训练算法,通过量子叠加态同时处理多个训练样本,大幅提升训练效率。该算法利用贝尔不等式构建成本函数,能同时优化多个样本误差,避免传统方法中的局部最优问题。量子分类器不仅能处理单一样本信息,还能在量子态中对多个样本进行并行处理。尽管量子计算仍面临硬件稳定性等挑战,但随着技术进步,QML有望在复杂分类任务中展现革命性优势,成为未来科技创新的重要方向。

  • 从数字枷锁到智能伙伴:AI Agent正在系统性重构CRM价值逻辑

    微软CEO纳德拉提出AI Agent将彻底改变SaaS行业,以Copilot Workspace为代表的新型交互方式正在重塑CRM领域。Salesforce和销售易等企业已推出AI Agent产品,通过自然语言交互优化销售流程,解决传统CRM数据录入繁琐、决策滞后等痛点。AI Agent能自动分析客户数据、生成拜访计划、实时转录会议内容,并精准识别增量客户,将销售效率提升10倍以上。腾讯投资的销售易NeoAgent平台已上线渠道助理、营销Agent等产品,通过大模型与业务系统深度整合,实现从"流程固化"到"智能协同"的转变。这场变革标志着SaaS 2.0时代的到来——软件不再是工具,而是能理解意图、主动规划的数字员工。未来商业竞争的核心,将转向数据资产厚度与场景落地的精准度。

  • 聚焦大模型训练效率提升 北大依托昇腾突破细粒度混合并行技术

    北京大学崔斌教授团队在鹏城实验室支持下,研发了面向大模型的高效分布式训练框架。该框架通过统一训练接口、细粒度模型切分与并行策略搜索算法,解决了训练任务多样性和负载不均问题,实现训练效率提升15%。同时利用昇腾计算资源管理能力,优化硬件通信效率,通过计算通信重叠技术提升流水线效率。研究成果已在NeurIPS等顶会发表3篇论文,展现了国产算力在分布式计算领域的潜力,为AI产业自主化突破提供支撑。

  • 曝OPPO Find X9 Ultra配备1.5K屏 周意保:假的

    OPPO Find系列产品负责人周意保与网友互动时表示,OPPO Find X9 Ultra配备1.5K屏是假消息。从周意保的爆料来看,Find X9 Ultra似乎会配备2K直屏。 博主数码闲聊站称,OPPO Find X9 Ultra测试了三块屏幕,一块新开1.5K LTPO,一块新开2K LTPS,一块2K LTPO,明年上半年才会发布,具体使用哪块屏幕再观望观望。

  • 三维扫描革新碾磨机辊套检测,效率与精度双提升!

    本文探讨了三维扫描技术在碾磨机械制造领域对轮套质量检测与磨损分析的应用。传统检测方式效率低、精度差且依赖经验,而NimbleTrack智能无线三维扫描系统通过高精度数据采集(精度达0.025mm)、色差图分析、截面直径测量等技术手段,实现了对轮套尺寸偏差、表面缺陷和磨损程度的精准评估。该系统具有便携灵活、检测时间短(从数小时缩短至几分钟)、支持定量化磨损分析等优势,能优化修复工艺,降低堆焊返修成本。案例显示,该技术可帮助制造企业提升质检效率50%以上,使返修成本降低30%,推动行业向数字化、智能化转型发展。

  • 3节点集群带宽突破 513GBps 焱融存储再度登顶MLPerf Storage 全球榜单

    2025年8月4日,MLCommons®发布最新MLPerf® Storage v2.0基准测试结果。中国厂商焱融科技的全闪存一体机F9000X表现突出:在3D-Unet模型测试中以三节点存储集群实现513GB/s总带宽,刷新全球纪录;在ResNet50、CosmoFlow等所有模型测试中均领先,登顶性能榜单。新版本新增Checkpoint工作负载测试,覆盖模型存档等实际场景。测试显示F9000X在分布式和单节点场景均表现优异,其中Llama3-70B模型测试

  • 腾讯云TencentOS提交Swap Table补丁系列 Linux内核内存交换性能提升20%~30%

    腾讯云操作系统团队提交了名为Swap Table的补丁系列,针对Linux内核交换子系统进行优化。该系列在4K页面和mTHP folios场景下,使系统性能提升20%-30%。Swap Table通过智能调度机制优化数据定位,支持大页尺寸减少操作次数,并实现动态空间扩展。27项独立改进解决了历史遗留问题,经实测性能显著提升。目前补丁系列正处于审核阶段,有望纳入Linux内核主线。这是腾讯云团队继内存控制组、页面热管理等创新后,在操作系统核心技术领域的又一突破,将强化TencentOS Server的高性能优势。

  • 北大张牧涵团队依托昇腾突破推理效率瓶颈 大模型推理百万tokens 成本仅 1 元

    北京大学张牧涵团队在昇腾算力支持下,研发出一套高效大模型训练推理架构,实现百万tokens输入成本低至1元。该成果包含三项关键技术:1)通过分离注意力头中的位置与非位置信息,仅用3%位置信息即可维持模型性能;2)采用联合KV低秩压缩方法,仅保留12.5%的KV Cache;3)基于昇腾硬件并行计算能力,实现Recurrent Decoding技术提升训练数据利用率。该架构显著降低AI大模型应用成本,验证了昇腾算力平台支撑尖端科研的实力。

  • HKTWeb3 交易平台正式上线,打造链上资产与实体金融桥梁

    HKTWeb3交易平台将于2025年8月2日在香港正式上线。该平台以"安全、合规、透明"为核心,致力于连接链上资产与实体金融世界,提供六大核心业务模块:链上信托、链上贸易、链上金融、HKT钱包、交易平台和锚定资产储备。平台接受香港持牌信托公司监管,确保资金流转、交易撮合等环节的合规性。作为全球首批采用"实体承兑+链上信托"架构的数字资产平台,HKTWeb3旨在构建服务实体经济的Web3基础设施,推动数字资产在投资、支付等现实场景的应用。平台将与香港Web3科技协会合作,加速本地生态建设。

  • 七牛云上线Agent和MCP托管服务

    七牛云AI大模型推理平台推出Agent与MCP托管服务,通过标准化接口实现LLM与多工具协同。MCP协议统一了应用程序与云端服务调用方式,LLM+MCP成为AI Agent生态核心。平台提供一站式模型推理和工具调用服务,支持复杂Agent应用开发,具备三大优势:1)统一接入管理多种工具和模型;2)集中托管敏感密钥确保安全;3)简化本地环境配置。开发者可通过Token API直接调用托管MCP工具,或使用SSE协议接入外部工具。典型应用场景包括:聚合多工具调用、灵活编排服务、安全密钥管理等。该服务显著降低AI应用开发门槛,加速智能化应用构建。

今日大家都在搜的词:

热文

  • 3 天
  • 7天