11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
腾讯云
12-20
多模态大模型时代,训练基础设施正面临结构性错位。传统框架基于“数据同质、结构单一、平台固定”设计,难以应对多模态异构数据、模型组件协同及跨平台算力需求。百度百舸开源的全模态训练框架LoongForge,以Megatron为核心引擎,通过统一模型抽象、系统层优化和硬件插件化设计,实现“一套代码多平台运行”。其CCT通算传并行、ChunkPipe流水线并行、自适应FP8等技术,在主流模型上实现15%-45%端到端训练加速,在DeepSeek等前沿架构上实现倍级性能提升,并在5000+卡昆仑P800集群上达到90%+线性扩展效率。
本期AI日报聚焦八大热点:月之暗面将推2.5万亿参数Kimi K3大模型,长文本处理能力突破;英伟达发布多模态模型Nemotron-3 Nano Omni,推理效率提升9倍;蚂蚁集团开源百灵Ling-2.6-flash模型;商汤推出原生多模态统一模型SenseNova U1;Claude深度集成Adobe等八大软件;字节TRAE SOLO上线语音输入;科大讯飞发布星火X2-Flash模型;ima上线知识Agent copilot,内置记忆系统。
DeepSeek V4刚发布还不到5天,光是降价就来了三轮,然而他们的后续动作还很多,马上就要推出满血DeepSeek V4,补上多模态支持。 DeepSeek负责多模态开发的研究员陈小康(xiaokang_chen)今天下午在X上预告新版DeepSeek V4,不出意外就是多模态版的DeepSeek V4了。 此前发布的DeepSeek V4不论Flash还是Pro,都还是纯文本大模型,未免有些遗憾,不是说纯文本没有用,而是多模态支持能力是当�
快科技4月7日消息,DeepSeek V4预计本月发布,新模型可能包含快速版、深度版及多模态版三款,支持视觉功能。此前系统崩溃和灰度测试均暗示升级在即。程序员展示的新界面含快速、专家及视觉选项,与现有界面形成对比。此外,DeepSeek至少还有两款使用国产芯片的大模型在开发中。用户期待官方正式发布,并希望推出面向AI编程的特别版。
本期AI日报聚焦多领域进展:智谱发布GLM-5V-Turbo多模态编程模型,实现视觉与编程深度融合;字节跳动火山引擎开放Seedance 2.0视频生成API;美团开源LongCat-AudioDiT,刷新语音克隆SOTA;字节豆包大模型日消耗Token破120万亿,国产模型调用量持续增长;蚂蚁数科推出专业级AI智能体DTClaw;Anthropic测试常驻代理Conway,支持独立UI与Webhook;谷歌即将开源120B参数Gemma 4模型;通义实验室发布Qwen3.6-Plus,提升编程智能体稳定性。
科大讯飞近日在世界移动通信大会上发布了一款创新产品讯飞AI眼镜。这款专为跨语言交流设计的智能设备重量仅40克,目前产品已开启预约通道。 虽然具体售价和正式发售日期尚未公布,但官方透露提前预约可享受299元抵扣优惠。 这款眼镜突破了传统翻译设备的形态限制,通过镜片实时投射翻译字幕,并配合内置扬声器输出语音译文。 当对话双方交流时,系统可同步完成�
在2026年世界移动通信大会(MWC)上,科大讯飞以“AI Connecting Ideas”为主题,首次全球亮相其AI眼镜。该产品集多模态同传翻译与极致轻量化设计于一身,凭借领先的多模态降噪、全能翻译及多模态记录功能,吸引了众多海外运营商、技术伙伴及专业媒体的关注。其创新的唇动识别多模态降噪方案,通过摄像头捕捉说话者唇部运动,融合骨传导麦克风捕捉佩戴者声音,将音视频两路信息融合处理,在多人交谈的嘈杂背景中精准锁定目标讲话人,将语音识别和翻译的准确率提升50%以上。整机重量仅40克,相比当前市面主流同类产品重量降低了约20%,是目前全球最轻的双目单色显示多模态智能眼镜。此外,讯飞AI眼镜还具备多模态记录功能,能自动智能生成图文声并茂的会议纪要,覆盖信息记录和总结的全流程,为跨国商务人群提升工作效率。讯飞AI眼镜于北京时间3月4日上午10:10在国内电商开启预约。
阿里云发布多模态交互开发套件,集成通义千问、万相、百聆三大模型,赋能智能硬件。腾讯混元推出开源3D角色动画生成模型HY-Motion 1.0,助力游戏与动画制作。智谱AI在港上市,募资43亿港元,加速商业化落地。抖音在深圳南山设立第二总部,聚焦AI与泛视频研发。OpenAI推出ChatGPT Health,强化健康数据管理与隐私保护。法拉第未来宣布进军具身智能机器人领域,推动汽车与机器人业务协同。蚂蚁阿福月活超3000万,AI健康赛道进入中美竞速新阶段。MiroThinker 1.5以300亿参数实现媲美万亿模型的性能,显著降低推理成本。
本期AI日报聚焦多项AI领域进展:字节跳动推出StoryMem系统,提升AI生成视频角色一致性28.7%;月之暗面计划2026年推出多模态模型K2.1/K2.5;智能眼镜Pickle 1实现“无限记忆”与主动交互;清华与OpenBMB开源音频模型评测框架UltraEval-Audio;OpenAI押注语音交互,整合团队重构音频系统;开源工具Antigravity支持多账号切换,突破AI使用限制;元象开源面向泛娱乐场景的大模型XVERSE-Ent;苹果回应“国行版AI功能阉割”传闻,提醒用户勿通过第三方强行激活。
它石智航开源了全球首个大规模真实世界具身多模态数据集WIYH,填补了高质量、可泛化、大规模真实世界数据的空白。该数据集采用以人为中心的新范式,破解了数据采集成本高、仿真数据迁移难等痛点,为具身基座模型实现Scaling Law提供了关键语料。WIYH数据集具备真实可靠、丰富多元、全面多模态、规模化等特征,并拥有海量数据,覆盖10余种核心场景全链路任务。它石还�