11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。
大模型的发展正在遭遇瓶颈。随着互联网文本数据被大规模消耗,基于数字世界训练的AI模型性能提升速度明显放缓。与此同时,物理世界中蕴藏着数字世界数百倍甚至千倍的多模态数据,这些数据远未被有效利用,成为AI发展的下一个重要方向。 在2025北京智源大会上,智源研究院发布了“悟界”系列大模型,试图推动AI从数字世界迈向物理世界,实现所谓的物理AGI。这一系�
【新智元导读】长视频理解迎来新纪元!智源联手国内多所顶尖高校,推出了超长视频理解大模型Video-XL。仅用一张80G显卡处理小时级视频,未来AI看懂电影再也不是难事。Video-XL的模型代码均已开源,以促进全球多模态视频理解研究社区的合作和技术共享。
智源研究院推出了新一代检索排序模型BGERe-Rankerv2.0,支持100种语言,文本长度更长,并在多项评测中达到了SOTA的结果。该模型是智源团队在BGE系列基础上的新尝试,扩展了向量模型的“文本图片”混合检索能力。智源研究院推出的BGERe-Rankerv2.0检索排序模型具有强大的多语言支持、更长文本长度、优秀的检索效果和灵活的“文本图片”混合检索功能,为信息检索领域带来了新的利器。
智源研究院近期提出了一项新技术,通过数据浓缩技术获得高质量训练数据,从提升多模态小模型的性能。他们将LAION-2B压缩成2M核心集,得到更丰富的预训练数据,同时精选数据集进行指令微调,训练出性能强劲的小模型。通过数据浓缩技术获得高质量训练数据,Bunny系列小模型在多模态任务上表现优异,将促进大模型技术的发展和普及。
智源研究院发布了中文多模态模型评测基准CMMU,旨在为中文多模态模型领域提供一个全面、中立的评测基准。该评测基准目前发布了CMMUv0.1版本,其中包含了3603道题目,涵盖了小学、初中和高中的数学、物理、化学、生物、政治、地理和历史等七门学科。智源研究院将持续邀请教师改编或新编学科考题,扩充CMMU评测集,以保证评测结果客观、公正,并探索基于判别模型的评测方式,以适应多模态模型的发展需要。
智源悟道3.0是由智源研究院开发的先进人工智能大模型系列,包括AquilaChat对话模型、AquilaCode文本代码生成大模型以及多种视觉大模型。产品功能涵盖流畅的文本对话、多语言生成任务、文本代码生成、多模态和视觉处理等领域。立即点击上方链接,体验智源悟道3.0的强大功能。
VisionMamba是一种新的视觉模型,通过引入状态空间模型来进行视觉建模,并在ImageNet分类、COCO对象检测和ADE20k语义分割任务上实现了更高的性能。项目地址:https://github.com/hustvl/Vim与传统的基于ConvNet的网络相比,VisionMamba在ImageNet分类任务中表现更好,并且比基于Transformer的视觉模型DeiT具有更高的分类准确率。VisionMamba的出现为视觉基础模型的发展带来了巨大的潜力。
智源研究院联合清华和北邮团队推出text-to-3D生成模型GeoDream,能够将输入的文字描述转化为高质量和多视角一致性的3D资产。与传统的方法不同,GeoDream通过解耦的方式利用2D和3D先验,解决了3D结构不一致性的问题,并支持导出高保真的texturemeshes和高分辨率的渲染图片。GeoDream展示了对复杂输入的生成结果,支持导出meshes和高分辨率UVmaps,方便后续的3D创作和应用。
智源研究院提出了首个用于自然语言理解任务的1bit轻量化预训练模型BiPFT。与传统的FP32模型相比,BiPFT模型在推理阶段显著减少了操作数量和内存使用。该模型在不同超参数设定下都能取得更好的效果,具有较好的独立学习能力和超参数鲁棒性。