11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
据报道,月之暗面公司正式宣布推出其全新的SOTA模型k1.5多模态思考模型,在多模态推理和通用推理能力上都实现了突破。k1.5多模态思考模型具备多模态推理能力,能够同时处理和分析来自不同模态的信息,如文本、图像、声音等,从提供更全面、更准确的理解和知识。用户在使用过程中如果发现模型切换按钮,即可体验这一全新升级的模型。
自回归文生图,迎来新王者——新开源模型Infinity,字节商业化技术团队出品,超越DiffusionModel。值得一提的是,这其实是从前段时间斩获NeurIPS最佳论文VAR衍生来的文生图版本。Infinity2B和20B的模型都已经开放了网站体验,感兴趣的同学可以试一试效果。
10月24日,趣丸科技宣布与香港中文大学联合研发的语音大模型“MaskGCT”正式在Amphion系统中开源,面向全球用户开放使用。区别于传统TTS模型,该模型采用掩码生成模型与语音表征解耦编码的创新范式,在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果。以“趣丸千音”为代表的产品的出现,将加速国产短剧“走出去”,进一步推动中华文化在全球不同语境下的传播。
就在刚刚,英伟达开源了超强模型Nemotron-70B,后者一经发布就超越了GPT-4o和Claude3.5Sonnet,仅次于OpenAIo1!AI社区惊呼:新的开源王者又来了?业内直呼:用Llama3.1训出小模型吊打GPT-4o,简直是神来之笔!一觉醒来,新模型Nemotron-70B成为仅次o1的最强王者!是的,就在昨晚,英伟达悄无声息地开源了这个超强大模型。它立刻在AI社区引发巨大轰动。对齐模型的性能:所有模型均由Llama-3.1-70B-Inst
【新智元导读】Robin3D通过鲁棒指令数据生成引擎生成的大规模数据进行训练,以提高模型在3D场景理解中的鲁棒性和泛化能力,在多个3D多模态学习基准测试中取得了优异的性能,超越了以往的方法,且无需针对特定任务的微调。多模态大语言模型以文本模态为基础,将其它各种模态对齐至语言模型的语义空间,从实现多模态的理解和对话能力。这种大幅的提升体现了对抗性数据对模型识别能力的提升。
【新智元导读】o1模型发布1周,lmsys的6k投票就将o1-preview送上了排行榜榜首。为了满足大家对模型「IOI金牌水平」的好奇心,OpenAI放出了o1测评时提交的所有代码。这位网友还表示,o1基本沿用了GPT-4的架构;那你想,改换架构后的GPT-5能达到什么高度。
这次是在多模态领域:就在刚刚,阿里国际AI团队开源多模态大模型Ovis1.6。对于广大开发者言,来自于实干家们的开源贡献,亦是福音。
【新智元导读】Mini-Monkey是一个轻量级的多模态大型语言模型,通过采用多尺度自适应切分策略和尺度压缩机制,有效缓解了传统图像切分策略带来的锯齿效应,提升了模型在高分辨率图像处理和文档理解任务的性能。它在多项基准测试中取得了领先的成绩,证明了其在多模态理解和文档智能领域的潜力。作者也验证了多尺度自适应切分策略在别的架构的多模态大模型上的有效性,为缓解由切分增大分辨率导致的「后遗症」提供了一种简单有效的解决方案。
提升多模态大模型处理高分辨率图像的能力越来越引起这个领域的关注。绝大多数方法致力于通过对图像进行切分再融合的策略,来提升多模态大模型对图像细节的理解能力。作者也验证了多尺度自适应切分策略在别的架构的多模态大模型上的有效性,为缓解由切分增大分辨率导致的「后遗症」提供了一种简单有效的解决方案。
【新智元导读】号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动,GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA!ARC-AGI是唯一可以用来衡量通用人工智能进展的基准,创造者FrançoisChollets曾经掷下豪言——「它不可能轻易被击败!」为了测试这一点,他于2020年在Kaggle上主办了首届ARC-AGI竞赛。获胜团队icecuber在测试集上仅取得了21%的成功率,这个成绩强有力地证明了François的断言是正确的。「我的观点并不是说GPT-4o相对于人类来说是聪明的,但我确实认为它是具有『智能』的。