首页 > 业界 > 关键词  > 3D-语言模型最新资讯  > 正文

懂3D的语言模型来了!UCLA、上交、MIT等联合提出3D-LLM:性能大涨9%

2023-08-03 15:39 · 稿源: 新智元公众号

【新智元导读】有了3D-语言模型,去重庆导航也不在「话」下!大型语言模型(LLM)和视觉语言模型(VLM)在各种评测基准中都展现出了强大的性能,比如可以看图说话、进行常识推理。但这些模型的训练过程并没有引入3D物理世界,也就无法理解更丰富的现实概念,包括空间关系、布局、物体

......

本文由站长之家合作伙伴自媒体作者“新智元公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • iOS 26.1首个Beta版更新发布 苹果AI支持更多语言

    苹果发布iOS 26.1开发者预览版Beta更新,内部版本号23B5044l。主要更新包括:Apple Intelligence新增丹麦语、荷兰语、挪威语、葡萄牙语、瑞典语、土耳其语、繁体中文及越南语支持;AirPods实时翻译功能扩展至日语、韩语、意大利语和中文(含繁简);电话应用数字键盘采用全新液态玻璃设计。此外,Apple Music支持滑动切换歌曲,照片、日历和Safari浏览器迎来视觉优化。iOS 26正式版已于9月16日推送,适配第二代iPhone SE及之后共25款机型,iPhone 17系列和iPhone Air出厂预装该系统。

  • AI日报:阿里推多模态模型Qwen3-Omni;谷歌推出AP2协议;百度推出Qianfan-VL 模型

    本期AI日报聚焦多领域技术突破:阿里云推出全球首个全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频统一处理;百度发布多尺寸视觉理解模型Qianfan-VL,优化企业级应用。苹果扩展Image Playground平台,引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议,推动AI支付安全创新。钉钉上线AI表格助手,支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型,性能显著提升。Kimi推出Agent会员服务,智元机器人开源全球首个通用具身智能模型GO-1,降低技术门槛促进行业创新。

  • 从新闻联播点赞到人机大战取胜!时空壶W4Pro硬核功能横扫跨语言场景

    时空壶W4Pro+AI同传耳机通过先进AI技术解决跨语言沟通难题,支持42种语言即时互译,翻译延迟仅3-5秒。在商务谈判、展会等场景中表现出色,具备抗噪能力强、续航持久等特点,显著提升跨国交流效率,成为企业拓展国际市场的可靠工具。

  • AI日报:腾讯发布混元3D 3.0模型;昆仑万维上线Agent Studio功能;阿里Qoder推出付费订阅服务

    AI日报汇总最新行业动态:腾讯发布混元3D+3.0模型,建模精度提升3倍;昆仑万维Mureka上线音乐创作功能;阿里Qoder推出付费订阅服务;VEED Fabric 1.0实现图片转视频;OpenAI发布GPT-5-Codex革新编程;全国发布AI安全治理框架2.0;Mini-o3实现超长视觉推理;上海AI Lab推出多模态模型Lumina-DiMOO;腾讯微调技术提升图像美感300%;Meta推出轻量级MobileLLM-R1;腾讯启动AI应用繁荣计划;谷歌DeepMind�

  • 推荐国内优势智驾:Momenta凭借飞轮大模型,带来极致流畅的驾驶体验

    Momenta作为国内智能驾驶领域的领先者,凭借其创新的飞轮大模型技术,实现了端到端的自动驾驶解决方案。该技术将感知与规划整合,有效解决长尾问题,提升系统可靠性和稳定性。其R6飞轮大模型采用强化学习,具备持续进化能力,适应复杂路况。Momenta与宝马、奥迪等全球主流车企深度合作,方案已成功应用于广汽丰田、东风日产等车型,并在欧洲、澳大利亚等市场落地,展现出强大的全球适应性和技术优势。选择Momenta,即选择了经过验证的可靠技术和持续升级的智能驾驶体验。

  • AI日报:美团发布推理大模型LongCat-Flash-Thinking;阿里Wan-Animate开源;字节推豆包翻译大模型

    AI日报栏目聚焦人工智能领域最新动态。美团推出高性能推理大模型LongCat-Flash-Thinking;阿里开源Wan-Animate模型革新AI视频生成;字节跳动发布豆包翻译模型,支持28种语言互译;华为与浙大联合推出安全大模型DeepSeek-R1-Safe;阿里云即将发布跨模态模型Qwen3-Omni;xAI推出计算成本降低98%的Grok4Fast模型;YouTube发布多项AI创作辅助功能;IBM推出轻量级文档处理模型Granite-Docling-258M;中科院发布类脑大模型SpikingBrain实现百倍速度突破;OpenAI将推出仅限Pro用户的计算密集型新功能。

  • 没想到,音频大模型开源最彻底的,居然是小红书

    不难发现,近几个月,开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说,开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示,国内厂商在七八月接连开源33款、31款各类型大模型。 这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域,而音频生成占比很小。

  • 小米开源首个原生端到端语音大模型 支持音频重建任务和音频转文本任务

    小米发布首款开源端到端语音大模型Xiaomi-MiMo-Audio,拥有12亿参数,在智能性、情感表达和交互适配方面接近人类水平。该模型最大技术突破在于少样本学习能力,通过创新预训练架构和超一亿小时训练数据,成功突破传统语音模型依赖大规模标注数据的技术瓶颈。基于Transformer架构,支持音频重建和音频转文本等多任务处理。小米已在Huggingface平台发布预训练和指令微调版本,并在Github开源Tokenizer模型,为研究者和开发者提供完整工具链。

  • “全链覆盖”“全向集成”|移动云开启大模型普惠应用新篇章

    国际数据公司报告显示,2024年中国MaaS市场规模达7.1亿元,同比增长215.7%,预计2024-2029年复合增长率将达66.1%。随着AI大模型落地,企业对全生命周期工具链、开发平台及通用模型需求激增。移动云通过构建四层云智算架构,提供一站式模型服务,推动AI普惠化。平台已服务30余家央企,覆盖6大行业,未来将持续提升算力智能化水平,助力各行业轻量化拥抱AI时代。

  • 苹果iOS 26普通照片秒变3D照上热搜 “空间场景”功能引热议

    苹果正式推送iOS 26系统,支持iPhone 11及以上机型。新系统引发用户吐槽,如LiquidGlass设计被指“丑出新高度”,升级后出现发烫、卡顿等问题。但“空间场景”功能广受好评,可将普通照片转换为裸眼3D效果,操作便捷,还能设为动态壁纸。不过该功能在不同屏幕上的表现存在差异,低刷屏会出现卡顿,高刷屏则效果更流畅逼真。

今日大家都在搜的词: