首页 > 传媒 > 关键词  > NEXA最新资讯  > 正文

斯坦福团队发布全球首个超小型多模态AI代理模型Octopus V3,函数调用准确度媲美GPT-4

2024-05-09 14:06 · 稿源: 站长之家用户

近日,斯坦福大学NEXA AI团队宣布推出全球首 个多模态AI代理模型Octopus V3,让AI代理更加智能、快速、能耗及成本降低。

今年四月份初,NEXA AI推出了备受瞩目的Octopus V2,该模型在函数调用性能上超越了GPT-4,减少了95%的推理时所需的文本量,为端侧AI应用带来了新的可能性。其专利性核心技术“functional token”通过创新的函数调用方式显著减少推理时所需的文本长度。

这种方法使得模型能够在只有20亿参数的情况下实现有效训练,并在精度和延迟方面超越了GPT-4,适应了各种端设备的部署需求。

发布以来,Octopus V2在LLM社区获得了广泛关注,受到了AI领域大量前沿技术专家及研究者的赞赏,如Hugging Face的CTO Julien Chaumond、知名AI Newsletter Rundown AI的创始人 Rowan Cheung以及Figure AI的创始人Brett Adcock、OPPO边缘人工智能团队负责人Manoj Kumar,称其“开创了端侧AI技术新纪元”。

在知名开源AI平台Hugging Face上,Octopus V2下载量已经超过12000次。

在不到一个月的时间里,NEXA AI团队发布下一代多模态AI代理模型Octopus V3,展现进一步突破:具有图像处理和多语言文本处理能力,为智能手机等端侧设备真正走向AI时代铺平了道路。

AI技术突破:首 个参数量小于10亿的多模态AI代理模型

Octopus V3不仅拥有多模态能力,在函数调用性能上远超同类模型,可媲美GPT-4V+GPT4;而且模型参数量不到10亿,具有多语言能力。

也就是说,相比传统的大型语言模型,它体积更小,能耗更低,能够更加轻松地在各种小型端设备上运行,比如树莓派,并做到高速且准确的函数调用。

这意味着,未来AI代理能够广泛应用于智能手机、AR/VR、机器人、智能汽车等端侧设备,为用户交互体验更加流畅、智能。

另一方面,由于V3具有多模态处理能力,可同时处理文本和图像输入,再加上多语言能力,也将让用户体验更加丰富。

例如,在Instacart购物应用中,用户可以通过一张菠萝的图片及简单的对话指令,让AI代理自动为他们搜索商品,提高了效率和用户的体验。

再比如,在发送邮件等场景中,Octopus V3可以根据一张具有文字的图像,自动提取信息并填写邮件内容,为用户提供更加智能、便捷的服务。

Octopus系列模型的发布标志着端侧AI代理技术的重要突破,可能成为人工智能技术的新里程碑。

从软件交互到智能汽车,端侧AI潜力巨大

基于这些特性,Octopus V2及V3的应用场景丰富多样,具有广泛的应用前景。

除上文提到的手机场景,当Octopus V2应用在智能汽车上时,也能带来新的交互体验。目前的语音助手往往难以帮助车主完成较为复杂的任务,如在驾驶途中临时改变目的地、加入额外停靠点等。应用Octopus V3后,AI助手能够基于较为模糊简单的指令快速、准确地完成相应任务。

结合V2、V3的能力,从信息检索、到基于指令完成设计,用户可以在虚拟场景下获得流畅的AI体验:在一个社区用户的VR场景demo中,输入简单的语音指令后,AI代理能够帮助用户快速完成一个客厅设计,在弹指间替换沙发、改变颜色灯光等。在用户输入旅行指令后,用户快速来到了日本,而AI代理同样可以在简单的对话式交流中帮助用户搜索相应景点,提供丰富的信息。

数据显示,全球大型语言模型市场规模正在快速增长。Granview Research报告显示,全球大型语言模型市场规模估计为43.5亿美元,并预计从2024年到2030年的复合年增长率为35.9%。同样,边缘人工智能市场也呈现出蓬勃发展的势头——预计从2023年到2030年,全球边缘人工智能市场的复合年增长率为21.0%,到2030年将达到664.78亿美元。

NEXA AI团队由斯坦福大学的杰出研究人员创立。创始人兼首席科学家Alex Chen(陈伟)正在攻读斯坦福大学的博士学位,拥有丰富的人工智能研究经验,并且曾担任斯坦福华人创业协会(Stanford Chinese Entrepreneurs Organization)的主席。联合创始人兼首席技术官Zack Li(李志远)也毕业于斯坦福大学,并在Google和Amazon Lab126实验室拥有4年端侧AI的一线研发经验,同样曾经担任斯坦福华人创业协会的主席。斯坦福大学副教授、斯坦福技术创业项目副主任Charles (Chuck) Eesley担任顾问,为团队提供指导和支持。

左:李志远;右:陈伟

目前,NEXA AI的创举性技术已申请专利保护。

NEXA AI的创始团队表示,他们将继续致力于推动端侧AI技术的发展,通过开源模型提升其创新技术的影响力,为用户创造更智能、有效的未来生活。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • AI日报:快手推出AI视频制作助手Kwali;字节跳动推出USO模型;OpenAI推出ChatGPT开发者模式

    本文介绍了AI日报栏目,聚焦AI领域最新动态。快手推出Kwali视频助手,简化视频制作流程;字节跳动发布USO模型,解决图像生成中风格与主题的矛盾;微软推出Copilot Audio音频模式,提供个性化语音交互;Stability AI升级Stable Audio 2.5,支持高质量音频生成;阿联酋推出开源大模型K2 Think,拥有320亿参数;微信上线智能回复功能,提升公众号运营效率;OpenAI推出ChatGPT开发者模式,支持AI控制外部工具;字节跳动Seed团队发布AgentGym-RL框架,提升语言模型决策能力;月之暗面开源Checkpoint Engine中间件,优化LLM推理效率;B站开源IndexTTS-2.0文本转语音系统,支持情感与时长控制;Replit推出Agent 3编程助手,自主性提升10倍。

  • 都是做AI应用,为什么「美图」能持续让用户付费

    这是《窄播Weekly》的第65期,本期我们关注的商业动态是:美图抓住AI带来的战略机遇,让付费订阅收入实现了连续增长,超过广告业务成为主要营收支柱。 美团在8月18日发布的最新一份财报显示,其2025年上半年总收入为18亿元,经调整归母净利润为4.7亿元,同比增长71.3%。其中,以付费订阅为主的影像与设计产品业务收入达到13.5亿元,同比增长45.2%,占总收入的74%。 这背后是

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • AI日报:腾讯开源3D世界模型HunyuanWorld-Voyager;即梦AI系列模型开放API;通义推智能体开发框架AgentScope 1.0

    本文介绍了AI日报栏目,聚焦人工智能领域最新动态。主要内容包括:腾讯开源具备3D重建能力的HunyuanWorld-Voyager模型、通义实验室推出的多智能体开发框架AgentScope 1.0、即梦AI开放图像与视频生成API、腾讯翻译模型Hunyuan-MT-7B在WMT2025斩获佳绩、苹果推出图像生成技术STARFlow和视觉语言模型FastVLM、新模型CoMPaSS-FLUX.1提升空间理解能力、Cherry Studio免费提供Qwen38B模型、谷歌Gemini API新增网页内容解析功能,以及腾讯优图开源智能体框架Youtu-Agent。这些进展展现了AI技术在多个领域的创新与应用。

  • AI日报:MiniMax Music 1.5上线;腾讯会议上线AI托管;蚂蚁外滩大会发布AI眼镜可信连接技术框架gPass

    本文介绍了AI领域的最新动态:MiniMax推出Music 1.5模型,支持4分钟高质量音乐生成;腾讯会议AI托管功能提供会议分身服务;蚂蚁集团发布AI眼镜连接框架gPass;Anthropic为Claude新增自动记忆聊天功能;苹果AI功能在欧盟受限;AI首次担任职业球队教练获胜;谷歌推出离线AI应用Edge Gallery;企业应用AI成熟度模型发布;Claude新增网页与PDF抓取功能;FTC启动对AI聊天机器人安全性的调查。

  • AI日报:抖音打击AI技术滥用行为;OpenAI 收购开发数据分析平台 Statsig;ElevenLabs 音效模型更新

    抖音打击AI技术滥用行为,对违规商家和达人采取下架、清退等措施。ElevenLabs音效模型升级至版本2,支持长音频和无缝循环。OpenAI收购数据分析平台Statsig,增强产品迭代能力。亚马逊推出Lens Live AI功能,实时扫描购物。谷歌AI推出Stax工具,帮助开发者评估大语言模型。WordPress推出AI工具Telex简化网站构建。Liquid AI发布LFM2-VL模型,提升手机视觉语言处理。苹果开源FastVLM与MobileCLIP2模型,优化边缘设备AI应用。MetaGPT推出自动化测试工具RealDevWorld,精准率达92%。瑞士发布开源大模型Apertus,提供多语言处理能力。

  • 智惠家AIGC——打造中国AI 服务第一入口

    文章探讨了从“互联网+”到“人工智能+”的信息技术革命深化进程,重点介绍了我国积极推动人工智能在各领域赋能与应用落地的举措。国务院印发《关于深入实施“人工智能+”行动的意见》,明确2027年新一代智能体应用普及率超70%的目标。智慧家AIGC响应政策,以社区家庭AI+教育场景为切入点,推出智能PAD等产品,通过免费使用策略获取用户流量,打造一站式服务平台,整合电商、本地生活及供应链资源,提供智能化、便捷化、个性化的新型生活服务。

  • AI能力获权威认可,易鑫荣登“2025 AI Era企业创新大奖TOP55”

    易鑫集团凭借突出的科技创新能力及多项AI技术落地成果,荣登“2025AI+Era企业创新大奖TOP55”榜单,成为榜单上唯一的汽车金融科技领域代表。该奖项由新智元发起,旨在评选AI领域具有卓越市场竞争力和创新力的标杆企业。易鑫自研的AI技术已全面应用于汽车金融全场景,显著提升服务效率与用户体验,并通过科技解决方案赋能海内外合作伙伴,展现出优秀的商业化落地与跨区域扩展能力。公司将持续推进AI创新与业务深度融合,助力合作伙伴和用户共享科技红利。

  • MCP模型库深度解析:AI智能体工具调用生态的多元化与规模化发展

    AIbase旗下MCP模型库收录服务数量突破12万,标志着AI智能体生态迈向成熟。MCP协议为AI工具调用提供标准化蓝图,其成功取决于生态规模与活力。平台覆盖工具、知识库、数据源、控制系统等多元领域,展现高度多样性。一站式整合平台降低开发成本,助力企业快速构建复杂应用,成为感知AI技术风向的重要窗口。

  • 多途云高防CDN代理销售系统全新升级上线

    多途云OEM系统全新版本重构上线,采用Golang开发并引入全新UI框架,极大提升部署与运维便捷性。新版本在拓展性和性能方面全面提升,为用户注册登录、接入使用等过程带来更流畅高效体验。支持独立部署,合作商可掌控自身客户核心数据,保障数据安全与业务自主性。系统支持自定义品牌、CNAME域名/IP页面提示、全方位数据流查询等功能,并提供完整的高防CDN销售管理能力。未来将开放按年付费支持对接其他平台。

今日大家都在搜的词: