首页 > 业界 > 关键词  > 多模态模型最新资讯  > 正文

新型多模态模型Adept Fuyu-Heavy 专为数字代理设计

2024-01-30 11:35 · 稿源:站长之家

站长之家(ChinaZ.com)1月30日 消息:Adept Fuyu-Heavy是一种新型的多模态模型,专为数字代理设计。据称,它是世界上第三大能力超强的多模态模型,仅次于GPT4-V和Gemini Ultra。这种模型特别擅长理解用户界面,能够解释和操作各种软件和应用程序的界面,并且可以帮助用户执行自动化流程、响应查询以及提供信息等任务。

在多项评估和基准测试中,Adept Fuyu-Heavy展现出了卓越的性能。在MMM(Multimodal Multitask)基准测试中,其表现优于Gemini Pro,尤其在处理多模态任务时表现出色。

image.png

地址:https://www.adept.ai/blog/adept-fuyu-heavy

在文本基准测试中,尽管需要分配部分容量处理图像数据,但在标准的文本只评估中,它的表现与Gemini Pro大体相当,甚至在MMLU(多模态语言理解)基准测试中超过了Gemini Pro。

此外,经过有监督的微调和直接优化阶段后,Fuyu-Heavy在最常用的聊天评估中的表现与Claude2.0相当,尽管它是一个更小的模型,且部分容量用于图像建模。在多模态性能标准方面,Fuyu-Heavy略微优于Gemini Pro,在VQAv2(一个视觉问答基准)和AI2D(一个图表理解数据集)上也取得了不俗的成绩。

Adept Fuyu-Heavy的主要能力包括多模态理解和生成、高效的图像和文本处理、优化的模型架构、长形式对话性能、用户界面理解以及跨模态内容生成。这意味着它能够处理和理解多种类型的数据,如文本和图像,并能够基于这些数据生成相应的输出,使其在多模态任务上表现出色。

尽管需要部分容量用于图像建模,但在标准文本基准测试中的表现匹敌或超越同级别的模型。此外,经过特定训练阶段优化后,Fuyu-Heavy在长形式对话和交互中表现出色。

它还特别擅长于理解数字用户界面(UI),如网站和应用程序,提供有效的自动化解决方案,能够适应和优化数字代理的功能,如提高用户界面理解、增强自动化决策能力、提供更准确的信息检索和内容生成等。最后,它还能够生成跨越文本和图像的内容,适用于多种应用场景。

举报

  • 相关推荐
  • 寒武纪智能芯片赋能多模态大模型应用

    大模型快速发展推动人工智能技术迈向新阶段,从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示,2024年中国大模型开发平台市场规模达16.9亿元,人工智能算力市场约190亿美元,预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发,推出多款处理器及加速卡产品,支持大模型训练推理及多模态任务,并与产业链合作共同推进人工智能产业发展。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • 美团也开源了大模型,但我觉得他们的野心是通用生活Agent。

    也有线上体验地址:https://longcat.ai 我自己去体验了一下,整体模型能力,中规中矩,但是快,是真的快,能把560B的模型,在推理的时候搞得这么快,是真的有点牛逼的。 我直接录了个屏给大家看一下。 这里我们可以直观对比一下LongCat和DeepSeek V3的输出速度,他俩都是MoE架构,而且总参数量差不太多。 为了更公平的竞争,用了同一个问题,并关闭了联网搜索来避免搜索干扰�

  • DTCC2025丨达梦以智算多模与AI创新引领行业变革

    近日,IT168联合旗下ITPUB、ChinaUnix两大技术社区主办的第十六届中国数据库技术大会(DTCC2025)在京隆重召开。大会以“智能创新 数赢未来”为主题,汇聚超百位行业专家及上千名嘉宾,聚焦数据库领域前沿技术。达梦数据作为领军企业受邀参会,重点展示了其在多模数据处理与AI+数据库融合方面的突破,推出“智算多模”引擎,实现统一存储与智能查询,为行业智能化发展注入新动能。

  • AI日报:GPT-5正式发布;百度将推文心5.0大模型;知网发布AIKBase V2.0多模态数据管理系统

    《AI日报》精选AI领域最新动态:1)OpenAI发布GPT-5模型,具备强大多模态能力但推理任务仍有局限;2)知网推出AIKBase V2.0多模态数据管理系统;3)Ideogram新增"角色"功能实现图像风格统一;4)Cursor发布CLI版本支持终端AI编程;5)百度即将推出全新推理模型和文心5.0大模型;6)dots.ocr推出1.7B参数多语言文档解析工具;7)特斯拉解散Dojo超算团队转向英伟达合作;8)谷歌Pixel 10引入AI相�

  • AI模型库哪个好?2025年主流AI模型选型指南与API成本对比推荐

    AI时代企业核心挑战已从“能否做AI”转向“如何高效集成AI能力”。AI模型库通过聚合全球主流模型,提供透明化成本与能力信息,帮助企业实现快速原型验证、精准选型和成本优化。这种基础设施降低技术门槛,使非技术背景决策者也能深度参与技术选型,加速创新迭代并降低试错成本。

  • AI日报:腾讯开源3D世界模型HunyuanWorld-Voyager;即梦AI系列模型开放API;通义推智能体开发框架AgentScope 1.0

    本文介绍了AI日报栏目,聚焦人工智能领域最新动态。主要内容包括:腾讯开源具备3D重建能力的HunyuanWorld-Voyager模型、通义实验室推出的多智能体开发框架AgentScope 1.0、即梦AI开放图像与视频生成API、腾讯翻译模型Hunyuan-MT-7B在WMT2025斩获佳绩、苹果推出图像生成技术STARFlow和视觉语言模型FastVLM、新模型CoMPaSS-FLUX.1提升空间理解能力、Cherry Studio免费提供Qwen38B模型、谷歌Gemini API新增网页内容解析功能,以及腾讯优图开源智能体框架Youtu-Agent。这些进展展现了AI技术在多个领域的创新与应用。

  • AI日报:AI内容新规正式生效;美团推出开源大模型LongCat;阶跃发布语音大模型Step-Audio 2 mini

    AI日报栏目每日更新AI领域热点内容,聚焦开发者需求。本期重点包括:阶跃星辰发布端到端语音大模型Step-Audio2 mini,在多项基准测试中表现优异;9月1日起AI生成内容需强制标识;美团推出开源大模型LongCat;上海AI实验室发布多模态大模型InternVL3.5;腾讯ARC团队推出音频生成模型AudioStory;OpenAI发布实时语音模型GPT-realtime;Meta与UCSD合作推出DeepConf技术;xAI代码库遭窃事件;阿里巴巴Qwen团队发布GUI自动化框架;微软推出Copilot Labs实验中心;小红书自动化工具xiaohongshu-mcp上线。

  • 业界首个!腾讯混元Voyager3D世界模型发布:支持原生3D重建

    今日,腾讯混元官方宣布,HunyuanWorld-Voyager(简称混元Voyager)正式发布,这是业界首个支持原生3D重建的超长漫游世界模型。 该模型在斯坦福大学李飞飞团队发布的世界模型基准测试WorldScore上位居综合能力首位,超越现有开源方法,在视频生成和3D重建任务中均表现出色。 在视频生成和视频3D重建两个任务上,Voyager也均取得更好的结果。

  • 从数据穿透到模型迭代,攀智资本:重新定义技术驱动投资

    攀智资本(香港)有限公司以技术驱动投资为核心,在全球金融市场调整与中国金融业蓬勃发展的背景下,通过AI与量化交易深度融合,构建高效数据分析、量化模型、智能风控和自动化交易系统。公司精准锚定中国市场机遇,布局多元资产,挖掘政策红利与技术创新带来的投资机会。未来将拓展ESG投资与全球化业务,持续完善量化基础设施,推动行业技术转型,展现技术驱动投资的新范式。

今日大家都在搜的词: