首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

南洋理工推80亿参数多模态大模型OtterHD

2023-11-27 16:58 · 稿源:站长之家

要点:

1、OtterHD 是一个80亿参数的多模态大模型,可以处理高分辨率图像并具有通用性。

2、OtterHD 通过基于 Fuyu-8B 进行指令微调,并使用 FlashAttention 资源库中的算子融合技术来提高性能。

3、OtterHD 在新的基准测试 MagnifierBench 上展现出出色的表现,特别是在处理复杂场景中的细节方面。

站长之家(ChinaZ.com)11月27日 消息:最近,南洋理工华人团队提出的80亿参数多模态大模型 OtterHD 引起了人们的关注。与其他模型相比,OtterHD 具有处理高分辨率图像的能力,并且具有通用性,能够应对各种推理需求。团队通过在 Fuyu-8B 上进行指令微调,并使用 FlashAttention 资源库中的算子融合技术,进一步提高了模型的性能。

通过这些改进,OtterHD 在直接处理高分辨率输入时表现出色,尤其在新的基准测试 MagnifierBench 上的表现令人印象深刻。MagnifierBench 旨在评估语言模型在复杂场景中辨别细节的能力,OtterHD 在这个测试中取得了优秀的成绩。这些结果表明,OtterHD 是一个非常有潜力的模型,可以用于处理各种高分辨率图像,并在细节辨别方面表现出色。

image.png

论文地址:https://arxiv.org/pdf/2311.04219.pdf

这项研究的一个关键点是 OtterHD 的处理能力。由于其80亿参数的规模,OtterHD 能够处理高分辨率图像,并且具有通用性,可以适应不同的推理需求。与传统模型不同,OtterHD 具有处理灵活输入尺寸的能力,这使得它能够应对各种不同分辨率的图像,并且在处理高分辨率输入时表现出色。团队还通过基于 Fuyu-8B 进行指令微调和算子融合技术的运用,进一步提高了模型的性能。这些改进使得 OtterHD 在处理高分辨率图像和复杂场景中的细节方面表现出色。

另一个关键点是团队提出的基准测试 MagnifierBench。这个基准测试旨在评估语言模型在复杂场景中辨别细节的能力。通过使用 PVSG 数据集制作了一个涵盖283组问题的测试基准,团队可以更好地评估模型的性能。结果显示,OtterHD 在 MagnifierBench 上表现出色,特别是在处理高分辨率图像和复杂场景中的细节方面。这表明 OtterHD 具有较强的辨别细节的能力,对于处理复杂场景中的图像具有优势。

总的来说,OtterHD 是一个具有80亿参数的多模态大模型,具有处理高分辨率图像和通用性的能力。通过基于 Fuyu-8B 进行指令微调和算子融合技术的应用,OtterHD 在处理高分辨率图像和复杂场景中的细节方面表现出色。通过新的基准测试 MagnifierBench 的评估,团队展示了 OtterHD 在细节辨别方面的优势。这些结果表明,OtterHD 是一个非常有潜力的模型,在处理各种高分辨率图像和复杂场景中具有广泛应用的前景。

举报

  • 相关推荐
  • 算力赋能营销革新,东信云与华为云签约共建多模态大模型应用标杆

    6月21日,东信云与华为云在HDC2025大会上签署合作协议,双方将基于昇腾AI云服务深化合作,重点布局多模态大模型应用与数字人技术。合作内容包括:1)构建智能营销系统,整合文本、图像、视频等多元数据,提升市场分析和消费者行为预测能力;2)通过大模型实现营销内容自动化生成,包括新闻稿、社交媒体帖子和广告文案;3)优化大模型架构,提升训练和推理效率。东信云6月发布的"数字人智能引擎"已实现分钟级生成逼真数字人,显著提升推荐转化率。双方还将联合行业伙伴共建营销大模型生态系统,推动营销行业智能化升级。

  • AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • OpenAI 提升o3多模态模型推理实力,微美全息(WIMI.US)加速引领产业新变革征程

    OpenAI推出突破性的o3推理模型,首次实现图像直接融入推理过程,在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级,上下文窗口从12K扩展至23K,幻觉率降低45%-50%。行业呈现开源趋势,DeepSeek开源策略促使多家企业跟进,OpenAI也考虑开源。微美全息加速布局多模态大模型,计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进,开源技术显著降低训练门槛,提升泛化能力,为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇,在大模型驱动的新时代找准定位。

  • Meta拟百亿美元投资Scale AI,微美全息(WIMI.US)端侧多模态AI加速开启科技新局

    Meta正与AI初创企业Scale AI洽谈数十亿美元投资,估值或超100亿美元,有望创下私营企业融资纪录。Scale AI为微软、OpenAI等提供数据标注服务,是生成式AI热潮主要受益者。这将是Meta史上最大规模外部AI投资,标志其战略转向。Meta CEO扎克伯格宣布将AI确立为战略重心,2024年将投入650亿美元推进相关项目,重点打造Llama模型成为行业标准。同时,谷歌推出Gemini助手"计划操作"新功能,支持任务自动化管理。科技巨头纷纷重金布局AI,微软向OpenAI注资逾130亿美元,亚马逊投资Anthropic数十亿美元。行业观察认为AI技术普及将推动效率革命,微美全息等企业正通过技术创新赋能产业转型,共同探讨人工智能技术突破新动态。AI正以前所未有的速度重塑全球发展格局。

  • 多模态2025:技术路线“神仙打架”,视频生成冲上云霄

    一场大会,聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人,以及学术界的人大和MIT(麻省�

  • AI触控云台浩瀚V3 Ultra发布,首发AI多模态追踪模块,定义手机云台轻旗舰标准!

    6月6日,浩翰V3 Ultra智能影像稳定器正式发布。作为旗舰级产品,它搭载行业首创AI多模态万物原生跟拍技术,支持10米远程触控彩屏、AI可视化构图、360°无死角跟拍及三轴稳拍等功能。新品采用第九代iSteady增稳系统,折叠后体积小巧便携。配备22英寸触控彩屏,支持5米手势控制和隔空补光功能。售价999元起,同步推出含无线麦克风的创作者套装。浩翰深耕稳定器行业11年,产�

  • AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • 刘强东:去年工资发了1161亿 为员工五险一金交了180亿

    近日,在一场分享会上,京东创始人刘强东透露了京东去年的经营数据及员工福利情况。他表示,去年京东净收入达11588亿,然而净利润却只有400多亿。 面对“京东的钱都去哪里了”的疑问,刘强东给出答案:去年京东仅工资就发放了1161亿,为“兄弟们”缴纳的五险一金高达180亿。他强调,自2007年至今,京东在五险一金方面的支出已达上千亿。这些资金本可以合法地成为他个�

  • 思必驰RTOS大模型解决方案丨当玩具遇上AI,陪伴更有温度

    文章介绍了多款AI陪伴机器人产品,如LOVOT、Moflin、FoloToy等,它们通过创新交互方式引领消费新潮流。针对不同场景需求,思必驰推出RTOS大模型解决方案,融合智能对话技术与DFM-2大模型,整合第三方内容资源,赋予产品情感陪伴与寓教于乐功能。该方案具备智能打断、上下文记忆、多轮对话等能力,实现自然流畅的人机交互。在儿童教育领域,AI玩具可成为智慧伙伴,提供个性化学习支持。未来,AI赋能玩具将解锁更多应用场景,持续优化用户体验。

  • 中国石油发布3000亿参数昆仑大模型:华为、中国移动、科大讯飞联合打造

    日前,中国石油发布3000亿参数昆仑大模型,标志着中国石油在人工智能领域迈出关键一步。 据了解,昆仑大模型由中国石油、中国移动、华为、科大讯飞联合打造,2024年8月完成备案,成为中国能源化工行业首个通过备案的大模型。 去年8月28日,330亿参数昆仑大模型发布,11月28日又发布700亿参数昆仑大模型。