首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

哈工深发布多模态大模型九天 性能提升5%

2023-12-04 13:55 · 稿源:站长之家

要点:

  • 九天(JiuTian-LION) 是哈尔滨工业大学(深圳)发布的全新多模态大语言模型,通过双层视觉知识增强,在13个视觉语言任务上取得了state-of-the-art性能,特别在Visual Spatial Reasoning上提升了5%。

  • 视觉信息提取不足问题得到解决,九天模型通过渐进式融合细粒度空间感知视觉知识和软提示下的高层语义视觉证据,有效提升了视觉理解能力,减轻了MLLMs的幻觉现象。

  • 新方法框架包括分段指令微调策略和混合适配器,解决了图像级理解任务和区域级定位任务之间的冲突,同时引入了软提示方法以提高高层语义注入的效果。

站长之家(ChinaZ.com)12月4日 消息:哈尔滨工业大学(深圳)近期发布了名为九天(JiuTian-LION)的多模态大语言模型,通过融合细粒度空间感知和高层语义视觉知识,取得了在13个视觉语言任务上的state-of-the-art性能,尤其在Visual Spatial Reasoning任务上实现了5%的性能提升。

image.png

论文链接:https://arxiv.org/abs/2311.11860

GitHub:https://github.com/rshaojimmy/JiuTian

项目主页:https://rshaojimmy.github.io/Projects/JiuTian-LION

传统的多模态大语言模型在视觉信息提取上存在不足,导致了视觉定位偏差和幻觉等问题。九天模型通过双层视觉知识增强策略,解决了这一问题。

其方法框架包括分段指令微调策略和混合适配器,首次分析了图像级理解任务和区域级定位任务之间的内部冲突,实现了两种任务的互相提升。通过注入细粒度空间感知和高层语义视觉知识,九天在包括图像描述、视觉问题、和视觉定位等17个视觉语言任务上实现了显著的性能提升,其中13个评测任务达到了国际领先水平。

image.png

与现有的多模态大语言模型相比,九天通过渐进式融合细粒度空间感知视觉知识和软提示下的高层语义视觉证据,有效地提升了视觉理解能力,生成更准确的文本回应,减少了模型的幻觉现象。总体而言,九天为多模态大语言模型领域带来了新的思路和性能突破,为视觉语言任务的研究提供了有力的支持。

举报

  • 相关推荐
  • 九四智能大模型联络中心:重塑教育行业运营逻辑

    文章分析了教培行业面临的获客成本高、人工客服效率低、用户画像不清晰等痛点,指出九四智能通过AI交互引擎提供全场景智能运营服务,覆盖获客、用户运营、业务通知等环节,结合语音识别、大数据分析等技术实现降本增效,并通过典型案例展示了实际应用效果。

  • 将AI大模型费用计算器作为战略工具:企业如何规避AI项目的成本陷阱

    AI项目规模化应用面临不可预测的运营成本挑战,尤其是大模型API调用费用难以精准预测,导致项目ROI计算失效。成本失控源于计费维度复杂、价格变动频繁及用户行为影响。领先企业通过成本管控前移,在项目可行性分析阶段引入AIbase等成本计算工具,实现成本可视化,支持技术选型和预算建模,从被动应对转向主动管理,提升AI应用的经济性和可持续竞争力。

  • 昇腾助力中科大团队实现MoE 稀疏大模型并行推理提速超30%

    中国科学技术大学张燕咏团队在昇腾算力支持下,成功研发出基于专家选择分布预测的专家负载均衡和all2all通信均衡框架。该框架通过“三步走”策略,有效解决了MoE稀疏大模型推理中的专家负载不均和通信开销大两大难题,显著提升推理性能。实验显示,该方案在多项指标上较主流方案提升超30%,为昇腾技术优化MoE模型推理提供了宝贵借鉴,将加速其在各领域的落地应用。

  • 如何用3分钟精准计算AI大模型成本?避免生成一篇万字文章就超支?

    AI大模型成本控制指南:实测三步预算法+企业级避坑方案。文章揭露行业痛点:1)价格迷雾:各厂商计费规则差异大,长文本/多模态存在隐藏溢价;2)团队实测GPT-4生成20篇行业分析(50万字)实际账单超预算4倍。解决方案:通过AIbase计算器实现精准预测:①场景化选择自动加载计费规则;②输入需求实时生成动态成本矩阵;③智能规避四大隐性成本(长文本衰减补偿/区域差价预警等)。跨境电商案例显示,使用工具后成本降低60%。核心观点:在AI时代,成本控制能力已成为企业核心竞争力。

  • 百川开源最新医疗大模型,中国力量领跑医疗AI赛道

    专注医疗后,百川智能交出第一份答卷! 8月11日,百川智能发布第二款开源医疗增强推理大模型Baichuan-M2,其以32B的参数量,在OpenAI的Healthbench评测集上,超越其刚刚发布5天的开源模型gpt-oss-120b。

  • AI日报:即梦上线智能多帧功能;可灵2.1首尾帧升级;钉钉推语音识别大模型Fun-ASR

    AI日报栏目汇总近期AI领域重要进展:腾讯元宝接入DeepSeek V3.1提升智能助手能力;即梦AI推出多帧功能简化视频制作;可灵AI首尾帧功能升级效果提升235%;钉钉与通义实验室联合发布Fun-ASR语音识别大模型;腾讯CodeBuddy IDE国内版公测;Vercel发布AI Gateway简化模型调用;Anthropic整合Claude Code强化企业开发;阿里发布Mobile-Agent-v3突破GUI自动化;Qoder平台革新编程模式;清华团队GUAVA框架实现0.1秒3D化身生成;谷歌搜索新增AI Agent功能;VAST推出Tripo 3.0推动3D内容创作。

  • AI应用太烧钱?我们用一款精准的AI大模型费用计算器做出了清晰预算

    初创团队“智询未来”在开发AI问答应用时面临核心模型选择困境:GPT-4-turbo能力强但价高,Claude-3长文本处理优,Llama-3成本低但性能稍弱。通过AIbase成本计算器精准测算,发现Claude-3-Sonnet性价比最优,每月可省近4000元,还能通过优化提示词进一步降本15%。数据驱动的决策让团队将节省预算投入数据安全和提示词优化,凸显成本测算对初创企业技术选型的重要性。

  • 如何快速精准计算AI大模型费用?试试这个三步完成的免费工具!

    文章讲述AI项目预算失控的普遍现象:李工团队因手动计算GPT-4等大模型调用成本复杂,最终预算比实际支出少25%。行业调查显示73%团队曾因模型成本失控被迫调整项目。AIbase推出三步极速成本计算器解决痛点:1)集成50+主流大模型参数库;2)用自然语言描述需求即可生成预算;3)10秒输出详细成本对比报告。该工具已帮助电商企业节省40%预算,其优势在于实时追踪官方定价、智能匹配场景规则、自动生成多模型对比报告,让晦涩的token计价变得直观透明。目前已有超12万开发者使用该工具优化AI项目成本。

  • 百度第一!百度智能云一见领跑视觉大模型赛道

    IDC最新报告显示,百度智能云凭借"文心一言4.5"多模态大模型和"文心X1"深度思考模型,在视觉大模型领域综合实力排名第一。其智能云平台在算法模型、工程化落地、行业覆盖等方面优势显著,已服务餐饮、钢铁、电力等20多个行业,帮助数百家企业实现生产全环节的数字化管理。典型案例包括:为风电集团构建安全管控系统,巡检效率提升6-10倍;与中钢研合作金相分析模型,检测准确率达95%;助力连锁餐饮实现全国1000+门店服务质量量化管理,订单覆盖率从5%提升至95%。通过"云端大模型+边缘小模型"的协同架构,在保障精度的同时大幅降低应用成本,推动专业级视觉AI应用普及。

  • AI大模型计费器如何精准比价?38款模型隐藏费用一键预警,三步告别超支

    文章揭示了AI项目成本失控的三大痛点:1)计费维度分裂,如输入/输出token分开计价;2)参数迷雾,如文心一言4.0增强模式成本是基础版3.2倍;3)汇率陷阱,海外模型美元报价波动导致实际成本偏差超15%。通过AIbase费用计算器可精准测算:支持38个主流API对比,包含隐藏费用提醒,提供四大维度的决策矩阵(百万token成本/长文本溢价/月度总价/性价比评分)。案例显示某团队发现自研模型成本比通义千问高27%后及时调整采购策略。该工具能帮助开发者避免"成本黑箱",实现零成本预算推演。

今日大家都在搜的词: