首页 > AI头条  > 正文

阿里巴巴达摩院推出电商场景多模态大模型Valley 2

2025-01-15 08:41 · 来源: AIbase基地

阿里巴巴达摩院近日推出了一款名为Valley2的多模态大型语言模型,该模型基于电商场景设计,旨在通过可扩展的视觉-语言架构,提升各领域性能并拓展电商与短视频场景的应用边界。Valley2采用了Qwen2.5作为LLM主干,搭配SigLIP-384视觉编码器,结合MLP层和卷积进行高效特征转换。其创新之处在于引入了大视觉词汇、卷积适配器(ConvAdapter)和Eagle模块,增强了处理多样化真实世界输入的灵活性及训练推理效率。

微信截图_20250115084005.png

Valley2的数据由OneVision风格数据、针对电商和短视频领域的数据以及用于复杂问题解决的链式思维(CoT)数据组成。训练过程分为文本-视觉对齐、高质量知识学习、指令微调和链式思维后训练四个阶段。在实验中,Valley2于多个公开基准测试中表现卓越,尤其在MMBench、MMStar、MathVista等基准上得分颇高,在Ecom-VQA基准测试中也超越了其他同规模模型。

未来,阿里巴巴达摩院计划发布包含文本、图像、视频和音频模态的全能模型,并引入基于Valley的多模态嵌入训练方法,以支持下游检索和探测应用。

Valley2的推出标志着多模态大型语言模型领域的重要进展,展现了通过结构改进、数据集构建及训练策略优化来提升模型性能的可能性。

模型链接:

https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

代码链接:

https://github.com/bytedance/Valley

论文链接:

https://arxiv.org/abs/2501.05901

  • 相关推荐
  • 寒武纪智能芯片赋能多模态大模型应用

    大模型快速发展推动人工智能技术迈向新阶段,从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示,2024年中国大模型开发平台市场规模达16.9亿元,人工智能算力市场约190亿美元,预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发,推出多款处理器及加速卡产品,支持大模型训练推理及多模态任务,并与产业链合作共同推进人工智能产业发展。

  • 容联云「大模型金融质检」重磅升级:懂业务、全场景、高精度

    金融强监管下,质检是运营关键但效率低。传统人工质检覆盖不足5%,成本高且漏检率高。容联云推出大模型质检方案,实现100%全量覆盖,准确率达96%,成本降40%。覆盖客服、营销、合同、反欺诈四大场景,将风险从被动补救转向主动预防,助力企业实现精准、高效、可溯源的智能合规管理。

  • AI日报:智谱视觉推理模型GLM-4.5V开源;达摩院开源三项具身智能核心技术;360智脑推出Light-IF系列模型

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,这是该公司在通向通用人工智能(AGI)道路上的又一重要探

  • 欢迎来到客厅wall时代:你的客厅,远比你想象中更适合100吋

    文章探讨100英寸电视的观看体验,指出传统观念认为大尺寸电视需大客厅,但实际关键在于观看距离而非房屋面积。只要距离大于3米,即可获得沉浸式体验。通过技术分析,4K分辨率在3米距离下画面清晰,不会出现颗粒感。海信E8Q Pro等旗舰产品通过先进芯片和屏幕技术,解决了画质和光晕问题,确保近距离观看的舒适与清晰。结论是心动就别犹豫,百寸电视是通往新视界的“任意门”。

  • All-in-One驱动:快鹭科技办公引擎的整合创新与优势解析

    快鸭科技以“All-in-One”为核心,依托AI Agent技术,提供一站式数智办公服务。通过整合产品矩阵、技术体系和服务网络,覆盖全流程办公需求,包括低代码平台、会议系统等,支持多行业定制化方案。其技术融合与协同化体系,助力企业实现高效数字化转型,提升运营效率。

  • 从中国工厂到中东豪宅!海信RGB-Mini LED电视引千万粉丝博主探厂打call

    中国高端电视在中东市场表现强劲,海信电视凭借RGB-Mini LED等创新技术成为当地热门科技产品。中东博主实地探访海信研发中心,深入了解ULED、AI画质芯片等核心技术。海信UX系列电视采用三原色独立背光,突破传统显示限制,实现精准色彩控制,色域覆盖率达97% BT.2020。该产品搭载自研芯片,支持高精度色彩管理,推动全球电视行业进入RGB多基色显示新时代。海信计划在2025年德国IFA展发布重磅消息,加速RGB-Mini LED技术市场化进程。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • 阿里云AI火花大会:规模化前夜,AI务实派靠场景破局

    阿里云在深圳成功举办AI创新应用大会,提出要将"云+AI"技术转化为千行百业的商业动能。大会吸引了近千家企业参与,探讨AI技术从理论走向商业实践的路径。阿里云智能集团副总裁刘湘雯指出,AI不仅是技术演进,更是生产力革命。会议聚焦大模型与AI Agent的融合机遇,提出企业智能化转型需把握四大趋势:技术迭代加速、开源填补鸿沟、智能体从"工具人"变为"决策者"、交互革命重构人机触点。阿里云通过三层落地逻辑(模型API Server、Agent对接层、行业解决方案)助力企业穿透技术迷雾,并发布AI应用先锋计划,联合生态伙伴加速AI应用从概念验证到规模化落地。

  • 阿里云百炼平台首个停车MCP服务上线,捷停车提供全维数据和场景支持

    8月初,捷停车-停车信息MCP服务正式上线阿里云百炼平台,成为该平台首个停车行业MCP服务,为开发者和用户提供高效停车信息查询能力。该服务覆盖全国400城、超5.9万停车场,注册用户突破1.4亿,支持车位查询、快速进出场及便捷缴费等全流程智慧停车体验。通过MCP服务,捷停车打破停车数据“信息孤岛”,实现专业停车能力“开箱即用”,助力出行服务体验升级,并推动停车行业与AI技术深度融合,加速智慧经济落地。

  • AI大模型费用计算器:新手如何不再为选择工具而头疼

    文章探讨了AI工具选择困境,推荐使用AIbase.cn导航站。该站通过分类筛选、标签过滤和对比功能,帮助用户快速找到合适工具,避免信息过载。强调技术应服务于人,好的工具应降低使用门槛,而非增加困惑。

今日大家都在搜的词: