首页 > 业界 > 关键词  > 大模型最新资讯  > 正文

SOLAR10.7B大模型屠榜HuggingFace 创新性拼接两个羊驼,高效集成

2023-12-29 14:10 · 稿源:站长之家

站长之家(ChinaZ.com)12月29日 消息:深度学习领域的新技术近日在HuggingFace的大模型排行榜中崭露头角,由Upstage AI提出的深度扩展方法(DUS)在SOLAR10.7B大模型上取得了令人瞩目的成绩。该技术通过创新性地拼接两个7B羊驼,并采用DUS方法删除中间层次,使得新模型不仅超越了传统扩展方法如MoE,还能与基础大模型相同的基础设施高效集成。

image.png

论文地址:https://arxiv.org/pdf/2312.15166.pdf

在技术实现方面,DUS技术通过巧妙选择Mistral7B作为底材,实现了对原版和MoE版的超越。团队深入权衡性能与模型尺寸,在拼接方式上选择性删除层次,经过继续预训练,模型性能得以迅速恢复。对齐的Instruct版本也在技术实践中取得了显著的进展。

为保障数据安全,团队回应了网友对测试数据泄露的质疑,提供了数据污染测试结果,并显示出低水平的可能性。而SOLAR10.7B基础模型和微调模型以Apache2.0协议开源,得到了科研社区的广泛关注。

在用户反馈方面,试用者对该技术在从JSON格式数据中提取数据的表现表示满意。这一实际应用的反馈证明了该技术在处理实际数据时的优越性。

举报

  • 相关推荐
  • 机器人“全能导航大脑”来了!银河通用发布NavFoM大模型

    银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM,实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用,通过统一“视频流+文本指令→动作轨迹”范式,融合800万条跨任务导航数据,在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施,为规模化商业落地奠定关键基础。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • 如何检查你的网站是否被大模型引用?AI排名查询工具推荐

    本文探讨AI搜索时代网站流量获取新逻辑:传统SEO因Google搜索"零点击"现象失效,而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口,并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议:建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代,内容被LLM引用已成为新的流量生命线。

  • 来教装展,看全栈自主可控国产教育大模型何以赋能教学?

    10月24-26日,第86届中国教育装备展在青岛举行。科大讯飞以“全栈自主可控国产教育大模型”为核心,展示五大智慧教育场景:智慧教学通过AI黑板实现师生协同,提升效率;科学教育推出AI虚拟科学家互动平台,激发探索精神;身心健康方案构建体育健康闭环与心理服务体系;教育治理推出数据驱动决策平台;学前教育引入游戏化学习产品。目前方案已覆盖全国5万余所学校,服务超1.3亿师生,展现AI从工具升级为“教育伴侣”的价值。

  • 免费 GEO品牌可见度查询——让大模型信得过就这么玩

    本文探讨在AI时代如何成为大模型信赖的信息源。关键点包括:可信信息源需具备数据来源清晰、内容结构化、可验证追踪等能力;提出五大实操要点——确保数据干净可追溯、采用RAG等技术增强可检索性、保持内容更新与时效性、强化品牌可见度、建立反馈优化机制。同时推荐使用AIBase平台的GEO排名查询工具免费监测内容可见度,通过持续优化提升在大模型入口的推荐概率。

  • 【AI 智惠季】全模态大模型齐发优惠,GPU新客包月2.8折起

    阿里云启动双十一“AI智慧季”大型优惠活动,聚焦企业多元AI场景落地需求,推出7000万tokens大模型免费体验、GPU新客特惠等政策,助力企业降低开发成本。同时提供标准化AI产品与解决方案,覆盖内容创作、智能客服等高频应用场景,并举办系列技术分享活动,携手企业拥抱AI新时代。

  • 升级版“蓝心小V”亮相,豆包大模型助力vivo打造AI原生体验

    vivo发布全新OriginOS 6系统,升级私人助手“蓝心小V”。该系统依托蓝心大模型与豆包大模型协同,实现精准意图识别与多模态交互,支持新闻、教育、天气等场景的智能问答。通过火山引擎联网搜索及内容整合,提供低延迟、高情感语音响应。同时拓展无障碍服务,为视障用户提供实时视觉辅助。未来将持续深化AI生态建设,打造更智能便捷的原生体验。

  • 火山 AI 搜索引擎升级:大模型时代重塑用户体验与业务增长

    火山引擎近日升级企业级AI搜索助手,底层模型升级至豆包大模型1.6,全面提升搜索、推荐、问答能力。该平台支持“开箱即用”,企业可快速构建专属对话式搜索助手,已在电商导购、视频新闻、AI搜图、智能硬件等多场景落地,帮助优化产品体验,为业务增长注入新动能。

  • 金融行业用好大模型,只有“垂直”一个解

    文章探讨大模型在金融等复杂业务场景的落地挑战,指出通用模型难以满足行业对准确性、可解释性及合规性的高要求。垂直模型通过内化行业核心知识与能力,成为解决复杂业务问题的关键路径。实践显示,金融垂直模型已在营销、客服、风控等场景实现显著成效,如提升效率80%、降低风险。未来需通过数据飞轮、深度适配等技术实现模型持续迭代,构建一站式金融垂直模型生产工场。

今日大家都在搜的词: