首页 > 业界 > 关键词  > DeepSeek最新资讯  > 正文

国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开

2024-12-27 17:46 · 稿源:量子位公众号

DeepSeek新版模型正式发布,技术大佬们都转疯了!延续便宜大碗特点的基础之上,DeepSeek V3发布即完全开源,直接用了53页论文把训练细节和盘托出的那种。怎么说呢,QLoRA一作的一个词评价就是:优雅。具体来说,DeepSeek V3是一个参数量为671B的MoE模型,激活37B,在14.8T高质量toke

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 全新开源的DeepSeek-OCR,可能是最近最惊喜的模型。

    ​AI圈虽然天天卷,但是很多的模型,真的越来越无聊了。 每天就是跑分又多了几个点。 直到昨天,DeepSeek久违的发了一个新模型。 DeepSeek-OCR。 这玩意,是真的有点酷。

  • DeepSeek开源3B OCR模型:长文本识别达97%精度

    DeepSeek在GitHub开源新一代OCR模型,采用创新光学二维映射压缩技术,在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌,较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率,显著优于同类模型。该技术路径为OCR系统小型化提供解决方案,其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。

  • 中国AI算力突围:东方超算Deep X算力盒子超国际竞品82%,重新定义行业标准

    中国公司东方超算发布Deep X G20系列AI工作站,在MLPerf测试中性能超越NVIDIA DGX Spark达82%,价格持平,实现性能与性价比"双超越"。产品搭载Intel Ultra 9285处理器和NVIDIA RTX PRO 5000显卡,AI算力达1824 TOPS,体积仅2.7L。通过三大技术创新实现突破:智能异构计算引擎提升资源利用率40%;统一推理运行时支持多框架;深度硬件优化提升关键算子性能50-200%。该产品打破国际巨头垄断,已在量化金融、医疗影像等领域实现显著投资回报,标志着中国AI硬件实现重要突破。

  • DeepSeek-V3.2-Exp正式发布

    DeepSeek于9月30日正式发布实验性模型DeepSeek-V3.2-Exp,该模型基于V3.1-Terminus升级,引入创新的稀疏注意力机制DSA,首次实现细粒度稀疏注意力,在保持模型输出效果的同时显著提升长文本训练和推理效率。测试显示其表现与V3.1-Terminus基本持平。应用层面,官方App、网页端及小程序均已同步更新。同时宣布API价格大幅调整:输入缓存0.2元、输入未缓存2元、输出3元,开发者调用成本降低50%以上。模型已在HuggingFace和魔搭开源平台上线。

  • WEEX反诈指南:提升警觉,防范高收益陷阱

    近年来数字资产市场快速发展,但网络诈骗层出不穷,包括仿冒交易平台、高收益投资骗局和假客服等手段。WEEX以安全为本,通过多重加密、冷热钱包分离、多因素身份验证等技术防护,结合反诈教育和实时监控系统保护用户。文章提醒投资者警惕高收益承诺,不点击陌生链接,不泄露验证信息,仅通过官方渠道下载APP,强调安全需平台与用户共同维护。

  • 强强联手!深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

    2025年9月29日,深度求索公司发布新一代模型架构DeepSeek-V3.2,引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本,在V3.1-Terminus基础上引入稀疏注意力机制,优化长文本训练和推理效率。目前官方应用端已同步更新,API大幅降价。此次模型体积达671GB,下载需8-10小时。业内专家指出,此次快速适配表明双方早有深度技术协�

  • AI日报:豆包大模型1.6-vision发布;DeepSeek发布V3.2-exp模型;Claude Sonnet4.5发布

    本期AI日报聚焦多项技术突破:DeepSeek发布V3.2-exp模型,通过稀疏注意力机制降低API成本50%;Anthropic推出Claude Sonnet 4.5,在编码任务表现卓越;ChatGPT新增即时结账功能,实现对话界面直接购物;OpenAI将推出AI版TikTok,所有内容由Sora2模型生成;百度地图升级小度想想2.0,提供智能出行服务;蚂蚁集团开源万亿参数模型Ring-1T-preview;DeepMind提出“帧链”概念,推动视频模型实现全面�

  • AI日报:京东物流推出超脑大模型2.0;DeepSeek V3.1终结版发布;Kimi 推出全新 Agent 模式

    本期AI日报聚焦多领域技术突破:京东物流发布“超脑大模型2.0”与“异狼具身智能机械臂系统”,推动物流行业迈向自主执行;DeepSeek推出V3.1终结版,修复漏洞并为V4架构铺路;Kimi上线Agent模式“OK Computer”,支持智能网站开发等复杂任务;ChatGPT新增个性化资讯功能,定制用户专属新闻;Exa Code发布代码索引工具,助力AI代理精准生成代码;Meta推出AI视频创作平台Vibes,简化短视频制作;蚂蚁数科发布隐私保护AI框架Gibbon,推理速度提升超百倍;OpenAI新基准测试显示GPT-5在多个行业逼近人类专家水平,覆盖九大行业44种职业。

  • 华为FreeClip 2耳夹耳机正式开售:售价1299元 搭载NPU AI处理器

    华为FreeClip 2耳夹耳机10月20日开售,售价1299元。预售1小时销量破8万台,市场热度高。性能方面搭载自研低功耗芯片与NPU+AI处理器,算力提升10倍;配备超澎湃双引擎单元,响度与低频动力均翻倍。支持L2HC高清音频编码,音质清晰。新增鸿蒙AI耳边助手,支持智能播报、翻译等功能。设计采用亲肤液态材质与C形桥结构,单耳重5.1克,佩戴舒适且具备IP57防护。续航方面单次使用9小时,配合充电仓总续航达38小时,充电10分钟可用3小时。预计2025年底将升级星闪音频体验。

  • 从中国智造到全球爆款,智能灯创新品牌 Govee Life 谷纬智能首发中国市场

    Govee作为全球领先的智能家居硬件品牌,业务覆盖80多国,用户超1400万,APP下载量达3000万。2025年以中文名“Govee Life谷纬智能”进军中国市场,依托自主研发AI光影技术,实现从全球化到本地化的跨越。其核心创新包括:CogniGlow™AI算法实现毫秒级游戏光效同步;DreamView系统打造多设备联动的沉浸光影空间;RGBIC分段流光技术突破传统单色限制。凭借全产业链布局与千余项专利,持续以智能灯光方案赋能多元生活场景,引领行业技术革新。

今日大家都在搜的词: