首页 > 业界 > 关键词  > AI大课最新资讯  > 正文

Karpathy 4小时AI大课上线,小白看了都会从零构建GPT-2

2024-06-12 16:17 · 稿源: 新智元公众号

距上次Karpathy AI大课更新之后,又有了1个多月的时间。这次他带了超详细的4小时课程——从零开始实现1.24亿参数规模的GPT-2模型。大神Karpathy新一期AI大课又上线了。这一次,他讲的内容是——从头开始实现124M大小的GPT-2模型,足足有4个小时。Karpathy对这个视频2个字总结:全面

......

本文由站长之家合作伙伴自媒体作者“新智元公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 颠覆Diffusion局限!Utopai双模型耦合架构,攻克AI影视长叙事核心难题

    Utopai Studios推出专为影视制作设计的AI模型与工作流,区别于主流视频生成模型,其核心能力在于理解剧本、规划镜头及生成场景,通过自回归模型负责叙事规划与一致性约束,扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题,提升制作效率与作品品质。目前工作流仅用于公司自有项目,强调AI作为创作者协作者的角色,并遵循行业道德与版权规范。

  • AI日报:月之暗面开源AI新框架Kosong;百度发布新模型ERNIE-4.5-VL;GPT-5.1“隐身”登场

    本期AI日报聚焦多项技术突破:月之暗面开源AI代理框架Kosong,支持异步编排与插件化设计;Replit推出AI集成功能,可一键调用300+模型;商汤发布空间智能模型SenseNova-SI,性能超越GPT-5;百度推出多模态模型ERNIE-4.5-VL,新增图像思考能力;谷歌地图全面AI化,集成Gemini实现智能交互;ChatTutor上线可视化教学系统,覆盖多学科实时推演;新版Google Finance引入AI深度搜索与财报追踪;OpenAI低调上线Polaris Alpha模型,支持256K上下文并更新知识库至2024年10月。

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • 品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

    某互联网大厂品牌总监分享:投入200万SEO使"企业级CRM"关键词在Google排名第一,但用户用ChatGPT询问"推荐适合中国企业的CRM系统"时,AI回答中根本没有该品牌。更值得警惕的是,竞品不仅被提及,还被AI用"性价比高""用户体验好"等正面词汇描述。这揭示2025年品牌营销最大盲区:企业不知道AI如何"看待"自身品牌。 数据显示超40%年轻用户开始使用AI搜索作为主要信息渠道,而绝大多数企业对自己在AI平台的"形象"一无所知。文章提出GEO品牌监控概念,通过覆盖度、推荐强度、信息质量三个维度量化品牌在AI搜索中的影响力,并给出五步实施流程:建立监控基线、竞品对标分析、设置持续机制、深度洞察挖掘、数据驱动优化。通过真实案例说明,系统化GEO优化能在3个月内提升品牌提及率33个百分点,证明AI搜索时代的品牌竞争已从"被看见"升级为"被AI信任"。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 从巴别鱼到技术突围:W4Pro以体验领先定义跨语言沟通新标杆

    时空壶W4Pro开放式AI同传耳机通过技术创新,将科幻构想变为现实产品。在跨语言沟通核心指标上实现双重突破:响应延迟仅0.2秒,较行业平均提速75%;翻译延迟控制在3秒内,实测平均2.8秒,较竞品提速38%-53%。搭载骨声纹识别+矢量降噪双技术方案,在85分贝嘈杂环境中语音识别准确率仍保持98%以上。支持43种语言及96种口音实时互译,覆盖全球98%主流区域,新增孟加拉语等小语种适配。单设备即可实现双向跨语言交流,打破多数竞品需配对使用的局限。单次充电支持6小时翻译使用,综合续航达18小时,开放式挂耳设计仅重12克。该产品精准解决了跨语言沟通中的延迟、降噪、场景适配等核心痛点,推动行业向"无感沟通"迈进。

  • AI日报:可复刻音色的MiniMax Speech 2.6发布;TikTok推AI剪辑新工具“Smart Split”;Cursor 2.0发布

    本期AI日报聚焦多项技术突破:MiniMax发布低延迟语音合成系统Speech 2.6,实现实时交互;蚂蚁数科与宁波银行打造的金融AI方案入选国际标准;智源推出具身操作能力的Emu3.5多模态模型;Cursor 2.0通过自研模型实现多智能体协同编程;xAI升级Grok新增视频生成功能;OpenAI推出可定制安全模型;TikTok推出AI剪辑工具Smart Split;微软发布强化学习框架Agent Lightning提升大模型训练效率。

  • AI日报:上海首例涉AI提示词著作权案宣判;Kimi K2 Thinking发布;中文图像编辑新王UniWorld-V2发布

    今日AI领域动态:上海首例AI提示词著作权案宣判,法院认定提示词不具独创性;月之暗面发布Kimi K2思考模型,实现自主多轮工具调用;UniWorld-V2图像编辑模型支持中文框选即改,性能超越GPT-Image;谷歌推出AI文件检测工具Magika 1.0,支持超200种格式;Sora安卓版首日下载量达47万次;我国发布全球首个AI海洋大模型“瞰海”,可精准预测10天内海洋变化;宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控;谷歌Gemini API推出文件搜索工具,简化私有RAG系统集成。

  • Qwen登顶AI赚钱大赛只是开始?“弃GPT投Qwen”已在硅谷蔓延开来

    近期AI炒币大赛Alpha Arena引发关注,六款主流大模型用1万美元本金在币圈实战。戏剧性的是,被寄予厚望的GPT-5和Gemini因高杠杆操作亏损惨重,而中国开源模型表现亮眼——通义千问Qwen以53%回报率逆袭登顶,DeepSeek紧随其后。硅谷巨头Airbnb CEO公开表态依赖Qwen,投资人Chamath也承认将业务转向中国模型。市场用真金白银投票:预测平台押注Qwen胜率高达36%,远超OpenAI的3%。这场竞赛�

  • 苹果新版iOS 26/iPadOS 26上线一天就被紧急撤回:设备更新后出错

    苹果在推送iOS 26.2和iPadOS 26.2首个开发者测试版一天后,便停止了对iPhone Air、iPhone 16e以及新款M5 iPad Pro蜂窝网络版的签名验证,这些设备暂时无法安装iOS 26.2/iPadOS 26.2 Beta版更新。 据悉,已经安装了该更新的用户反馈,他的M5 iPad Pro更新后出现问题,被迫进入恢复模式,最终他将设备恢复至iPadOS 26.1版本。 值得一提的是,上述受影响的

今日大家都在搜的词: