斯坦福博士独作！大模型训练速度再翻倍，还官宣加入明星创业公司当首席科学家

2023-07-18 17:56 · 稿源：量子位公众号

现有大语言模型的训练和推理速度，还能再快一点——快多少?2-4倍。各种大模型都在用的FlashAttention今天正式发布第2代并开源，所有Transformer架构的模型都可使用它来加速。一代方法去年6月发布，无需任何近似即可加速注意力并减少内存占用。现在，FlashAttention-2将它再度升级

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
AI明星创业公司买英伟达GPU ，几周估值翻倍，但花的钱比赚的多17倍

在AI行业，尤其是生成式AI领域，技术的快速发展和应用的广泛前景吸引了大量的投资和关注。这一领域的高昂成本也引起了业界的广泛讨论。如何在追求技术进步的同时实现可持续的商业模式，是所有AI公司需要面对的重要问题。

英伟达
斯坦福团队大模型Octopus v2火了：手机就能运行准确性超越GPT-4

斯坦福大学研究人员发布的Octopusv2模型引起了开发者社区的极大关注，其20亿参数的模型一夜下载量超过2k。这一模型可以在智能手机、汽车、个人电脑等端侧设备上运行，并在准确性和延迟方面表现超越了GPT-4，同时将上下文长度减少了95%。设备端AI智能体时代即将到来，Octopusv2的发布为这一趋势注入了新的活力。

Octopusv2 AI头条
斯坦福推可以在手机端跑的大模型 Octopusv2超越GPT-4一夜爆火

斯坦福大学的研究团队近日推出了一款名为Octopusv2的新型人工智能模型，这款模型以其在端侧设备上的强大运行能力受到广泛关注。论文:Octopusv2:On-devicelanguagemodelforsuperagent论文地址:https://arxiv.org/abs/2404.01744模型主页:https://huggingface.co/NexaAIDev/Octopus-v2Octopusv2的推出，标志着设备端AI智能体时代的来临。对于那些对AI技术充满热情的开发者和企业来说，Octopusv2无疑提供了一个全新的�

Octopusv2
为什么GLP-1首选亦餐？首席研发科学家：我们追求可持续的健康

提到GLP-1大部分人会想到诺和诺德的Wegovy或者礼来的Zepbound等产品，作为当前市面上十分成功的两个靶向激动剂，Wegovy和Zepbound的确在体重管理行业掀起“狂热浪潮”。GLP-1的应用为解决体重管理带来革命性的颠覆，但受制于针剂注射途径，依然有不少用户不愿接受，因此口服剂的GLP-1研发成为产品创新的主流趋势。通过科学体重管理，实现可持续健康，才是我们的最终目的。

GLP-1 体重管理口服剂
荐李飞飞团队年度报告揭底大模型训练成本：Gemini Ultra是GPT-4的2.5倍

如何复盘大模型技术爆发的这一年?除了直观的感受，你还需要一份系统的总结。斯坦福HAI研究所发布了第七个年度的AIIndex报告，这是关于人工智能行业现状的最全面的报告之一。该指数中的其他图表显示，不同人群的观点存在显著差异，年轻人更倾向于乐观地看待人工智能将如何改变他们的生活。

李飞飞 GeminiUltra GPT-4
Harvey公司与OpenAI合作为法律专业人士打造定制训练的案例法模型

Harvey公司与OpenAI宣布合作，共同为法律专业人士打造了一款定制训练的案例法模型。这款AI系统不仅具备复杂的推理能力能够处理广泛的法律领域知识，并具备超越单一模型调用的能力。通过这种方式，Harvey不仅在法律领域是在所有专业服务领域都拥有巨大的发展潜力。

Harvey 法律模型 AI头条
荐李彦宏大模型“创业”400天

“过去这一年，我跟很多创业者、开发者交流，感觉大家都处在一种‘FOMO’状态，既兴奋、又害怕错过。”面对在生成式AI浪潮中正被彻底改变的开发者群体，4月16日对外演讲中，李彦宏率先谈起了他们所遭遇的选择迷茫问题。在文字、图片、语音、视频等多模态大模型的长期竞争中，留给李彦宏的新挑战之一便是，如何带领百度继续保持模型性能的领先优势。

李彦宏大模型
荐奥特曼斯坦福演讲：专注当前AI局限性没用，GPT-5让一切努力过时

黄仁勋亲自为OpenAI送来了全球第一台NvidiaDGXH200超级计算机，三人合影引得大家津津乐道。奥特曼也没闲着，现身斯坦福大学的Nvidia礼堂发表演讲，大约超过1000名学生排起了长队。奥特曼表示一年前他们推出的GPT-4曾引发了人们两周的恐慌，人们认为这是一件疯狂的事，世界被永远改变了。

GPT-5
亿万富翁用儿子血浆换血展示抗衰成果让网友瞠目：科学家释疑

最近，知名亿万富豪约翰逊在社交平台上分享了自2021年开始参与抗衰老实验后的面部变化照片，并幽默地表示，连他的FaceID也对此感到困惑不已。他还在评论区发起了一场别开生面的投票，邀请网友们一同评判他颜值的巅峰时刻。对于保健用途，尤其是尚未得到明确验证的抗衰老用途，进行血浆置换需慎之又慎。

抗衰老实验面部变化血浆交换治疗
干货！斯坦福发布《2024 年人工智能指数报告》

斯坦福大学人工智能研究院发布的《2024年人工智能指数报告》提供了对2023年人工智能领域进展的全面分析，覆盖了技术进步、经济影响、政策制定和公众舆论等多个方面。以下是报告的一些关键要点:技术进步:行业研究贡献:行业在AI研究方面发挥了重要作用，2023年贡献了51个重要的机器学习模型学术界仅贡献了15个。报告也强调了需要关注AI的伦理、责任和社会影响，以确保其发展能够造福全人类。

斯坦福大学人工智能 AI头条

RAGFlow:开源的基于深度文档理解的RAG（检索增强生成）引擎

RAGFlow是一个开源的RAG（Retrieval-Augmented Generation）引擎，基于深度文档理解，提供流线型的RAG工作流程，适用于各种规模的企业。它结合了大型语言模型（LLM）提供真实的问答能力，支持从各种复杂格式数据中引用确凿的引文。

自然语言处理机器学习信息检索

EmojiTell:使用表情组合翻译器，让沟通更有趣且富有表现力。

EmojiTell是一个创新的在线服务，可以将文本翻译成表情组合，增加沟通的趣味性和表现力。它由一支对表情符号充满热情的开发者和设计师团队开发，旨在通过表情符号的力量，让信息传递更加生动和个性化。

表情符号翻译沟通

Perplexica:一个开源的AI驱动搜索引擎，提供深入网络的答案。

Perplexica是一个开源的AI驱动搜索引擎，它不仅搜索网络，还理解您的问题。它使用先进的机器学习算法，如相似性搜索和嵌入，来优化结果，并提供引用来源的清晰答案。使用SearxNG保持最新和完全开源，确保您始终获得最新信息，同时不损害您的隐私。

搜索引擎机器学习人工智能

FaceChain:深度学习工具链，用于生成你的数字孪生体。

FaceChain是一个深度学习工具链，由ModelScope提供支持，能够通过至少1张肖像照片生成你的数字孪生体，并在不同设置中生成个人肖像（支持多种风格）。用户可以通过FaceChain的Python脚本、熟悉的Gradio界面或sd webui来训练数字孪生模型并生成照片。FaceChain的主要优点包括其生成个性化肖像的能力，支持多种风格，以及易于使用的界面。

深度学习数字孪生个性化

Huggingface 镜像站:一个公益项目，致力于帮助国内AI开发者快速、稳定的下载模型、数据集。

HuggingFace镜像站是一个非盈利性项目，旨在为国内的AI开发者提供一个快速且稳定的模型和数据集下载平台。通过优化下载过程，减少因网络问题导致的中断，它极大地提高了开发者的工作效率。该镜像站支持多种下载方式，包括网页直接下载、使用官方命令行工具huggingface-cli、本站开发的hfd下载工具以及通过设置环境变量来实现非侵入式下载。

AI 机器学习数据集

WebLlama:构建能够根据指令浏览网页并和您对话的强大代理

WebLlama是一个基于Meta Llama 3构建的代理，专门为网页导航和对话进行了微调。它旨在构建有效的以人为中心的代理，帮助用户浏览网页，而不是取代用户。该模型在WebLINX基准测试中超越了GPT-4V（零样本）18%，展示了其在网页导航任务中的卓越性能。

网页导航对话代理机器学习

Infra Copilot:利用机器学习自动生成基础设施代码，提高开发效率。

GitHub Copilot for Infrastructure as Code（简称Infra Copilot）是一个利用机器学习技术帮助基础设施专业人员自动生成精确基础设施代码的工具。它通过理解基础设施任务的上下文，允许专业人员使用自然语言表达需求，并接收相应的代码建议。Infra Copilot不仅简化了基础设施即代码（IaC）的开发过程，还确保了跨环境和项目的一致性，加速了新团队成员的上手和学习过程，显著提高了工作效率并节约了时间。

基础设施即代码自动化机器学习

LLaVA++:扩展LLaVA模型，集成Phi-3和LLaMA-3，提升视觉与语言模型的交互能力。

LLaVA++是一个开源项目，旨在通过集成Phi-3和LLaMA-3模型来扩展LLaVA模型的视觉能力。该项目由Mohamed bin Zayed University of AI (MBZUAI)的研究人员开发，通过结合最新的大型语言模型，增强了模型在遵循指令和学术任务导向数据集上的表现。

人工智能自然语言处理机器学习

PhysDreamer:通过视频生成实现基于物理的3D对象交互

PhysDreamer是一个基于物理的方法，它通过利用视频生成模型学习到的对象动力学先验，为静态3D对象赋予交互式动力学。这种方法允许在缺乏真实物体物理属性数据的情况下，模拟出对新颖交互（如外力或代理操作）的真实反应。PhysDreamer通过用户研究评估合成交互的真实性，推动了更吸引人和真实的虚拟体验的发展。

3D交互视频生成物理模拟

AI快站:专注于提供HuggingFace模型免费加速下载服务的平台

AI快站是一个为AI开发者设计的服务平台，提供HuggingFace模型的免费加速下载，解决大模型下载缓慢和断开的问题，支持高达4M/s的下载速度，大幅减少等待时间，提高开发效率。

HuggingFace模型加速下载断点续传

Llama-3 8B Instruct 262k:一款由Gradient AI团队开发的高性能文本生成模型。

Llama-3 8B Instruct 262k是一款由Gradient AI团队开发的文本生成模型，它扩展了LLama-3 8B的上下文长度至超过160K，展示了SOTA（State of the Art）大型语言模型在学习长文本操作时的潜力。该模型通过适当的调整RoPE theta参数，并结合NTK-aware插值和数据驱动的优化技术，实现了在长文本上的高效学习。此外，它还基于EasyContext Blockwise RingAttention库构建，以支持在高性能硬件上的可扩展和高效训练。

斯坦福博士独作！大模型训练速度再翻倍，还官宣加入明星创业公司当首席科学家

今日大家都在搜的词：

热文

站长商机