首页 > 业界 > 关键词  > AI推理最新资讯  > 正文

AI日报:全球最快AI推理架构发布;夸克PC端AI全面升级;智谱开源CogVideoX-5B视频生成模型;OpenAI的“草莓”终于熟了

2024-08-28 15:16 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、全球最快AI推理架构Cerebras Inference 速度提升20倍!

Cerebras Systems推出的Cerebras Inference将彻底改变AI推理,提供极低成本下20倍速度,为AI计算树立新标杆。这项开创性解决方案在保持行业领先准确度的同时实现了惊人速度,为AI推理开启新纪元。

image.png

【AiBase提要:】

🌟 速度提升20倍,价格更具竞争力,开启AI推理新纪元。

💡 支持各类AI模型,尤其在大语言模型(LLMs)上表现卓越。

🚀 提供三种服务层次,方便开发者和企业用户灵活选择。

2、Claude超强可视化功能Artifacts向所有用户免费开放

Anthropic的AI初创公司推出了Claude系列大语言模型的新功能“Artifacts”,用户可以轻松生成交互式可视化、图表或小游戏,提升创作效率。功能已在免费、专业和团队版本中开放,支持移动端使用,促进全球创意交流。

image.png

【AiBase提要:】

🔧 Claude Artifacts功能现已在所有用户的免费、专业和团队版本中开放,支持移动端使用。

🌍 只有免费和专业计划的用户能够发布和重制Artifacts,促进全球创意交流。

📊 支持多种输出形式,适用于开发者、产品经理、设计师、营销和销售团队,提升工作效率。

3、AI界的推理大师!OpenAI向联邦调查局展示“草莓”项目,或将在秋季推出

OpenAI向美国国家安全官员展示了草莓项目,承诺在安全、合理范围内开发和使用。草莓将作为聊天机器人的一部分,具有解决数学和编程问题的能力。公司业务增长迅速,估值高达860亿美元。

image.png

【AiBase提要:】

🍓 OpenAI草莓项目将专注解决复杂数学和编程问题。

🚀 公司业务增长迅速,大型语言模型(LLM)和ChatGPT订阅收入同比增长两倍,估值高达860亿美元。

🔍 使用草莓生成的高质量训练数据,有望显著减少AI模型产生的错误。

4、智谱开源CogVideoX-5B视频生成模型老显卡也能带得动

魔搭ModelScope社区近日宣布,其国产开源Sora视频生成模型CogVideoX的更大尺寸版本——CogVideoX-5B已正式开源。新模型在视频生成的质量和视觉效果上都有显著提升,采用了3D因果变分自编码器和专家Transformer技术,结合文本和视频嵌入,使用3D-RoPE作为位置编码,并利用3D全注意力机制进行时空联合建模。模型还采用了渐进式训练技术,能够生成具有显著运动特征、连贯且长时间的高质量视频。

image.png

【AiBase提要:】

✨ 新模型CogVideoX-5B在视频生成质量和视觉效果上有显著提升。

🔍 CogVideoX-5B基于大规模DiT模型,专为文本到视频生成任务设计。

⚙️ 模型采用了3D因果变分自编码器和专家Transformer技术,结合文本和视频嵌入,使用3D-RoPE作为位置编码,并利用3D全注意力机制进行时空联合建模。

详情链接:https://modelscope.cn/models/ZhipuAI/CogVideoX-5b

5、夸克PC端AI全面升级 整合AI搜索、AI创作、AI总结等能力

夸克PC端应用经过全新升级,提升了AI搜索、AI写作、AI PPT、AI文件总结等关键功能。AI搜索功能拥有更强大的模型能力,实现更快的交互速度,领先行业标准。写作方面支持近200种文稿撰写,能快速产出高质量文章。系统级全场景AI能力允许用户通过快捷键调用AI功能,实现搜索、解读、翻译和润色等操作。

image.png

【AiBase提要:】

✨ AI搜索功能升级,交互速度更快,提供精准答案。

📝 支持近200种文稿撰写,半分钟内产出高质量文章。

🔍 系统级全场景AI能力,快捷键调用AI功能实现搜索、解读、翻译和润色。

6、测试期免费试用!元象推出基于物理的3D动作生成模型MotionGen

深圳元象信息科技推出的MotionGen模型是中国3D AIGC领域的重大突破,通过融合大模型、物理仿真和强化学习等算法,实现用户通过简单文本指令快速生成逼真、流畅的3D动作。该模型降低了3D内容制作门槛,提高创作自由度和效率,对动画、游戏、电影和虚拟现实行业具有重要意义。

image.png

【AiBase提要:】

⚙️ MotionGen模型极大降低了3D内容制作门槛,使零经验创作者也能轻松创造高质量动画。

🤖 MotionGen具备精准文本理解能力,支持各类复杂动作创意需求,实现文本到动作的无缝连接。

🌟 MotionGenGPT算法结合多种技术,提升了动作生成的细节表现力和匹配度。

7、智谱AI开放GLM-4-Flash:免费使用、多场景适配

智谱AI开放平台近日宣布GLM-4-Flash模型免费开放,将引领AI应用领域新创新浪潮。该模型高速经济,适用于多种任务,支持多语言,优化了运行效率和降低推理成本。应用广泛且性能出色,已在多领域展现潜力。用户可通过完成调查问卷获得免费微调福利。

【AiBase提要:】

⚙️ GLM-4-Flash模型免费开放,适用于简单任务,多语言支持,优化了运行效率和降低推理成本。

💡 GLM-4-Flash性能出色,生成速度快,具备实时网页检索能力和函数调用能力。

🌐 GLM-4-Flash应用广泛,展现潜力于生物数据处理、训练数据生成、AI助教制作、翻译APP开发等多领域。

详情链接:https://bigmodel.cn/console/trialcenter?modelCode=glm-4-flash

8、Google Meet推出AI自动记笔记功能,会议再也不怕遗漏信息

Google Meet推出了新功能“为我记笔记”,让会议记录变得更便捷高效。这项功能不仅自动总结会议内容,还提供迟到者会议摘要,让大家随时跟上会议进展。同时,会议记录以Google文档形式保存并自动发送给与会者,提供一站式服务。虽然功能强大,但目前仅支持英语,且AI可能出错。预计到2024年9月10日将推广至所有Google Workspace用户。

image.png

【AiBase提要:】

📌 自动总结会议内容,提高会议记录效率。

🕒 提供迟到者会议摘要,帮助快速跟上会议进展。

📄 会议记录以Google文档形式保存并自动发送给与会者,提供便捷服务。

9、AI重塑神话:抖音博主8天打造《山海经》视觉盛宴,网友惊呼超越央视

在中国丰富的文化宝库中,《山海经》无疑是一颗璀璨的明珠。抖音博主AI疯人院借助人工智能技术,用8天时间完成了AI复刻的《山海经》视频,精确还原了原著中的奇幻世界,引发热议并获得观众好评。这种新兴的创作方式展示了AI在视频制作领域的强大潜力,为内容创作带来更多可能性。

image.png

【AiBase提要:】

🌟 抖音博主AI疯人院用人工智能技术重塑《山海经》,精准还原奇幻世界,视频质量令人惊叹。

🔮 视频制作只用了8天时间完成,展示了AI在短剧制作领域的潜力,大大降低了制作成本和周期。

🎮 观众好评如潮,有网友认为视频质量超越央视,展示了《山海经》IP改编成游戏的潜力。

10、AI换脸乱象:特朗普误信AI假图,马斯克被代言诈骗案频发

近日,特朗普转发虚假图片引发泰勒·斯威夫特粉丝抵制,马斯克卷入AI换脸诈骗事件。事件警示投资和信息获取需谨慎,数字时代谨防成为虚假信息受害者。

image.png

【AiBase提要:】

🤖 特朗普转发虚假图片引发泰勒·斯威夫特粉丝抵制。

🔍 马斯克卷入AI换脸诈骗事件,受害者投资数十万美元化为乌有。

😱 AI换脸技术诈骗案件中,马斯克成为最常见代言人之一。

11、谷歌Gemini1.5系列模型发布新版本

谷歌最近推出Gemini1.5系列模型的最新版本,包括Gemini1.5Flash-8B、Gemini1.5Flash和Gemini1.5Pro,性能得到显著提升。开发者们对Gemini1.5Flash的全面性能提升表示狂欢。然而,用户对新模型的反馈呈现两极化趋势,一些期待Gemini2.0的全面升级,另一些赞赏当前更新的速度和性能。

【AiBase提要:】

✨ Gemini1.5系列模型在数学、编程和复杂提示方面有显著提升。

🚀 Gemini1.5Flash能处理超过1000万token的多模态输入,适应能力强。

🛠️ 用户反馈两极化,一些期待Gemini2.0的全面升级,另一些赞赏当前更新。

12、小而美!港大最新推荐系统EasyRec 以文本洞察用户心声

在信息泛滥的时代,推荐系统成为了我们筛选信息的重要助手。EasyRec的出现或许能够解决推荐内容不合口味和精准度不足的难题,其基于语言模型的推荐系统在预测用户喜好方面表现出色。

【AiBase提要:】

🔍 EasyRec是基于语言模型的推荐系统,通过分析文本信息预测用户喜好。

🧠 EasyRec核心技术是文本行为对齐框架,分析用户行为故事来预测潜在喜好。

🚀 EasyRec在多个数据集上测试表现优秀,特别擅长处理新用户和新商品的零样本推荐场景。

详情链接:https://arxiv.org/pdf/2408.08821

13、德勤发布生成式人工智能最新报告

德勤最新报告揭示了企业在生成式人工智能领域的投资情况和挑战。大部分公司正增加对生成式 AI 的投入,但项目仍在试点阶段。企业面临着数据反馈不足、实施障碍等挑战。报告强调企业需清晰展示生成式 AI 的价值以促进持续投资。

【AiBase提要:】

🌟 约66% 的公司增加对生成式 AI 的投资,但大部分项目仍在试点阶段。

💡54% 的企业希望提高效率,但只有38% 在跟踪生产力变化。

📊 企业需向高层清晰展示生成式 AI 的价值,以促进持续投资。

举报

  • 相关推荐
  • 大家在看
  • Kvistly:AI驱动的互动式测验制作工具

    Kvistly是一个利用人工智能技术创建互动式测验的平台,旨在提升销售培训、团队建设、培训和入职等环节的效率和参与度。它通过实时的互动学习连接真人,增强团队协作和知识传递。产品背景信息显示,Kvistly在教育和商业培训领域具有重要性,通过游戏化学习提高员工的参与度和学习效果。价格方面,Kvistly提供定价信息,但具体细节需访问其定价页面了解。

  • Quetzal:现代国际化平台,快速实现产品多语言支持。

    Quetzal是一个现代国际化平台,旨在帮助用户快速将产品翻译成多种语言,以获得全球新客户。该平台提供工具,支持20多种语言,与Next.js和React兼容,并且拥有快速设置流程,仅需约10分钟。Quetzal利用人工智能技术,结合应用程序的上下文,在几分钟内实现最佳翻译效果。它还提供了一个仪表板,让用户可以在一个地方查看和管理所有的字符串。产品背景信息显示,Quetzal由Quetzal Labs, Inc.在奥克兰精心打造,并且提供了一个慷慨的免费计划,直到用户添加第二种语言。

  • Aria:多模态原生混合专家模型

    Aria是一个多模态原生混合专家模型,具有强大的多模态、语言和编码任务性能。它在视频和文档理解方面表现出色,支持长达64K的多模态输入,能够在10秒内描述一个256帧的视频。Aria模型的参数量为25.3B,能够在单个A100(80GB)GPU上使用bfloat16精度进行加载。Aria的开发背景是满足对多模态数据理解的需求,特别是在视频和文档处理方面。它是一个开源模型,旨在推动多模态人工智能的发展。

  • Marqo:训练和部署嵌入式模型的AI平台

    Marqo是一个专注于训练和部署嵌入式模型的平台,它提供了一个端到端的解决方案,从模型训练到推理,再到存储。Marqo支持150多种嵌入式模型,并且可以快速原型设计,加速迭代,并无缝部署。该平台支持多模态模型,如CLIP,可以从图像和其他数据类型中提取语义信息,实现文本和图像的无缝搜索,甚至可以将文本和图像组合成一个向量。Marqo还支持100多种语言的搜索,提供最先进的多语言模型,无需手动进行语言配置即可扩展到新的地区。此外,Marqo的可扩展性允许用户在笔记本电脑上的Docker镜像中运行,也可以扩展到云端数十个GPU推理节点,提供低延迟的搜索服务。

  • AMD Instinct MI325X Accelerators:为AI基础设施提供领导性的AI性能

    AMD Instinct MI325X加速器基于AMD CDNA 3架构,专为AI任务设计,包括基础模型训练、微调和推理,提供卓越的性能和效率。这些产品使AMD的客户和合作伙伴能够在系统、机架和数据中心层面创建高性能和优化的AI解决方案。AMD Instinct MI325X加速器提供了行业领先的内存容量和带宽,支持6.0TB/s的256GB HBM3E,比H200多1.8倍的容量和1.3倍的带宽,提供了更高的FP16和FP8计算性能。

  • Ryzen™ AI PRO 300 Series Processors:第三代商用AI移动处理器,为商务用户带来前所未有的AI计算能力和多日电池续航。

    AMD Ryzen™ AI PRO 300系列处理器是专为企业用户设计的第三代商用AI移动处理器。它们通过集成的NPU提供高达50+ TOPS的AI处理能力,是市场上同类产品中性能最强的。这些处理器不仅能够处理日常的工作任务,还特别为满足商务环境中对AI计算能力的需求而设计,如实时字幕、语言翻译和高级AI图像生成等。它们基于4nm工艺制造,并采用创新的电源管理技术,能够提供理想的电池续航能力,非常适合需要在移动状态下保持高性能和生产力的商务人士。

  • Unify Plays:快速构建端到端的营销活动

    Unify Plays是一个商业营销平台,它通过集成AI、自动化和数据验证技术,帮助企业构建和运行能够生成潜在客户并促进销售的营销活动。这个平台的主要优点在于其一体化的解决方案,能够减少企业在营销活动中对多个工具的依赖,提高效率,同时通过AI技术实现个性化营销,提升客户参与度和转化率。Unify Plays的背景信息显示,它是由Unify公司开发,旨在为高增长企业提供一种更高效、更智能的营销方式。关于价格,Unify Plays提供了不同的套餐选项,以满足不同规模企业的需求。

  • Eddie AI:您的AI故事讲述伙伴

    Eddie AI是一个创新的视频编辑平台,它利用人工智能技术帮助用户快速、轻松地编辑视频。这个平台的主要优点是它的用户友好性和高效率,它允许用户像与另一个编辑交谈一样与AI对话,提出他们想要的视频剪辑类型。Eddie AI的背景信息显示,它旨在通过使用自定义的AI编辑/故事模型来扩展视频编辑的规模,这表明它在视频制作领域具有潜在的革命性影响。

  • Cooraft:将自拍变成艺术工作室视频和照片,卡通动画和艺术渲染,只需一键。

    Cooraft是一款利用人工智能技术将普通照片转化为艺术作品的应用程序。它能够将自拍和日常照片转化为具有创意和艺术性的动画和渲染图,提供从3D卡通到经典绘画等多种艺术风格。Cooraft不仅能够美化人像,还能将素描、绘画、线稿等多种输入转化为新的渲染图,实现从2D到3D的转变。此外,Cooraft还提供了订阅服务,用户可以通过订阅获得更多高级功能。

  • DreamMesh4D:从单目视频生成高质量4D对象的新型框架

    DreamMesh4D是一个结合了网格表示与稀疏控制变形技术的新型框架,能够从单目视频中生成高质量的4D对象。该技术通过结合隐式神经辐射场(NeRF)或显式的高斯绘制作为底层表示,解决了传统方法在空间-时间一致性和表面纹理质量方面的挑战。DreamMesh4D利用现代3D动画流程的灵感,将高斯绘制绑定到三角网格表面,实现了纹理和网格顶点的可微优化。该框架开始于由单图像3D生成方法提供的粗糙网格,通过均匀采样稀疏点来构建变形图,以提高计算效率并提供额外的约束。通过两阶段学习,结合参考视图光度损失、得分蒸馏损失以及其他正则化损失,实现了静态表面高斯和网格顶点以及动态变形网络的学习。DreamMesh4D在渲染质量和空间-时间一致性方面优于以往的视频到4D生成方法,并且其基于网格的表示与现代几何流程兼容,展示了其在3D游戏和电影行业的潜力。

  • Kaption AI:使用AI技术将WhatsApp音频消息转文字并生成摘要

    Kaption AI是一款Chrome浏览器插件,它利用人工智能技术将WhatsApp上的音频消息转换成文字,并提供消息摘要和回复建议。这款插件重视用户隐私和安全性,采用先进的AI技术实现准确的转录和总结。它特别适合那些经常使用WhatsApp且难以听取长音频消息的用户,帮助他们节省时间,只关注重要的信息。

  • CursorCore:开源AI辅助编程模型系列

    CursorCore是一系列开源模型,旨在通过编程指令对齐来协助编程,支持自动化编辑和内联聊天等功能。这些功能模仿了如Cursor这样的闭源AI辅助编程工具的核心能力。该项目通过开源社区的力量,推动了AI在编程领域的应用,使得开发者能够更加高效地编写和编辑代码。目前该项目处于早期阶段,但已经展示了其在提高编程效率和辅助代码生成方面的潜力。

  • WiseWorld:AI驱动的虚拟世界,用于软技能评估和培训

    WiseWorld是一个利用人工智能和游戏化技术来提升员工软技能的平台。它通过模拟真实生活情景,帮助员工在沟通、问题解决、团队合作等方面进行实践和提升。WiseWorld通过角色扮演和模拟练习,为团队领导者和成员提供了一个安全的环境来尝试不同的策略并获取即时反馈。此外,它还提供了一个管理者仪表板,使领导者能够实时了解团队动态、个人表现和整体进展,从而做出数据驱动的决策,提高领导效能和团队凝聚力。

  • Pyramid Flow:高效视频生成建模的金字塔流匹配技术

    Pyramid Flow 是一种高效的视频生成建模技术,它基于流匹配方法,通过自回归视频生成模型来实现。该技术主要优点是训练效率高,能够在开源数据集上以较低的GPU小时数进行训练,生成高质量的视频内容。Pyramid Flow 的背景信息包括由北京大学、快手科技和北京邮电大学共同研发,并且已经在多个平台上发布了相关的论文、代码和模型。

  • MLE-bench:机器学习工程能力的AI代理评估基准

    MLE-bench是由OpenAI推出的一个基准测试,旨在衡量AI代理在机器学习工程方面的表现。该基准测试汇集了75个来自Kaggle的机器学习工程相关竞赛,形成了一套多样化的挑战性任务,测试了训练模型、准备数据集和运行实验等现实世界中的机器学习工程技能。通过Kaggle公开的排行榜数据,为每项竞赛建立了人类基准。使用开源代理框架评估了多个前沿语言模型在该基准上的表现,发现表现最佳的设置——OpenAI的o1-preview配合AIDE框架——在16.9%的竞赛中至少达到了Kaggle铜牌的水平。此外,还研究了AI代理的各种资源扩展形式以及预训练污染的影响。MLE-bench的基准代码已经开源,以促进未来对AI代理机器学习工程能力的理解。

  • Momo XL:动漫风格图像生成模型

    Momo XL是一个基于SDXL的动漫风格模型,经过微调,能够生成高质量、细节丰富、色彩鲜艳的动漫风格图像。它特别适合艺术家和动漫爱好者使用,并且支持基于标签的提示,确保输出结果的准确性和相关性。此外,Momo XL还兼容大多数LoRA模型,允许用户进行多样化的定制和风格转换。

  • Coframe.com:利用OpenAI技术生成与品牌视觉一致的UI代码

    Coframe是一个利用人工智能技术进行网站优化和个性化的平台。它通过与OpenAI合作,开发了一种模型,可以生成高质量、视觉上与品牌一致的UI代码。这种技术的主要优点在于能够加速网站优化过程,使网站优化变得更快速、更经济,同时允许进行以前不可能的实验和个性化方法。Coframe的背景信息显示,它已经与OpenAI合作,在其博客上也有相关介绍。产品的价格和定位信息在页面上没有明确说明。

  • iPhone Photo [FLUX] (iPhone Realism) - v1 final:提高图片自然度和真实感的AI模型

    iPhone Photo [FLUX] 是一个基于LoRA技术的AI模型,旨在增强图像的真实感,特别是在模仿iPhone照片效果方面表现出色。它不仅能够提升iPhone拍摄的照片质量,也能为非iPhone照片增添自然和真实的视觉效果。该模型由Anibaaal开发,并于2024年10月2日发表,属于Civitai平台。模型的使用技巧提示为强度设置为1,并且有超过1000个赞和375个评论,显示出其受欢迎程度。

  • GR-2:先进的通用机器人代理

    GR-2是一个先进的通用机器人代理,专为多样化和可泛化的机器人操作而设计。它首先在大量互联网视频上进行预训练,以捕捉世界的动态。这种大规模预训练涉及3800万视频剪辑和超过500亿个标记,使GR-2能够在随后的策略学习中跨广泛范围的机器人任务和环境进行泛化。随后,GR-2针对视频生成和动作预测进行了微调,使用机器人轨迹。它展示了令人印象深刻的多任务学习能力,在100多个任务中平均成功率达到97.7%。此外,GR-2在新的、以前未见过的场景中表现出色,包括新的背景、环境、对象和任务。值得注意的是,GR-2随着模型大小的增加而高效扩展,突显了其持续增长和应用的潜力。

  • LlamaIndex.TS:构建LLM应用的框架

    LlamaIndex.TS是一个为构建基于大型语言模型(LLM)的应用而设计的框架。它专注于帮助用户摄取、结构化和访问私有或特定领域的数据。这个框架提供了一个自然语言界面,用于连接人类和推断出的数据,使得开发者无需成为机器学习或自然语言处理的专家,也能通过LLM增强其软件功能。LlamaIndex.TS支持Node.js、Vercel Edge Functions和Deno等流行运行时环境。

今日大家都在搜的词: