首页 > 原创 > 关键词  > 正文

AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

2025-07-11 15:45 · 稿源:aibase

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、智谱上线了类似Manus的PPT生成功能AI Slides,免费使用无限制

智谱推出了全新的AI Slides功能,基于GLM-Experimental模型,能够根据用户提供的主题或文档快速生成高质量的PPT。该功能结构清晰、数据图表直观,并且完全免费,用户可通过chat.z.ai体验。

【AiBase提要:】

🌟 AI Slides可根据主题或文档快速生成高质量PPT。

📊 生成的PPT结构清晰,运用图表展示数据,便于理解。

💻 用户可在chat.z.ai免费体验AI Slides功能。

详情链接:https://chat.z.ai

2、可灵 AI 发布可图2.1模型:图像生成能力大幅提升,支持180种风格

可灵 AI 发布了新一代图像生成模型 '可图2.1',在指令遵循、人像美感和电影质感等方面有显著提升,并且具备强大的文字生成能力。新模型支持超过180种风格响应,为用户提供更丰富的创作选择。

image.png

【AiBase提要:】

🧪 新模型在复杂指令理解方面表现突出,能够精准生成高质量图像。

🎨 文字生成功能增强,支持180种风格响应,拓宽创作空间。

📈 可灵 AI 推出可图2.1模型,图像生成能力显著提升,用户可免费体验7天。

3、NVIDIA 推出 DiffusionRenderer:全新 AI 模型实现视频到可编辑的逼真3D 场景

NVIDIA 和其合作伙伴推出的 DiffusionRenderer 是一项突破性的技术,能够将视频生成与编辑结合,实现对3D场景的理解和操作。该模型通过神经逆渲染器和神经前向渲染器协同工作,提升了视频的真实感和适应性,并在多项任务中表现出色。

image.png

【AiBase提要:】

🎥 DiffusionRenderer 结合生成与编辑功能,为3D场景创作带来新可能。

🔄 神经逆渲染器和神经前向渲染器协同提升视频真实感和适应性。

🔧 实际应用包括动态光照、材料编辑和对象插入,助力创作者轻松进行视频创作。

详情链接:https://youtu.be/jvEdWKaPqkc

4、墨刀AI重磅上线:输入想法30秒生成高保真、可编辑原型

墨刀AI推出全新原型生成功能,用户只需30秒即可从想法生成高保真、可编辑的原型,支持多轮对话优化和局部修改,提升产品设计与验证效率。

image.png

【AiBase提要:】

🚀30秒内生成可编辑原型,支持多终端适配和多轮对话优化

🎨 支持多种图像输入,智能解析草图、线框图等生成界面

🔧 双模式编辑与自动生成文档,实现设计即代码,覆盖多场景

5、上传10张照片,AI秒变时尚大片!Higgsfield Soul ID火爆全球,颠覆你的数字自我

Soul ID是Higgsfield AI推出的一款革命性AI工具,能够通过上传10张以上个人照片生成高度个性化的虚拟形象。其核心功能包括真实感与多样性的完美融合、多样化风格预设以及自动提示词优化,为内容创作者和时尚博主提供了强大的创作工具。

image.png

【AiBase提要:】

📷 个性化训练:用户只需上传10张以上照片即可生成专属AI角色。

🎨 多样化风格预设:内置60多种高级风格预设,一键切换多种视觉语言。

💡 自动提示词优化:用户输入简单描述,AI即可自动优化生成条件,输出高质量图像。

详情链接:https://higgsfield.ai/

6、谷歌DeepMind开源GenAI Processors:一键构建实时AI工作流

谷歌DeepMind开源了GenAI Processors库,为开发者提供了一个轻量级、高效的工具,用于构建异步、可组合的生成式AI工作流。该库支持多模态数据处理,显著提升了基于Gemini API的应用程序开发效率。

image.png

【AiBase提要:】

🔥 GenAI Processors通过模块化设计简化复杂AI工作流的开发过程。

🚀 支持音频、视频和文本等多模态数据的异步流处理,提升实时应用效率。

🌟 开源社区协作将进一步扩展库的功能,覆盖更多场景和编程语言。

详情链接:https://github.com/google-gemini/genai-processors

7、谷歌Veo3新增图像转视频功能,七周内用户创作超4000万个视频

谷歌在AI视频生成领域持续发力,推出图像转视频功能并强化内容识别机制,显示出市场对AI创作工具的强烈需求。

image.png

【AiBase提要:】

🖼️ 谷歌通过Gemini应用程序新增图像到视频生成功能,扩展AI创作工具能力。

🎥 用户可上传照片生成视频片段,并添加描述音频,支持下载或分享作品。

🔒 所有使用Veo3模型生成的视频将带有可见和不可见的数字水印,确保内容可追溯性。

8、Mistral AI 发布 Devstral2507:为代码中心语言建模而生

Mistral AI 与 All Hands AI 合作推出 Devstral2507系列模型,包含开源的 Devstral Small1.1和企业版的 Devstral Medium2507。这些模型专注于代码推理、程序合成和结构化任务执行,适用于大型软件代码库的实际应用。Devstral Small1.1在 SWE-Bench 基准测试中得分53.6%,而 Devstral Medium2507得分为61.6%,表现优于一些商业模型。

image.png

【AiBase提要:】

🌟 Devstral2507系列包括开源的 Devstral Small1.1和企业版的 Devstral Medium2507,旨在提升代码推理与自动化能力。

🚀 Devstral Small1.1在 SWE-Bench 基准测试中得分53.6%,而 Devstral Medium2507得分61.6%,后者表现优于一些商业模型。

💼 两款模型支持与代码代理框架集成,适用于从本地开发到企业级服务的多种应用场景。

详情链接:https://huggingface.co/mistralai/Devstral-Small-2507

举报

  • 相关推荐
  • AI日报:即梦上线智能多帧功能;可灵2.1首尾帧升级;钉钉推语音识别大模型Fun-ASR

    AI日报栏目汇总近期AI领域重要进展:腾讯元宝接入DeepSeek V3.1提升智能助手能力;即梦AI推出多帧功能简化视频制作;可灵AI首尾帧功能升级效果提升235%;钉钉与通义实验室联合发布Fun-ASR语音识别大模型;腾讯CodeBuddy IDE国内版公测;Vercel发布AI Gateway简化模型调用;Anthropic整合Claude Code强化企业开发;阿里发布Mobile-Agent-v3突破GUI自动化;Qoder平台革新编程模式;清华团队GUAVA框架实现0.1秒3D化身生成;谷歌搜索新增AI Agent功能;VAST推出Tripo 3.0推动3D内容创作。

  • 微软发布AI截图工具,截图一键转PPT

    微软电脑管家推出全新“智能圈选”功能,通过AI技术实现截图内容的智能识别与重构。用户只需圈选截图区域,即可一键完成文字提取、多语言翻译及PPT转换等操作,大幅提升办公和学习效率。该功能支持100多种语言,保留原始格式,并能智能修复遮挡内容,彻底改变了传统截图处理方式。

  • AI日报:可灵2.1推出全新首尾帧功能;昆仑万维上线AI音乐模型Mureka V7.5;腾讯云推出AI开发工具CloudBase AI CLI

    本文介绍了AI领域最新动态:1)快手可灵2.1推出首尾帧功能,提升视频生成效果;2)昆仑万维发布Mureka V7.5音乐模型,优化人声表现;3)腾讯云推出AI开发工具CloudBase AI CLI,可减少80%编码量;4)海外新品MuleRun通过虚拟机和AI Agent带来创新游戏体验;5)Meta开源DINOv3视觉模型,无需标注即可实现卓越性能;6)宇树科技人形机器人H1获1500米赛跑金牌;7)谷歌Gemini新增记忆功能和隐私聊天模式;8)香港大学开源OpenCUA框架,打造个性化电脑助手;9)OpenAI考虑在ChatGPT引入广告;10)谷歌发布超小型开源模型Gemma 3 270M,支持手机端运行。

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • AI日报:Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型

    本期AI日报聚焦多项技术突破:阿里通义万相发布Wan 2.2-S2V模型,实现视频音频同步生成;字节跳动研发3D模型生成工具,降低建模门槛;面壁智能推出MiniCPM-V4.5端侧多模态模型;苹果提出RLCF训练法提升模型性能;微软开源VibeVoice-1.5B支持超长语音合成;谷歌Imagen 4正式上线;英伟达发布Jetson Thor机器人计算平台;Genspark推出AI Designer一键生成品牌方案;豆包上线未成年人保护模式。

  • AI日报:DeepSeek V3.1正式发布;企业微信5.0推出全新AI能力;快手 Klear-Reasoner 模型成功登顶

    AI日报栏目聚焦人工智能领域最新动态。DeepSeek V3.1发布,大幅增强长文档分析和代码理解能力;企业微信5.0集成智能搜索、总结和机器人功能;快手Klear-Reasoner模型数学推理准确率超90%;谷歌Docs新增AI语音朗读功能;Firecrawl完成1450万美元融资并推出V2版本API;Meta上线AI语音翻译功能;微软Excel集成Copilot实现一键数据分析;Claude桌面客户端推动AI编程可视化;苹果Xcode将原生集成Cl

  • 可灵2.1最强首尾帧上线 生成效果提升235%

    8月22日,可灵AI推出基于2.1模型的首尾帧功能,通过端到端多模态语义推理升级,视频生成效果提升235%。核心突破包括解决转场难题、强化视觉冲击、支持专业运镜及创意营销。测试显示,在人物动态衔接、风格切换及复杂镜头调度上表现突出,显著优于Midjourney等竞品,适用于广告、影视等创意制作场景,巩固了其在AI视频生成领域的领先地位。

  • AI日报:钉钉十周年发布8.0版本;微信悄悄上线AI播客;阿里开源 Mobile-Agent 3

    AI日报栏目聚焦人工智能领域最新动态。钉钉发布8.0版本推出AI办公应用钉钉ONE,通过自然语言交互简化工作流程;阿里开源Mobile-Agent-v3跨平台代理框架;微信测试AI播客功能,实现双人对话式新闻播报;钉钉推出首款AI硬件录音笔DingTalk A1;苹果拟为Siri引入谷歌Gemini大模型;苹果发布适配版SlowFast-LLaVA模型提升长视频分析性能;Meta获得Midjourney技术授权加强AI图像生成竞争力;谷歌Drive新增Vids视频编辑功能降低制作门槛;夸克发布健康大模型通过12学科主治医师测评;AI小游戏Draw A Fish凭借极简设计引发全球热潮。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • AI日报:阿里开源Qwen-Image-Edit;淘宝“AI万能搜”功能灰度测试;小红书发布DynamicFace人脸生成技术

    本期AI日报聚焦多项AI领域创新:1)阿里开源Qwen-Image-Edit图像编辑模型,支持中文渲染与精准文本编辑;2)淘宝测试"AI万能搜"功能,重构电商搜索体验;3)小红书发布DynamicFace人脸生成技术,实现高质量图像视频换脸;4)Gemini API新增URL Context功能,简化网页内容获取流程;5)Nvidia推出小型开放模型Nemotron-Nano-9B-v2,支持智能推理开关;6)马斯克发布Grok Imagine 0.1测试版,进军AI图像生成领域;7)Vercel推出iOS版AI开发工具v0;8)理想汽车发布MindGPT 3.1模型,处理速度提升5倍;9)ToonComposer工具简化动画制作流程;10)ElevenLabs推出视频到音乐生成流程。

今日大家都在搜的词:

热文

  • 3 天
  • 7天