AI日报：字节推图像编辑模型SeedEdit；Suno发布V4音乐生成模型；谷歌AI视频制作神器Vids

2024-11-11 15:28 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、豆包大模型团队正式发布图像编辑模型SeedEdit 用嘴P图成真!

SeedEdit是豆包大模型团队推出的图像编辑工具，通过一句话命令AI实现精准修改图片元素，比MJ更简单快捷。用户只需输入指令，如"把项圈变成珍珠项链"，即可轻松编辑图片。SeedEdit在维持原始图像和生成新图像之间取得平衡，支持多轮编辑，精准理解用户指令，保持高质量。

【AiBase提要:】
🎨 一句话P图成真:SeedEdit通过一句话命令AI实现精准修改图片元素，更简单快捷。
🚀 最佳平衡设计:SeedEdit在维持原始图像和生成新图像之间取得平衡，保持高质量。
👀 多轮编辑支持:SeedEdit支持用户多次修改图像，让用户得到满意的效果。
详情链接:https://huggingface.co/spaces/ByteDance/SeedEdit-APP

2、谷歌推出AI视频制作神器Vids:输入文字秒变视频，小白也能轻松创作!

谷歌最近推出了名为Vids的AI视频演示应用程序，利用Gemini AI模型驱动，用户可以通过简单的文字提示或上传Google Drive文档生成视频演示文稿。Vids具有强大的AI智能创作能力，简化了视频制作过程，提供丰富模板和自定义编辑功能。同时支持便捷的语音和录音功能，实时协作和安全共享，适用于多种场景。Vids的推出标志着AI技术在视频制作领域的重大突破，让用户轻松创作高质量视频内容。

【AiBase提要:】
✨ 强大的AI智能创作能力，自动生成视频草稿包含场景、脚本、推荐媒体素材和背景音乐，简化视频制作过程。
🎬 提供丰富模板和自定义编辑功能，用户可选择合适模板，添加动画、转场、照片特效，满足个性化编辑需求。
🔊 支持便捷的语音和录音功能，包括AI语音旁白、滚动式提词器，方便用户录制、添加讲解和展示内容。
详情链接:https://workspace.google.com/products/vids/

3、Suno发布V4音乐生成模型音频演示视频，音质和风格大提升

Suno 公司最新发布的v4音乐生成模型展现出显著的音质和多样性提升，通过深度学习技术生成更自然和富有表现力的音乐作品。这一创新不仅适用于个人创作，还可以推动AI音乐生成技术的普及和应用。

【AiBase提要:】
🎵 v4音乐生成模型展现出显著的音质和多样性提升
🎶 通过深度学习技术生成更自然和富有表现力的音乐作品
🎤 适用于个人创作和商业音乐制作，推动AI音乐生成技术的普及

4、百度文心一言AI绘画功能升级

百度AI旗下的文心一言AI绘画技术迎来了重大升级，现在支持一键生成多比例图片，极大地简化了新媒体配图流程。技术进步使得文心一言AI在语义理解、视觉效果和细节刻画上都有显著提升，提高工作效率，提升视觉效果，使新媒体配图变得简单易行。

【AiBase提要:】
🖌️ 一键生成多比例图片:用户输入所需的图片比例，系统自动生成多尺寸图片，覆盖各种需求，提高工作效率。
🎨 支持任意风格绘制:智慧生图能绘制多种风格，用户输入描述即可生成高质感、细节丰富的图片，提升视觉效果。
🖼️ 参考图生成图片:支持参考图生成，使人物生成更美观，画面更精准，满足不同内容创作需求。

5、昆仑万维SkyReels AI短剧平台将于12月10日在美国正式上线

昆仑万维科技股份有限公司旗下的AI短剧平台SkyReels即将在美国正式上线，这标志着公司在全球AI娱乐市场的扩张，为北美观众带来全新的智能短剧体验。平台通过创新技术和功能，为内容创作者提供强大的创作工具，同时降低了AI短剧创作门槛，使非专业用户也能轻松上手。

【AiBase提要:】
🚀 昆仑万维SkyReels AI短剧平台12月10日在美国正式上线，标志着全球AI娱乐市场扩张。
💡 SkyReels集成视频大模型与3D大模型，颠覆视频内容创作流程，实现创作者创作梦想。
🔑 SkyReels新增3D交互编辑、AI全身动捕等特色功能，与北美内容创作者合作丰富内容，提升用户体验。

6、视频也能脑补配音?CogSound让视频“声”动起来，从此告别无声尴尬!

CogSound是一款基于人工智能技术的音效生成模型，能为无声视频添加逼真的音频体验，让观众享受身临其境的音效体验。它像经验丰富的配音大师，识别视频场景，匹配合适音效，并确保音视频同步。采用先进技术确保音效与画面完美同步，避免“音画不同步”的尴尬。

【AiBase提要:】
🔊 CogSound是基于人工智能技术的音效生成模型，能为无声视频添加逼真音频体验。
🎬 CogSound识别视频场景，匹配合适音效，并确保音视频高度同步。
🔧 CogSound采用先进技术保证音效与画面完美同步，避免“音画不同步”的尴尬。

7、即梦AI宣布Seaweed视频生成模型开放使用

即梦AI宣布开放Seaweed视频生成模型，提供专业级光影布局和色彩调和，画面视觉美感和真实感。模型基于DiT架构，能实现流畅自然的大幅度运动画面。Pro版模型可实现多拍动作与多主体复杂交互，攻克多镜头切换难题，适配各种设备比例，助力专业创作者和艺术家们的创作。

【AiBase提要:】
⚙️ Seaweed视频生成模型开放使用，提供专业级光影布局和色彩调和。
🎥 模型基于DiT架构，能实现流畅自然的大幅度运动画面，仅需60s生成高质量AI视频。
🎬 Pro版模型可实现多拍动作与多主体复杂交互，攻克多镜头切换难题，适配各种设备比例，助力专业创作者和艺术家们的创作。

8、URAvatar:用手机扫描即可生成个性化虚拟头像

URAvatar技术利用手机扫描生成高保真的虚拟头像，提升了虚拟头像的视觉效果，让用户可以实时驱动和调整头像。该技术采用可学习的辐射传输模型，实现了实时渲染和光照迁移，为虚拟头像带来新的可能性。用户还可以独立控制头像的凝视方向和颈部动作，增强了虚拟交互体验。

【AiBase提要:】
🌟 URAvatar技术通过手机扫描生成高保真的虚拟头像，提升了虚拟头像的视觉效果。
💡 采用可学习的辐射传输模型，实现了实时渲染和光照迁移，为虚拟头像带来新的可能性。
🎮 用户可独立控制头像的凝视方向和颈部动作，增强了虚拟交互体验。

9、告别建模苦恼!DimensionX单图生成3D/4D场景

我看到了一篇关于香港科技大学和清华大学研究团队推出的全新AI框架DimensionX的文章。这个框架可以仅凭一张图片生成充满细节的3D和4D场景，为游戏开发、虚拟现实和影视制作领域带来了革命性突破。它的核心魔法是可控视频扩散技术，让我感到非常惊叹和兴奋。

【AiBase提要:】
🔮 DimensionX是一款AI框架，能从单张图片中提取空间和时间信息，生成连续的视频帧，最终组合成完整的3D或4D场景。
🎥 DimensionX配备了S-Director和T-Director两个强大的“魔法棒”，分别控制空间维度和时间维度，让用户可以自由操控视角和物体运动。
🌟 DimensionX还引入了轨迹感知机制和身份保持去噪策略，优化真实场景生成，确保3D和4D场景更加真实可信。
详情链接:https://chenshuo20.github.io/DimensionX/

10、Meta AI发布FBDetect:实时识别0.005%性能下降，节省数千台服务器!

在大型云基础设施管理中，即使微小性能下降也可能导致显著资源浪费。Meta AI推出FBDetect，能实时识别0.005%性能回归，帮助Meta避免约4000台服务器资源浪费，提高基础设施效率。

【AiBase提要:】
🔍 FBDetect能监测到微小的性能回归，甚至低至0.005%，极大提高了检测精度。
💻 系统覆盖约80万个时间序列，涉及多个性能指标，并能在大规模环境中进行精准分析。
🚀 FBDetect经过七年实际应用，每年帮助Meta避免约4000台服务器资源浪费，提高了基础设施整体效率。
详情链接:https://tangchq74.github.io/FBDetect-SOSP24.pdf

11、Anthropic发布新型token计数API，支持多种Claude模型

在当前的人工智能领域，Anthropic公司推出了新型token计数API，旨在帮助开发者更好地管理语言模型中的token使用，提升交互效率和控制能力。该API准确估算token数，优化token使用，降低成本，适用于构建客户支持聊天机器人、文档摘要和互动学习工具。

【AiBase提要:】
🌟 提升开发效率:新型token计数API帮助开发者准确掌握令牌使用情况，优化开发过程。
💰 控制成本效益:理解token使用，有效控制API调用费用，适合成本敏感项目。
🤖 多模型支持:支持多种Claude模型，灵活应用于不同场景，提升开发者体验。
详情链接:https://docs.anthropic.com/en/docs/build-with-claude/token-counting

12、10月份ChatGPT流量激增至37亿，谷歌NotebookLM凭新功能飙升成黑马!

ChatGPT和谷歌NotebookLM在2024年10月表现抢眼，前者全球访问量达到37亿次，同比增长115.9%，后者因新功能推出访问量激增至3150万次。AI服务整体增长态势良好，未来有望加速增长。

【AiBase提要:】
📈 ChatGPT全球访问量达到37亿次，同比增长115.9%。
🎙️ 谷歌NotebookLM因新推出的AI播客功能访问量激增至3150万次。
💻 其他AI服务如微软的Co-pilot和谷歌的Gemini也实现了一定的增长。

13、AI编码助手Cursor背后公司估值暴涨至25亿美元，投资者竞相抢购

Anysphere旗下的AI编码助手Cursor月收入迅速增长至每月400万美元，吸引了大量风险投资者的关注。公司估值在短短几周内从15亿美元飙升至25亿美元，成为市场焦点。创始团队均为麻省理工学院学生，曾毕业于OpenAI的加速器项目，展现出强大的潜力和吸引力。

【AiBase提要:】
🌟 Anysphere的AI编码助手Cursor月收入从400万美元迅速增长至每月400万美元。
💰 风险投资者对Anysphere的兴趣激增，公司估值从15亿美元升至25亿美元。
🎓 Anysphere成立于2022年，创始团队均为麻省理工学院学生，曾毕业于OpenAI的加速器项目。

14、最后一曲!甲壳虫乐队借AI修复新曲《Now and Then》获两项格莱美提名

甲壳虫乐队利用人工智能技术修复新曲《Now and Then》，并获得两项格莱美提名，尽管已解散50年，仍引人惊讶。保罗・麦卡特尼亲自参与制作，通过AI技术修复约翰・列侬的录音，展现出乐队的音乐魅力。格莱美提名使乐队再次成为关注焦点。

【AiBase提要:】
🎵 甲壳虫乐队的新曲《Now and Then》获得年度唱片和最佳摇滚表演两项格莱美提名。
🎤 此曲通过AI技术修复了约翰・列侬1978年的录音，保罗・麦卡特尼亲自参与制作。
📈 尽管播放量相对较低，甲壳虫乐队依然在与当代音乐巨星竞争中引发广泛关注。

（举报）

相关推荐

关键词：

跨越四大洲的美丽探索：Vida Glow 十年创新，定义口服美容新范式

Vida Glow是源自澳大利亚的口服美容品牌，2014年由Anna Lahey创立，以天然水解海洋胶原蛋白粉为核心产品。品牌通过法国专利水解技术提升吸收率，产品覆盖全球高端百货及医美机构，平均每4秒售出一罐，被誉为全球胶原蛋白领先品牌。目前产品线已扩展至日常护理、高级修护和女性健康系列，致力于以科技推动口服美容行业发展。

Vida Glow 胶原蛋白
电子证件（Digital ID）的全球信任度全景：亚洲、中东与非洲领先，欧美市场滞后

Checkout.com最新全球调研报告显示，不同地区对电子证件（digital ID）的接受度存在显著差异。亚洲、中东和非洲消费者对电子证件和生物识别认证表现出高度信任，而欧洲和北美则态度谨慎。AI电商代理的兴起进一步凸显了数字身份验证在交易中的重要性。报告强调，建立数字信任对全球商业发展至关重要，需行业和政策制定者优先考虑数字身份管理方式。

电子证件生物识别认证数字身份系统
荐AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测试；小红书发布DynamicFace人脸生成技术

本期AI日报聚焦多项AI领域创新：1）阿里开源Qwen-Image-Edit图像编辑模型，支持中文渲染与精准文本编辑；2）淘宝测试"AI万能搜"功能，重构电商搜索体验；3）小红书发布DynamicFace人脸生成技术，实现高质量图像视频换脸；4）Gemini API新增URL Context功能，简化网页内容获取流程；5）Nvidia推出小型开放模型Nemotron-Nano-9B-v2，支持智能推理开关；6）马斯克发布Grok Imagine 0.1测试版，进军AI图像生成领域；7）Vercel推出iOS版AI开发工具v0；8）理想汽车发布MindGPT 3.1模型，处理速度提升5倍；9）ToonComposer工具简化动画制作流程；10）ElevenLabs推出视频到音乐生成流程。

AI 开源图像编辑
荐“无限量”供应Claude，就是AI IDE们的百亿补贴

Anthropic于2025年7月28日宣布，将从8月28日起对Claude Code工具新增每周调用限额——因为少数重度用户全天候高频使用，一次使用成本甚至高达数万美元，远远超过普通订阅预期。同样在上个月，Cursor曾因其“I’ll keep it unlimited”的Pro收费模式悄然变更为计算tokens限制，导致大量用户抱怨“实际上并非无限”，纷纷在社群中吐槽，迫使公司CEO出面道歉、甚至给出退款补偿。这两�

文章搜索核心标签 AI工具
免费使用！腾讯地图已接入DeepSeek-V3.1

DeepSeek V3.1于2025年8月21日发布并开源，腾讯地图率先完成接入。新版AI助手“AI叮当”在三大核心能力显著提升：思考效率更高，响应更快；上下文理解更强，支持多轮连贯对话；智能体调用更精准，尤其在中文网页理解和跨领域搜索方面表现突出。依托升级，AI叮当可提供个性化行程规划、周边推荐及景点知识问答等智能出行服务，让导航升级为全程智能生活陪伴。

DeepSeek V3.1 腾讯地图
荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

AI日报栏目每日更新AI领域热点内容，聚焦开发者需求。本期重点包括：阶跃星辰发布端到端语音大模型Step-Audio2 mini，在多项基准测试中表现优异；9月1日起AI生成内容需强制标识；美团推出开源大模型LongCat；上海AI实验室发布多模态大模型InternVL3.5；腾讯ARC团队推出音频生成模型AudioStory；OpenAI发布实时语音模型GPT-realtime；Meta与UCSD合作推出DeepConf技术；xAI代码库遭窃事件；阿里巴巴Qwen团队发布GUI自动化框架；微软推出Copilot Labs实验中心；小红书自动化工具xiaohongshu-mcp上线。

AI 语音大模型 Step-Audio2mini
Gemini 2.5 Flash-Lite与 DeepSeek-V3 深度对比：谁在性价比上更胜一筹？

面对琳琅满目的大模型API，开发团队常陷入选择困境。文章指出，2024年既是机遇也是挑战的时代，闭源模型选择丰富但性能与成本平衡复杂。通过AIbase等数据驱动平台进行客观对比至关重要。以Gemini 2.5 Flash-Lite和DeepSeek-V3为例，前者综合能力强适合多语言场景，后者在代码生成和成本控制上优势明显。建议开发者明确需求，通过实际测试验证模型表现，理性选择最适合的方案。

大模型API 模型选型 AI开发
2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架，强调需超越单一指标崇拜，基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析，展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程，采用专业工具进行多维度评估，通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型，而非盲目追求流行模型。
别再猜了！手把手教你用数据选择AI模型，我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

开发者分享模型选择心路历程：从盲目试错到数据驱动。曾因追求低价模型导致成本飙升，后通过AIbase平台对比Gemini 2.5 Flash-Lite和DeepSeek-V3，基于价格、上下文长度和代码能力等数据，最终选择更适合代码生成任务的DeepSeek-V3。强调没有“最好”的模型，只有“最适合”的模型，建议开发者善用专业工具进行数据驱动决策，避免隐性成本。
BOE（京东方）携手联想发布旗舰款显示器 Oxide氧化物技术打造商用显示器领域新标杆

8月22日，BOE与联想在南京联合发布ThinkVision P系列高端商用显示器，采用BOE独家Oxide氧化物技术，具备低功耗、高刷新率、高色域及护眼优势。该产品覆盖商务办公、专业设计等多场景，并大量采用环保材料，推动低碳运营。双方合作彰显技术突破与可持续发展理念，共同引领显示产业向高效、绿色、智能化发展。

BOE 联想显示器

今日大家都在搜的词：

热文

3 天
7天

AI日报：字节推图像编辑模型SeedEdit；Suno发布V4音乐生成模型；谷歌AI视频制作神器Vids

跨越四大洲的美丽探索：Vida Glow 十年创新，定义口服美容新范式

电子证件（Digital ID）的全球信任度全景：亚洲、中东与非洲领先，欧美市场滞后

荐AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测试；小红书发布DynamicFace人脸生成技术

荐“无限量”供应Claude，就是AI IDE们的百亿补贴

免费使用！腾讯地图已接入DeepSeek-V3.1

荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

Gemini 2.5 Flash-Lite与 DeepSeek-V3 深度对比：谁在性价比上更胜一筹？

2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

别再猜了！手把手教你用数据选择AI模型，我的Gemini 2.5 Flash-Lite vs DeepSeek选型心得

BOE（京东方）携手联想发布旗舰款显示器 Oxide氧化物技术打造商用显示器领域新标杆

今日大家都在搜的词：

热文

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

华为MatePad Mini外观公布支持蜂窝网络通话功能

小米汽车8月交付量超3万台全年交付量有望冲击42万

抖音升级AI内容标识功能上线两项核心功能

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃

特斯拉Model 3长续航后轮驱动版降价1万元售价25.95万起

零跑汽车8月交付57066台增长超88%

小鹏汽车：8月共交付新车37709台单月交付量创历史新高

苹果上架翻新版Apple Pencil Pro售价849元

苹果首款折叠iPhone或不会采用屏下指纹将于明年发布

华为MatePad Mini官宣9月4日发布

2025民营企业500强揭晓：京东第一

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

小米澎湃OS3发布会官宣首批Beta版招募机型公布

今日七夕节微信 520 元大额红包限时上线

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

realme真我15000mAh电池容量手机亮相

华为三折叠屏手机Mate XTs非凡大师上架开启预约

站长商机