AI日报：viva发布类Sora视频生成模型；Open AI 宫斗第二季详解；索尼禁止未授权使用其音乐“炼丹”：Coze上线Web SDK

2024-05-20 15:04 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、viva发布类Sora视频生成模型支持4K分辨率

viva近期推出基于Sora架构的视频生成模型，免费使用，对普通人快速制作视频内容有重大利好影响。模型支持文本生成视频、图片生成视频，4K分辨率放大，提示词自动优化。在视频生成方面表现出色，竖屏视频质量优秀，与谷歌Veo模型接近。民主化视频内容创作工具，普通人也能创作高质量视频。

【AiBase提要：】
🚀 首个基于Sora架构的视频生成模型，目前可免费使用
🎬 支持4K分辨率、文本和图片生成视频，应该是目前运动幅度最大的视频生成模型
📱 支持提示词的自动优化，文生视频 5 秒，图生视频 4 秒
产品体验地址:https://top.aibase.com/tool/viva

2、Coze上线Web SDK 可快速将机器人嵌入网页

Coze是字节跳动旗下的AI聊天机器人开发平台，推出Web SDK，为用户提供便捷的机器人嵌入网页功能，拓宽了聊天机器人的应用场景。Coze平台提供丰富的功能和优势，包括无限拓展的能力集、丰富的数据源、持久化的记忆能力、灵活的工作流设计等，为用户提供了更大的创作空间。

【AiBase提要:】
🚀 无限拓展的能力集: Coze提供丰富的插件工具，帮助机器人执行更多种类的任务。
📚 丰富的数据源: 用户可以管理和存储数据，实现机器人与用户自己的数据交互。
🔐 持久化的记忆能力: 支持AI记忆重要参数，提高交互连贯性和个性化。
详情链接:https://www.coze.com/docs/developer_guides/web_sdk?_lang=en

3、索尼向700多家公司发出警告，禁止使用其音乐数据训练AI模型

索尼音乐集团警告700多家公司禁止未经许可使用音乐数据训练AI大模型，强调尊重歌曲作者和唱片艺术家的知识产权。该举措体现了对知识产权的重视和对AI模型在音乐数据使用上的监管控制。

【AiBase提要:】
⭐️ 索尼警告700多家公司，禁止未经许可使用音乐数据训练AI大模型
⭐️ AI模型厂商必须尊重歌曲作者和唱片艺术家的知识产权
⭐️ 索尼音乐集团是全球最大音乐公司之一，拥有丰富的音乐版权资源

4、谷歌推3D生成模型CAT3D 1分钟完成3D场景创建

CAT3D是谷歌推出的3D生成模型，在3D重建领域取得显著进展。它能快速生成3D场景，支持多视图输入，实现高质量的3D捕获和实时渲染，具有结构优势，对3D重建管道至关重要。CAT3D的出现将改变虚拟现实、游戏开发、建筑设计等多个行业，为用户带来更真实和互动的体验。

【AiBase提要:】
✨ 快速生成: CAT3D能够在一分钟内完成整个3D场景的创建，比现有方法更快
🔍 多视图支持: CAT3D不仅支持单图像输入，还能处理多图像输入，生成更丰富详细的3D场景
🌟 高质量的3D捕获: 利用多视图扩散模型，生成高度一致的场景新视图
详情链接:https://top.aibase.com/tool/cat3d

5、谷歌发布Gemini 1.5技术报告详细介绍Gemini 1.5 Pro模型架构改进情况

谷歌发布的Gemini 1.5技术报告详细介绍了Gemini 1.5 Pro和Gemini 1.5 Flash两个模型的性能特点和架构，展示了其在多模态大型模型领域的最新进展，为未来AI技术发展提供了新的方向。

【AiBase提要:】
🚀 Gemini 1.5 Pro和Gemini 1.5 Flash模型性能提升显著，具有更长的上下文理解能力和更强的推理能力。
💡 Gemini 1.5 Flash是轻量级变体，提高了效率并减少了模型服务延迟，在多模态功能上优化了张量处理单元的使用。
🔍 Gemini 1.5在跨模态长上下文检索任务上表现出色，实现了近乎完美的召回，提高了长文档问答、长视频问答和长上下文自动语音识别的水平。
详情链接:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

6、Open AI 宫斗第二季时间线及各方观点梳理

本文报道了Open AI近期的内部矛盾和人员变动引起的业界广泛关注。围绕AI模型的安全性和发展速度展开的争议，反映了AI发展过程中的两大主题:安全与效率。在保障安全的前提下推动AI技术的发展，是整个行业都需要思考的问题。

【AiBase提要:】
🔍 Open AI内部矛盾引发关注，围绕AI模型安全性和发展速度展开争议。
💼 人员变动中涉及关键人物离职，如Ilya和Jan，引发行业讨论。
⚖️ 社区观点不一，一些人认为应平衡效率和安全性，另一些认为过分担心安全问题是多余的。
详情链接：https://www.chinaz.com/2024/0520/1617697.shtml

7、ElevenLabs推Audio Native 可将网页内容自动转为博客

ElevenLabs推出的新服务Audio Native是一个嵌入式音频播放器，能够自动生成网页内容的高质量人声旁白，帮助将内容自动转为播客形式。用户无需等待即可收听实时生成的语音旁白，提高听众参与度。同时支持多平台集成和灵活的内容管理，让用户定制播放器外观并跟踪听众参与情况。

【AiBase提要:】
🔊 自动生成高质量人声旁白，实时生成语音内容
🎛️ 嵌入式音频播放器轻松嵌入到任何网页中，支持自定义外观
📊 多平台支持，提供听众参与度跟踪和灵活的内容管理
详情链接:https://elevenlabs.io/blog/audio-native/

8、免费AI插图库PictoGraphic超4万张图片可使用

PictoGraphic是一个提供免费AI生成插图库的平台，拥有超过40000张图像和SVG文件。它为设计师提供直观易用的界面，让他们快速找到或创建符合需求的插图。用户可以自定义生成插图，调整颜色，无需信用卡信息即可开始下载和生成插图的服务。

【AiBase提要:】
🎨 丰富的插图库: 提供超过40，000张不同风格和概念的图像和SVG文件，满足设计师多样化的设计需求。
🖌️ 自定义生成插图: 用户可根据艺术风格，通过文本提示在几秒钟内生成自定义插图，轻松创建新的插图。
🎨 颜色定制: 允许用户直接在平台上调整插图的颜色，增强创意并节省时间。支持直接调整颜色，确保插图与设计方案一致性。
详情链接:https://top.aibase.com/tool/pictographic

9、好莱坞经纪公司CAA为明星提供管理AI形象方案避免遭滥用

好莱坞顶级经纪公司CAA与AI技术公司Veritone合作，推出数字资产管理解决方案，旨在保护明星的AI形象免受滥用。他们建立了虚拟媒体存储系统“theCAAvault”，帮助明星存储姓名、形象、声音等数字资产，确保合法使用和保护权益。

【AiBase提要:】
💡 CAA与Veritone合作，提供数字资产管理解决方案，保护明星AI形象免受滥用。
💡 CAA建立虚拟媒体存储系统“theCAAvault”，明星可存储姓名、形象、声音等数字资产。
💡 CAA的目标是帮助明星通过拥有数字形象确保合法使用和保护权益。

10、华盛顿邮报新增AI音频功能

华盛顿邮报最近推出了AI生成的音频功能，为政治和政策类新闻简报增添了新的阅读体验。这一举措不仅吸引了大量用户，还开辟了新的广告宣传渠道。

【AiBase提要:】
🎙️ 音频功能新增: 华盛顿邮报为三个政治和政策类新闻简报新增了AI生成的音频功能，提供了新的阅读体验。
📊 音频用户增长: 邮报平台每天有400万次音频播放，其中90%来自应用程序，播放量持续增长。
🔊 广告支持: Solventum和PhRMA作为本周简报的启动赞助商，首次包含AI生成的音频广告。

11、Snapchat 计划每年在人工智能上投资 15 亿美元

Snapchat 的开发者 Snap 表示将增加在人工智能和机器学习上的投资，调整广告业务和用户反馈，加大对机器学习、AI 和增强现实功能的投入。Snap 与亚马逊和谷歌合作进行云计算合作，计划每季度为每个日活用户投入84美分用于基础设施，年度投资约为15亿美元。

【AiBase提要:】
🔍 Snapchat加大在AI和机器学习投资，调整广告业务和用户反馈。
🚀 投资于机器学习、AI和增强现实功能，与广告业务和用户反馈紧密结合。
💡 与亚马逊和谷歌合作进行云计算合作，每季度为每个日活用户投入84美分用于基础设施。

（举报）

相关推荐

关键词：

视频生成

Sora 2生成已故名人视频引亲属不满 OpenAI回应：重视反馈将迅速纠正失误

OpenAI 近日推出的 Sora 2 模型引发广泛关注，其默认禁止生成在世公众人物视频，用户纷纷尝试生成各类创意内容。然而，创作者与观众很快发现这一限制存在明显漏洞该模型允许生成已故公众人物的影像，从而在伦理层面引发争议。社交媒体上已涌现大量AI复活”名人的案例，例如李小龙主持DJ现场、迈克尔杰克逊表演单口喜剧等。尽管OpenAI在每段生成视频上添加动态水印，�

OpenAI Sora 2模型
荐AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推最新视频生成模型可灵2.5Turbo

近日AI领域迎来多项重要更新：阿里夸克发布AI创作平台“造点”，整合通义万相Wan2.5与Midjourney V7，支持音画同步视频生成；Wan2.5-Preview实现多模态输入与电影级视频同步生成，提升视觉创作能力；可灵AI推出视频生成模型2.5Turbo并降价30%，降低使用门槛；阿里通义推出Qwen3-ASR-Toolkit，实现小时级音视频转录；谷歌相册AI编辑功能扩展至安卓用户，支持语音修图；谷歌Mixboard工具助力创意设计，生成情绪板；Qwen发布Qwen3-Max模型，在代码生成与智能体能力表现突出；Figma推出MCP服务器，实现设计到代码的一键转换，提升开发效率。

AI创作平台通义万相音画同步
全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

国庆假期前夕，OpenAI发布了Sora 2，一款旗舰视频和音频生成模型。据介绍，Sora 2可以完成以前的视频生成模型难以完成的事情，比如运动员的奥林匹克体动作、桨板上的后空翻，准确模拟浮力和刚度的动态等等，并擅长现实主义、电影和动漫风格。一则来自《连线》杂志的重磅爆料更是指出，OpenAI的下一步棋，并非简单升级一个模型，而是要亲自下场，推出一个独立的AI影�

OpenAI Sora 2
荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

本期AI日报聚焦多项技术突破：Veo 3.1视频生成模型实现角色一致性与多场景叙事升级；蚂蚁发布万亿参数Ling-1T语言模型，推理能力领跑行业；xAI推出电影级视频生成模型Imagine v0.9；软银斥资53.75亿美元收购ABB机器人业务布局物理AI；Vercel v0新增图像编辑功能简化设计流程；OpenAI Sora2首日安装量飙升至应用商店第三，同时引发深度伪造伦理担忧；Lovart平台限时免费开放Sora2无水印视频生成；ChatGPT推出应用生态，正式升级为多功能服务平台。

生成式视频 Veo 3.1
荐爱诗科技，一家AI视频创业公司的生存哲学

“你还是回去吧，大模型在中国没有机会。” 2023年刚创业，爱诗科技创始人兼CEO王长虎收到了天使投资人朱啸虎的“劝退”。但两年时间过去，两个节点颠覆了投资人对AI视频生成赛道的固有印象。先是

AI视频生成 Sora爆火商业化元年
荐谁在视频号上，为短剧“买单”？

短剧的风这下是真的吹到了视频号。 “00后帅气多金董事长爱上干保洁40岁离异的我”;“和自己闪婚的黄昏恋老伴，竟然是豪门。”……最近小编一打开手机随便刷一刷视频号，便能邂逅许多爆款“雷人”短剧。前几天，就连金融反腐题材的《K线成长记》都火了，证券时报发的全集转发就突破1万+。它们剧情够爽、反转够快，即便有的剧情夸张、逻辑欠缺，依旧赢得网友

短剧视频号爆款
免费生成10秒高清视频！通义App接入通义万相2.5

在2025云栖大会上，阿里发布通义万相Wan2.5 Preview系列模型，覆盖文生视频、图生视频、文生图和图像编辑四大功能。其视频生成模型首次实现音画同步，可生成匹配画面的人声、音效和BGM，时长从5秒提升至10秒，支持24帧/秒的1080P高清输出，降低影视级创作门槛。模型指令遵循能力增强，支持运镜等复杂连续变化控制。用户通过通义App输入指令即可自动生成10秒高清视频，每日免费使用15次，支持导出无水印视频。同时，图像生成能力全面升级，可生成中英文字符和图表，支持图像编辑功能，一句话即可完成P图。

通义万相文生视频图生视频
女生找回手机后发现相册多了段视频学子暖心归还引全网寻人

2025年10月6日，游客小蒋在苏州拙政园游玩拍照时，不慎将新购的手机遗落。据悉，这部手机是小蒋工作后用积蓄购买的，意义非凡。约20分钟后，小蒋察觉手机丢失，心急如焚地返回寻找。幸运的是，当小蒋回到遗落地点时，4名来自大连理工大学的学生正主动拿着她的手机等待失主。在确认小蒋身份无误后，这四名学生未留下姓名便悄然离开，展现了当代大学生的高尚品�

手机遗失拾金不昧大学生
女生找回手机后发现相册多了段视频全网寻找的4位大学生找到了：想给机主留一个小礼物

全网寻找的大连理工大学的4名好心人，找到了。 6日，游客小蒋在苏州拙政园里不慎遗失了手机，正当她和男友着急四处寻找时，4名年轻人就主动上前询问，送回了手机。还没来得及当面表达感谢，他们就匆匆离开了。回到酒店后，小蒋发现手机相册里多了一段可爱

大连理工大学好心人手机遗失
iPhone 17 Pro被吐槽闪光灯离镜头太远：拍视频有影子

日前，苹果发布了iPhone 17 Pro系列，但由于采用新的大尺寸镜头模组，于是将闪光灯从镜头旁边移动到了机身另一侧。但近日一位网友吐槽，在使用iPhone 17 Pro系列的相机闪光灯时，会在录制视频对象附近产生阴影。他表示：看起来像是有人从角落里拿着灯，老实说，这真的超级烦人。”

iPhone 17 Pro

今日大家都在搜的词：

热文

3 天
7天

AI日报：viva发布类Sora视频生成模型；Open AI 宫斗第二季详解；索尼禁止未授权使用其音乐“炼丹”：Coze上线Web SDK

Sora 2生成已故名人视频引亲属不满 OpenAI回应：重视反馈将迅速纠正失误

荐AI日报：接入MJ！夸克发布造点AI；Wan2.5-Preview发布；可灵推最新视频生成模型可灵2.5Turbo

全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

荐爱诗科技，一家AI视频创业公司的生存哲学

荐谁在视频号上，为短剧“买单”？

免费生成10秒高清视频！通义App接入通义万相2.5

女生找回手机后发现相册多了段视频学子暖心归还引全网寻人

女生找回手机后发现相册多了段视频全网寻找的4位大学生找到了：想给机主留一个小礼物

iPhone 17 Pro被吐槽闪光灯离镜头太远：拍视频有影子

今日大家都在搜的词：

热文

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

雷军：小米17系列首销权益延续至10月31日

京东双11今晚开启：现货开卖官方直降低至一折

iQOO 15官宣：10月20日发布

三星W26折叠屏手机官宣10月11日发布

新款智界R7/S7上市44天大定破38000台

荣耀Magic8系列暨MagicOS10发布会定档10月15日

真我官宣与理光达成影像战略合作：真我GT8 Pro首发搭载

iQOO 15搭载自研电竞芯片Q3 能效提升40%

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

比特币价格突破12.5万美元刷新历史最高纪录

雷军：小米17系列首销权益延续至10月31日

京东双11今晚开启：现货开卖官方直降低至一折

腾讯混元图像3.0登顶LMArena榜一

雷军：小米17系列开售仅5天销量破100万台

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

iQOO 15官宣：10月20日发布

三星W26折叠屏手机官宣10月11日发布

站长商机