首页 > 业界 > 关键词  > 视频生成最新资讯  > 正文

AI日报:viva发布类Sora视频生成模型;Open AI 宫斗第二季详解;索尼禁止未授权使用其音乐“炼丹”:Coze上线Web SDK

2024-05-20 15:04 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、viva发布类Sora视频生成模型 支持4K分辨率

viva近期推出基于Sora架构的视频生成模型,免费使用,对普通人快速制作视频内容有重大利好影响。模型支持文本生成视频、图片生成视频,4K分辨率放大,提示词自动优化。在视频生成方面表现出色,竖屏视频质量优秀,与谷歌Veo模型接近。民主化视频内容创作工具,普通人也能创作高质量视频。

image.png

【AiBase提要:】

🚀 首个基于Sora架构的视频生成模型,目前可免费使用

🎬 支持4K分辨率、文本和图片生成视频,应该是目前运动幅度最大的视频生成模型

📱 支持提示词的自动优化,文生视频 5 秒,图生视频 4 秒

产品体验地址:https://top.aibase.com/tool/viva

2、Coze上线Web SDK 可快速将机器人嵌入网页

Coze是字节跳动旗下的AI聊天机器人开发平台,推出Web SDK,为用户提供便捷的机器人嵌入网页功能,拓宽了聊天机器人的应用场景。Coze平台提供丰富的功能和优势,包括无限拓展的能力集、丰富的数据源、持久化的记忆能力、灵活的工作流设计等,为用户提供了更大的创作空间。

【AiBase提要:】

🚀 无限拓展的能力集: Coze提供丰富的插件工具,帮助机器人执行更多种类的任务。

📚 丰富的数据源: 用户可以管理和存储数据,实现机器人与用户自己的数据交互。

🔐 持久化的记忆能力: 支持AI记忆重要参数,提高交互连贯性和个性化。

详情链接:https://www.coze.com/docs/developer_guides/web_sdk?_lang=en

3、索尼向700多家公司发出警告,禁止使用其音乐数据训练AI模型

索尼音乐集团警告700多家公司禁止未经许可使用音乐数据训练AI大模型,强调尊重歌曲作者和唱片艺术家的知识产权。该举措体现了对知识产权的重视和对AI模型在音乐数据使用上的监管控制。

【AiBase提要:】

⭐️ 索尼警告700多家公司,禁止未经许可使用音乐数据训练AI大模型

⭐️ AI模型厂商必须尊重歌曲作者和唱片艺术家的知识产权

⭐️ 索尼音乐集团是全球最大音乐公司之一,拥有丰富的音乐版权资源

4、谷歌推3D生成模型CAT3D 1分钟完成3D场景创建

CAT3D是谷歌推出的3D生成模型,在3D重建领域取得显著进展。它能快速生成3D场景,支持多视图输入,实现高质量的3D捕获和实时渲染,具有结构优势,对3D重建管道至关重要。CAT3D的出现将改变虚拟现实、游戏开发、建筑设计等多个行业,为用户带来更真实和互动的体验。

image.png

【AiBase提要:】

✨ 快速生成: CAT3D能够在一分钟内完成整个3D场景的创建,比现有方法更快

🔍 多视图支持: CAT3D不仅支持单图像输入,还能处理多图像输入,生成更丰富详细的3D场景

🌟 高质量的3D捕获: 利用多视图扩散模型,生成高度一致的场景新视图

详情链接:https://top.aibase.com/tool/cat3d

5、谷歌发布Gemini 1.5技术报告 详细介绍Gemini 1.5 Pro模型架构改进情况

谷歌发布的Gemini 1.5技术报告详细介绍了Gemini 1.5 Pro和Gemini 1.5 Flash两个模型的性能特点和架构,展示了其在多模态大型模型领域的最新进展,为未来AI技术发展提供了新的方向。

【AiBase提要:】

🚀 Gemini 1.5 Pro和Gemini 1.5 Flash模型性能提升显著,具有更长的上下文理解能力和更强的推理能力。

💡 Gemini 1.5 Flash是轻量级变体,提高了效率并减少了模型服务延迟,在多模态功能上优化了张量处理单元的使用。

🔍 Gemini 1.5在跨模态长上下文检索任务上表现出色,实现了近乎完美的召回,提高了长文档问答、长视频问答和长上下文自动语音识别的水平。

详情链接:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

6、Open AI 宫斗第二季时间线及各方观点梳理

本文报道了Open AI近期的内部矛盾和人员变动引起的业界广泛关注。围绕AI模型的安全性和发展速度展开的争议,反映了AI发展过程中的两大主题:安全与效率。在保障安全的前提下推动AI技术的发展,是整个行业都需要思考的问题。

【AiBase提要:】

🔍 Open AI内部矛盾引发关注,围绕AI模型安全性和发展速度展开争议。

💼 人员变动中涉及关键人物离职,如Ilya和Jan,引发行业讨论。

⚖️ 社区观点不一,一些人认为应平衡效率和安全性,另一些认为过分担心安全问题是多余的。

详情链接:https://www.chinaz.com/2024/0520/1617697.shtml

7、ElevenLabs推Audio Native 可将网页内容自动转为博客

ElevenLabs推出的新服务Audio Native是一个嵌入式音频播放器,能够自动生成网页内容的高质量人声旁白,帮助将内容自动转为播客形式。用户无需等待即可收听实时生成的语音旁白,提高听众参与度。同时支持多平台集成和灵活的内容管理,让用户定制播放器外观并跟踪听众参与情况。

【AiBase提要:】

🔊 自动生成高质量人声旁白,实时生成语音内容

🎛️ 嵌入式音频播放器轻松嵌入到任何网页中,支持自定义外观

📊 多平台支持,提供听众参与度跟踪和灵活的内容管理

详情链接:https://elevenlabs.io/blog/audio-native/

8、免费AI插图库PictoGraphic超4万张图片可使用

PictoGraphic是一个提供免费AI生成插图库的平台,拥有超过40000张图像和SVG文件。它为设计师提供直观易用的界面,让他们快速找到或创建符合需求的插图。用户可以自定义生成插图,调整颜色,无需信用卡信息即可开始下载和生成插图的服务。

image.png

【AiBase提要:】

🎨 丰富的插图库: 提供超过40,000张不同风格和概念的图像和SVG文件,满足设计师多样化的设计需求。

🖌️ 自定义生成插图: 用户可根据艺术风格,通过文本提示在几秒钟内生成自定义插图,轻松创建新的插图。

🎨 颜色定制: 允许用户直接在平台上调整插图的颜色,增强创意并节省时间。支持直接调整颜色,确保插图与设计方案一致性。

详情链接:https://top.aibase.com/tool/pictographic

9、好莱坞经纪公司CAA为明星提供管理AI形象方案避免遭滥用

好莱坞顶级经纪公司CAA与AI技术公司Veritone合作,推出数字资产管理解决方案,旨在保护明星的AI形象免受滥用。他们建立了虚拟媒体存储系统“theCAAvault”,帮助明星存储姓名、形象、声音等数字资产,确保合法使用和保护权益。

【AiBase提要:】

💡 CAA与Veritone合作,提供数字资产管理解决方案,保护明星AI形象免受滥用。

💡 CAA建立虚拟媒体存储系统“theCAAvault”,明星可存储姓名、形象、声音等数字资产。

💡 CAA的目标是帮助明星通过拥有数字形象确保合法使用和保护权益。

10、华盛顿邮报新增AI音频功能

华盛顿邮报最近推出了AI生成的音频功能,为政治和政策类新闻简报增添了新的阅读体验。这一举措不仅吸引了大量用户,还开辟了新的广告宣传渠道。

【AiBase提要:】

🎙️ 音频功能新增: 华盛顿邮报为三个政治和政策类新闻简报新增了AI生成的音频功能,提供了新的阅读体验。

📊 音频用户增长: 邮报平台每天有400万次音频播放,其中90%来自应用程序,播放量持续增长。

🔊 广告支持: Solventum和PhRMA作为本周简报的启动赞助商,首次包含AI生成的音频广告。

11、Snapchat 计划每年在人工智能上投资 15 亿美元

Snapchat 的开发者 Snap 表示将增加在人工智能和机器学习上的投资,调整广告业务和用户反馈,加大对机器学习、AI 和增强现实功能的投入。Snap 与亚马逊和谷歌合作进行云计算合作,计划每季度为每个日活用户投入84美分用于基础设施,年度投资约为15亿美元。

【AiBase提要:】

🔍 Snapchat加大在AI和机器学习投资,调整广告业务和用户反馈。

🚀 投资于机器学习、AI和增强现实功能,与广告业务和用户反馈紧密结合。

💡 与亚马逊和谷歌合作进行云计算合作,每季度为每个日活用户投入84美分用于基础设施。

举报

  • 相关推荐
  • 豆包视频生成模型Seedance 1.0 lite发布:“迅速生成影视级的视频

    火山引擎在FORCE LINK AI创新巡展上发布多款AI模型升级产品:1)Seedance 1.0 lite视频生成模型,支持5-10秒480P/720P视频生成,具备影视级画质和生成速度优势,适用于电商广告、影视创作等场景;2)豆包1.5视觉深度思考模型,仅20B参数但具备多模态理解能力,在60项基准测试中38项达SOTA水平;3)升级版豆包音乐模型,新增英文歌曲创作功能,并能根据视频内容自动适配BGM。目前这些模型已在火山方舟平台和豆包APP上线。

  • 视频生成模型Vidu Q1怎么用?Vidu Q1官网是什么?

    国产视频生成大模型Vidu Q1在性能、价格和功能上实现重大突破。该模型由生数科技推出,在VBench评测中超越Sora等国内外顶尖模型,支持1080p高清视频生成,每秒价格低至3毛钱。其首尾帧功能仅需两张图即可实现电影级运镜效果,支持多元风格生成和48kHz高采样率混音功能。Vidu Q1已深度赋能影视、广告、动漫等行业,大幅降低创作门槛。

  • 李想AI Talk第二季来了:理想VLA司机大模型是从动物到人的进化

    在这期间,李想分享了他对人工智能的最新思考,以及包含智能驾驶和理想同学在内的人工智能技术的最新进展,并宣布基于自研基座大模型Mind GPT的理想同学从车机进入手机,App已于12月27日全量上线。

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • 持续霸榜!可灵2.0模型登顶全球视频生成大模型榜单

    快手旗下可灵AI 2.0模型在权威AI评测中表现优异,以1124分超越自研1.6版本,连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示,自2023年6月上线以来,可灵AI全球用户突破2200万,月活激增25倍,累计生成视频1.68亿个、图片3.44亿张。商业化方面,其单月流水已超千万元,并与伊利、vivo等头部品牌达成深度合作,展现出AI视频生成技术的广阔商业前景。

  • AI日报:Vidu Q1正式上线;MCP SDK 正式支持流式 HTTP;抖音一季度封禁AI黑产账号260万个

    本文介绍了AI领域多项重要进展:1)MCP SDK支持流式HTTP协议,提升开发效率;2)Vidu Q1视频生成模型上线,提供专业级视觉体验;3)马斯克计划筹资250亿美元开发Colossus 2超级计算机;4)Sand AI开源MAGI-1视频生成模型;5)电商AI助手Add To Cart AI优化购物体验;6)Anthropic发布Claude Code编程指南;7)真我推出支持32种语言的AI翻译耳机;8)2025年AI视频企业TOP20榜单发布;9)清华GLM大模型免费开放;10)AI面试作弊工具引争议;11)抖音AI治理封禁260万违规账号;12)全球首款具备嗅觉的机器人问世。这些创新展示了AI技术在视频生成、编程辅助、电商、翻译等领域的快速发展与应用潜力。

  • AI日报:腾讯混元3D生成模型2.5版本发布;海螺推出图像人物参考功能;百度上线移动端超级智能体心响App

    本文介绍了多款AI领域的新产品和技术进展:1)Kortix-AI推出开源通用AI智能体平台Suna;2)腾讯混元3D生成模型升级至2.5版本;3)海螺AI推出基于单张图像生成多角度角色图像功能;4)百度发布"心响"App整合多智能体协作;5)Nari Labs开源媲美真人的对话语音模型Dia;6)Grok新增视觉处理和多语言支持;7)Genspark推出AI幻灯片工具;8)Character.AI发布让静态图片"说话"的AvatarFX模型;9)pad.ws结合白板和代码编辑器;10)OpenBMB开源社区推出长文本生成模型"卷姬";11)腾讯推出AI阅读助手"企鹅读伴";12)OpenAI有意收购Chrome浏览器;13)字节跳动调整AI产品线布局。这些创新展现了AI技术在自动化、3D生成、语音交互、内容创作等领域的快速发展。

  • AI日报: OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�

  • AI日报:昆仑万维开源SkyReels-V2;讯飞星火X1全新升级;扣子空间Coze Space内测

    本文介绍了多个前沿的人工智能产品和技术动态,包括SkyReels-V2视频生成模型、讯飞星火大模型升级、宇树科技人形机器人比赛计划、Coze Space AI协作平台、Gemma3 QAT优化模型、英特尔AI Playground工具、Reachy2人形机器人发布、ChatTS-14B语音研究项目、Figma推出AI设计工具以及MarkItDown MCP文档转换工具,展示了AI技术在多领域的广泛应用与创新发展潜力。