首页 > 业界 > 关键词  > 视频生成最新资讯  > 正文

AI日报:viva发布类Sora视频生成模型;Open AI 宫斗第二季详解;索尼禁止未授权使用其音乐“炼丹”:Coze上线Web SDK

2024-05-20 15:04 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、viva发布类Sora视频生成模型 支持4K分辨率

viva近期推出基于Sora架构的视频生成模型,免费使用,对普通人快速制作视频内容有重大利好影响。模型支持文本生成视频、图片生成视频,4K分辨率放大,提示词自动优化。在视频生成方面表现出色,竖屏视频质量优秀,与谷歌Veo模型接近。民主化视频内容创作工具,普通人也能创作高质量视频。

image.png

【AiBase提要:】

🚀 首个基于Sora架构的视频生成模型,目前可免费使用

🎬 支持4K分辨率、文本和图片生成视频,应该是目前运动幅度最大的视频生成模型

📱 支持提示词的自动优化,文生视频 5 秒,图生视频 4 秒

产品体验地址:https://top.aibase.com/tool/viva

2、Coze上线Web SDK 可快速将机器人嵌入网页

Coze是字节跳动旗下的AI聊天机器人开发平台,推出Web SDK,为用户提供便捷的机器人嵌入网页功能,拓宽了聊天机器人的应用场景。Coze平台提供丰富的功能和优势,包括无限拓展的能力集、丰富的数据源、持久化的记忆能力、灵活的工作流设计等,为用户提供了更大的创作空间。

【AiBase提要:】

🚀 无限拓展的能力集: Coze提供丰富的插件工具,帮助机器人执行更多种类的任务。

📚 丰富的数据源: 用户可以管理和存储数据,实现机器人与用户自己的数据交互。

🔐 持久化的记忆能力: 支持AI记忆重要参数,提高交互连贯性和个性化。

详情链接:https://www.coze.com/docs/developer_guides/web_sdk?_lang=en

3、索尼向700多家公司发出警告,禁止使用其音乐数据训练AI模型

索尼音乐集团警告700多家公司禁止未经许可使用音乐数据训练AI大模型,强调尊重歌曲作者和唱片艺术家的知识产权。该举措体现了对知识产权的重视和对AI模型在音乐数据使用上的监管控制。

【AiBase提要:】

⭐️ 索尼警告700多家公司,禁止未经许可使用音乐数据训练AI大模型

⭐️ AI模型厂商必须尊重歌曲作者和唱片艺术家的知识产权

⭐️ 索尼音乐集团是全球最大音乐公司之一,拥有丰富的音乐版权资源

4、谷歌推3D生成模型CAT3D 1分钟完成3D场景创建

CAT3D是谷歌推出的3D生成模型,在3D重建领域取得显著进展。它能快速生成3D场景,支持多视图输入,实现高质量的3D捕获和实时渲染,具有结构优势,对3D重建管道至关重要。CAT3D的出现将改变虚拟现实、游戏开发、建筑设计等多个行业,为用户带来更真实和互动的体验。

image.png

【AiBase提要:】

✨ 快速生成: CAT3D能够在一分钟内完成整个3D场景的创建,比现有方法更快

🔍 多视图支持: CAT3D不仅支持单图像输入,还能处理多图像输入,生成更丰富详细的3D场景

🌟 高质量的3D捕获: 利用多视图扩散模型,生成高度一致的场景新视图

详情链接:https://top.aibase.com/tool/cat3d

5、谷歌发布Gemini 1.5技术报告 详细介绍Gemini 1.5 Pro模型架构改进情况

谷歌发布的Gemini 1.5技术报告详细介绍了Gemini 1.5 Pro和Gemini 1.5 Flash两个模型的性能特点和架构,展示了其在多模态大型模型领域的最新进展,为未来AI技术发展提供了新的方向。

【AiBase提要:】

🚀 Gemini 1.5 Pro和Gemini 1.5 Flash模型性能提升显著,具有更长的上下文理解能力和更强的推理能力。

💡 Gemini 1.5 Flash是轻量级变体,提高了效率并减少了模型服务延迟,在多模态功能上优化了张量处理单元的使用。

🔍 Gemini 1.5在跨模态长上下文检索任务上表现出色,实现了近乎完美的召回,提高了长文档问答、长视频问答和长上下文自动语音识别的水平。

详情链接:https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

6、Open AI 宫斗第二季时间线及各方观点梳理

本文报道了Open AI近期的内部矛盾和人员变动引起的业界广泛关注。围绕AI模型的安全性和发展速度展开的争议,反映了AI发展过程中的两大主题:安全与效率。在保障安全的前提下推动AI技术的发展,是整个行业都需要思考的问题。

【AiBase提要:】

🔍 Open AI内部矛盾引发关注,围绕AI模型安全性和发展速度展开争议。

💼 人员变动中涉及关键人物离职,如Ilya和Jan,引发行业讨论。

⚖️ 社区观点不一,一些人认为应平衡效率和安全性,另一些认为过分担心安全问题是多余的。

详情链接:https://www.chinaz.com/2024/0520/1617697.shtml

7、ElevenLabs推Audio Native 可将网页内容自动转为博客

ElevenLabs推出的新服务Audio Native是一个嵌入式音频播放器,能够自动生成网页内容的高质量人声旁白,帮助将内容自动转为播客形式。用户无需等待即可收听实时生成的语音旁白,提高听众参与度。同时支持多平台集成和灵活的内容管理,让用户定制播放器外观并跟踪听众参与情况。

【AiBase提要:】

🔊 自动生成高质量人声旁白,实时生成语音内容

🎛️ 嵌入式音频播放器轻松嵌入到任何网页中,支持自定义外观

📊 多平台支持,提供听众参与度跟踪和灵活的内容管理

详情链接:https://elevenlabs.io/blog/audio-native/

8、免费AI插图库PictoGraphic超4万张图片可使用

PictoGraphic是一个提供免费AI生成插图库的平台,拥有超过40000张图像和SVG文件。它为设计师提供直观易用的界面,让他们快速找到或创建符合需求的插图。用户可以自定义生成插图,调整颜色,无需信用卡信息即可开始下载和生成插图的服务。

image.png

【AiBase提要:】

🎨 丰富的插图库: 提供超过40,000张不同风格和概念的图像和SVG文件,满足设计师多样化的设计需求。

🖌️ 自定义生成插图: 用户可根据艺术风格,通过文本提示在几秒钟内生成自定义插图,轻松创建新的插图。

🎨 颜色定制: 允许用户直接在平台上调整插图的颜色,增强创意并节省时间。支持直接调整颜色,确保插图与设计方案一致性。

详情链接:https://top.aibase.com/tool/pictographic

9、好莱坞经纪公司CAA为明星提供管理AI形象方案避免遭滥用

好莱坞顶级经纪公司CAA与AI技术公司Veritone合作,推出数字资产管理解决方案,旨在保护明星的AI形象免受滥用。他们建立了虚拟媒体存储系统“theCAAvault”,帮助明星存储姓名、形象、声音等数字资产,确保合法使用和保护权益。

【AiBase提要:】

💡 CAA与Veritone合作,提供数字资产管理解决方案,保护明星AI形象免受滥用。

💡 CAA建立虚拟媒体存储系统“theCAAvault”,明星可存储姓名、形象、声音等数字资产。

💡 CAA的目标是帮助明星通过拥有数字形象确保合法使用和保护权益。

10、华盛顿邮报新增AI音频功能

华盛顿邮报最近推出了AI生成的音频功能,为政治和政策类新闻简报增添了新的阅读体验。这一举措不仅吸引了大量用户,还开辟了新的广告宣传渠道。

【AiBase提要:】

🎙️ 音频功能新增: 华盛顿邮报为三个政治和政策类新闻简报新增了AI生成的音频功能,提供了新的阅读体验。

📊 音频用户增长: 邮报平台每天有400万次音频播放,其中90%来自应用程序,播放量持续增长。

🔊 广告支持: Solventum和PhRMA作为本周简报的启动赞助商,首次包含AI生成的音频广告。

11、Snapchat 计划每年在人工智能上投资 15 亿美元

Snapchat 的开发者 Snap 表示将增加在人工智能和机器学习上的投资,调整广告业务和用户反馈,加大对机器学习、AI 和增强现实功能的投入。Snap 与亚马逊和谷歌合作进行云计算合作,计划每季度为每个日活用户投入84美分用于基础设施,年度投资约为15亿美元。

【AiBase提要:】

🔍 Snapchat加大在AI和机器学习投资,调整广告业务和用户反馈。

🚀 投资于机器学习、AI和增强现实功能,与广告业务和用户反馈紧密结合。

💡 与亚马逊和谷歌合作进行云计算合作,每季度为每个日活用户投入84美分用于基础设施。

举报

  • 相关推荐
  • AI日报:QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • 必应引入OpenAI的Sora视频生成器,完全免费使用

    微软表示:“Bing 视频生成器体现了我们让 AI 视频创作变得全民可及的努力。我们相信,创造力应当轻松且人人可用,从而助力你的探索与表达。”

  • 对标Sora!谷歌发布AI视频生成器Veo 3:可同时生成视频和音效

    谷歌在I/O开发者大会上发布第三代视频生成模型Veo+3,对标OpenAI的Sora。该模型不仅能基于文本和图像生成高质量视频,还能为人物对话、鸟鸣等场景自动匹配音效,实现更逼真的视听体验。目前Veo+3面向美国Gemini Ultra订阅用户,月费249.99美元,并将纳入企业级Vertex AI平台。谷歌同期还发布了升级版图像模型Imagen 4、电影制作工具Flow等AI产品。值得注意的是,谷歌在AI图像生成领域并非一帆风顺,此前Imagen 3曾因生成含历史错误的图像引发争议。

  • AI日报:美团AI编程工具NoCode将上线;火山引擎发布MCP Servers;腾讯混元上线游戏视觉生成平台

    本文汇总了近期AI领域的重要动态:1)美团将推出对话式编程工具"NoCode";2)火山引擎发布大模型生态平台MCP Servers;3)B站开源动画视频生成模型Index-AniSora;4)字节跳动升级AI耳机Ola Friend的英语学习功能;5)GitHub推出AI编程助手自动修复代码漏洞;6)腾讯混元上线游戏视觉生成平台;7)微软将VS Code转型为开源AI编辑器;8)Windows 11原生支持MCP协议;9)Anthropic发布AI代理开发指南;10)谷歌推出编程AI代理Jules;11)NotebookLM推出iOS版;12)Genspark创3600万美元ARR纪录;13)Bright Data发布开源MCP服务器;14)马斯克宣布Grok模型将登陆Azure平台。这些进展展示了AI技术在编程、内容生成、操作系统等领域的快速发展和应用创新。

  • AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • AI日报:通义千问3大模型全球爆火;即梦图片3.0智能参考全量上线;智谱AI企业级超级助手Agent CoCo上线

    【AI日报】今日AI领域重要动态:1.通义千问3大模型全球下载量超1250万,衍生模型13万+;2.即梦图片3.0上线,AI设计进入"零门槛"时代;3.智谱AI发布企业级超级助手Agent CoCo;4.百度推出金融行业大模型"千帆慧金";5.小红书开源首个大模型dots.llm1,含1420亿参数;6.Hugging Face开源LeRobot项目,降低机器人研发门槛;7.ChatGPT语音功能升级,支持更自然对话翻译;8.Google Gemini应用下载量超ChatGPT但活跃度不足;9.轻量级文档解析模型MonkeyOCR表现优异;10.Google Veo3推出高速视频生成模式;11.Google调整AI Studio政策,限制Gemini2.5Pro免费访问。

  • AI日报:ChatGPT支持MCP和会议记录功能;Cursor 1.0 版本重磅发布;Midjourney视频功能将在本月上线

    本期AI日报聚焦多项AI领域突破:1)OpenAI为ChatGPT新增企业数据连接和会议记录功能;2)Cursor 1.0发布集成BugBot等开发工具;3)Midjourney即将推出视频生成功能;4)秘塔AI搜索新增PPT导出功能;5)Manus推出文本生成视频工具挑战Sora;6)法国Mistral发布企业级编程助手;7)英伟达推出文档处理专用AI模型;8)腾讯公益引入大模型提升互动体验;9)Firecrawl推出网页抓取API工具;10)Bland AI实现超真实语音克隆;11)报告显示AI训练成本逼近百亿美元;12)开源设计工具Jaaz支持批量图像生成;13)《逆水寒》手游接入AI实现图片动效玩法。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报:美团No Code平台免费开放;豆包App升级“一句话P图”功能;苹果Xcode 26内置ChatGPT等AI功能

    本文介绍了AI领域多项重要进展:1)美团推出No Code平台和1680个AI应用;2)豆包App升级"一句话P图"功能;3)苹果发布内置ChatGPT的Xcode26开发工具;4)iOS26新增视觉智能功能;5)讯飞星火X1升级版即将发布;6)比亚迪接入阿里通义大模型;7)DeepSeek支持本地工具调用;8)开源框架Rowboat支持快速构建智能助手;9)X平台整合Grok AI优化内容推荐;10)港科大开发进化搜索技术提升小模型图像生成能力;11)硅基流动完成数亿元融资;12)港大与英伟达合作开发新型视觉注意力机制。这些创新展示了AI技术在各领域的快速发展和应用突破。