AI日报：讯飞星火Lite API免费；李开复称大模型疯狂降价是双输；AI末日滤镜抖音爆火；AI音乐Suno 融资1.25亿美元

2024-05-22 15:23 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

科大讯飞宣布讯飞星火API能力正式免费开放，降低开发者调用成本，推动AI技术普惠化进程。

【AiBase提要:】
🚀 降低开发者调用成本，Pro/Max API费用低至0.21元/万tokens，1token相当于1.5个中文汉字
💡 讯飞星火Lite API永久免费开放，开发者仅需2.1元即可调用“讯飞星火3.5Max”生成内容
🌍 科大讯飞全面开放API能力，聚集全球开发者，推动AI技术在各领域应用

2、李开复称大模型疯狂降价是双输推理大模型成本将每年降10倍

李开复认为中国大模型与美国大模型的差距已经缩小到6个月，展示了中国技术实力的追赶和成就。然而，他对大模型市场的价格战表示忧虑，认为疯狂降价可能导致短期内的双输局面。他强调降价并非商业成功的唯一途径，零一万物将继续推出性能最高的大模型。

【AiBase提要:】
🚀 中国大模型与美国大模型差距缩小到6个月，展示技术实力追赶和成就。
💰 大模型市场价格战引发忧虑，疯狂降价或导致短期内双输局面。
🔮 零一万物计划推出各尺寸模型，致力于做中国最好，强调大尺寸模型在复杂难题中表现优异。

3、百度发布 Comate 代码知识增强2.0

作为基于百度文心大模型打造的代码智能补全和推荐工具，Comate代码知识增强2.0具有全面检索和问答、Web在线检索以及自动生成调用代码和测试用例等三大优势。它为代码编写、学习、面试和测试提供全方位支持，能够加速知识获取，提高编程效率，并生成更贴合业务的代码。

【AiBase提要:】
⚙️ Comate代码知识增强2.0基于百度文心大模型，实时解析开发者编程意图，推荐最佳代码片段和库函数。
🔍 Comate2.0支持全面检索和问答，帮助开发者获取开源框架中具体业务解释，提升编程技能。
💻 Comate2.0能够自动生成调用代码和测试用例，极大提高代码质量和效率。

4、微软发布Phi-3 Vision等最新大模型系列

微软发布了Phi-3系列大型语言模型，展示出强大性能和灵活性，为研究人员和开发者提供了新的工具和可能性。这些模型在特定领域具有独特优势，支持不同上下文长度和拥有不同规模参数。

【AiBase提要:】
🔍 Phi-3Medium14B型号性能强大，竞争力突出，超过了其他大型模型如Command R+104B和GPT3.5。
🔍 Phi-3Small7B型号在资源有限场景下具有潜在应用价值，性能超过了Mistral7B和Llama38B。
🔍 Phi-3系列模型训练使用了4.8T令牌，持续42天，支持长文本数据处理，引入新的分词器和权重兼容性。
详情链接:https://top.aibase.com/tool/phi-3-vision-128k-instruct

5、Windows 11 新增基于AI的复制和粘贴功能

微软在 Windows 11 中引入了新的高级粘贴功能，利用 AI 技术实现剪贴板内容的即时转换。这一功能让用户可以更快地转换剪贴内容为纯文本、Markdown、JSON 等格式，甚至进行摘要、翻译、生成代码等操作，提升工作效率。

【AiBase提要:】
⭐ Windows 11 引入新的高级粘贴功能，利用 AI 技术实现剪贴板内容即时转换。
⭐ PowerToys 的 Advanced Paste 功能允许用户将剪贴内容转换为纯文本、Markdown、JSON 等格式，甚至使用 OpenAI 进行摘要、翻译、生成代码等操作。
⭐ 使用该功能需要添加 OpenAI API 密钥，并购买相应的 OpenAI 积分，以进行转换操作。

6、Adobe Lightroom新增AI魔术橡皮擦功能

Adobe Lightroom最近推出了新增的生成式AI工具，包括对象移除和AI镜头模糊效果，为用户提供了更简单和便捷的照片编辑体验。这些新功能使得背景虚化更自然，删除不需要的物体或人物更轻松。Adobe持续将Firefly AI模型应用于创意软件中，为用户带来更多便利和可能性。

【AiBase提要:】
🎨 “Generative Remove”功能可轻松删除照片中的不需要的物体或人物。
📸 AI镜头模糊工具可一键应用多种模糊效果，提升背景虚化的自然度。
📱 新功能使得使用Lightroom进行照片编辑更加简单和便捷，为新用户提供更友好的操作体验。

7、音乐 AI 初创公司 Suno 完成1.25亿美元融资

Suno 完成1.25亿美元融资，旨在通过其生成式 AI 平台彻底改变音乐行业，引发了人们的激动和版权担忧。随着 AI 在音乐领域的广泛应用，如何平衡技术进步与保护艺术家权益将成为关键问题。

【AiBase提要:】
⭐️ Suno 的 AI 平台有望降低音乐创作门槛，为音乐创作者提供强大工具，挑战传统音乐产业模式。
⭐️ Suno 的创新平台允许任何人通过输入文本提示或歌词来创作原创歌曲，AI 则会根据此生成旋律、和声和完整作曲。
⭐️ Suno 的快速崛起和大额融资发生在关于未经艺术家和权利持有人明确同意使用受版权保护音乐录音来训练 AI 模型的激烈辩论之际。

8、英伟达 GH200超级芯片部署到全球9个超级计算机中

英伟达的GH200超级芯片在全球9台超级计算机中展现出惊人的计算能力，推动高性能计算产业向AI驱动转变。GH200采用了Grace Hopper的异构计算框架，融合了高性能GPU和多功能CPU，具备高性能计算和AI模型处理能力。英伟达在近两年不断布局服务器和高性能计算领域，GH200系列展现出强大的AI和高性能计算能力，加速科学研究进程。

【AiBase提要:】
⭐ 英伟达GH200超级芯片在全球9台超级计算机中实现每秒两百亿亿次浮点数计算的惊人能力
⭐ GH200采用了Grace Hopper的异构计算框架，融合了高性能GPU和多功能CPU，成为AI超算的首选硬件
⭐ GH200系列芯片展现出强大的AI和高性能计算能力，加速科学研究进程

9、ChatGPT改进的数据分析功能开始推送：速度与交互体验大提升

OpenAI推出了最新的ChatGPT数据分析优化功能，提升了处理速度，加入了可交互的图表和表格，使数据分析工具更完备和强大。用户现在更方便进行数据上传、分析和可视化探索，获得更深刻的数据洞察。这种集成了人工智能和高级数据可视化的解决方案，将为数据分析师和业务用户提供巨大帮助。

【AiBase提要:】
🚀 速度提升: GPT-4o的速度优势使数据分析更迅速。
💬 可交互图表和表格: 用户可与数据可视化组件交互，提高工具实用性和灵活性。
📊 直接展示数据: 上传的表格数据直接展示在界面上，用户可直观查看并操作。

10、FIFO-Diffusion：无需额外训练即可生成无限长视频

FIFO-Diffusion 项目展示了在无需额外训练的情况下生成无限长视频的强大能力，通过对角去噪技术实现了高质量且具有一致性的长视频生成。该技术在视频生成领域具有明显优势，尽管在复杂画面下可能出现闪烁问题，整体效果令人印象深刻。未来有望解决闪烁问题，提升视频生成质量和稳定性。

【AiBase提要:】
✨ 无需额外训练使得FIFO-Diffusion具有明显优势
⚙️ 核心技术为独特的对角去噪方法
🔗 FIFO-Diffusion展示了生成长视频的巨大潜力
详情链接:https://top.aibase.com/tool/fifo-diffusion

11、末日滤镜下真人和AI傻傻分不清

这篇文章介绍了抖音博主“速速來電”发布的末日游戏滤镜视频，在AI特效生成的图像与真人原图对比下，效果逼真到让人难以分辨。网友热议该视频，称赞其逼真效果。博主分享了制作教程，使用美图秀秀App生成末日特效的方法，强调原图质量对效果重要。

【AiBase提要:】
🔍 视频展示逼真效果，难以分辨真伪。
📈 视频点赞数高达17万，转发2.4万，成为博主历史最佳作品。
💡 制作教程分享技巧，强调原图质量对最终效果至关重要。
详情：https://www.chinaz.com/2024/0522/1618351.shtml

12、B站UP主花式整活：为了教你学英语 AI都开始讲谐音梗了

这篇文章介绍了B站UP主利用AI技术合成明星声音和形象来教授英语，引发了广泛关注。通过谐音梗的方式，视频在B站上获得了超过100万的播放量。UP主结合娱乐和教育，创造出独特的学习体验，借助AI技术提升了视频制作频率和粉丝数量。然而，使用明星或影视剧素材也存在侵权风险。

【AiBase提要:】
🤖 利用AI技术合成明星声音和形象进行英语教学，吸引大量粉丝关注。
🎬 视频通过谐音梗方式，获得超过100万的播放量，增强学习的趣味性和互动性。
💡 UP主结合娱乐和教育，创造出别具一格的学习体验，借助AI技术提升视频制作频率和粉丝数量。
详情：https://www.chinaz.com/2024/0522/1618359.shtml

13、谷歌推出的“Say What You See”游戏助力图像阅读和AI提示写作

谷歌推出的“Say What You See”游戏旨在帮助玩家提高图像阅读技能和AI提示写作能力。通过参与游戏，玩家可以锻炼创造力、观察力，体验AI技术在图像生成领域的应用。游戏不仅提供娱乐，还作为学习工具，帮助玩家理解和利用AI技术。总体而言，这款游戏为玩家提供了锻炼图像阅读和AI提示写作能力的平台，是一种寓教于乐的学习方式。

【AiBase提要:】
🎮 游戏旨在帮助玩家提高图像阅读技能和AI提示写作能力。
🧠 参与游戏可锻炼创造力、观察力，体验AI技术在图像生成领域的应用。
📚 游戏不仅提供娱乐，还作为学习工具，帮助玩家理解和利用AI技术。
详情链接:https://artsandculture.google.com/experiment/say-what-you-see/jwG3m7wQShZngw

14、大模型数据标注平台Scale AI融资10亿美元，估值达138亿美元

Scale AI最近获得10亿美元的F轮融资，估值达138亿美元，成为大模型领域独角兽。该公司主要提供数据标注服务，合作伙伴包括OpenAI、微软、Meta等知名公司。另外，Suno也获得1.25亿美元融资，引起关注。

【AiBase提要:】
⭐ Scale AI获得10亿美元F轮融资，估值达138亿美元，成为大模型领域独角兽。
⭐ Scale AI主要提供数据标注服务，合作伙伴包括OpenAI、微软、Meta等知名公司。
⭐ Suno也获得1.25亿美元融资，两笔超过1亿美元的融资事件引发关注。
详情链接:https://top.aibase.com/tool/scale

15、Gabby World V2:融合AI和区块链技术的全新龙与地下城风格游戏问世

Gabby World V2是一款融合了人工智能和区块链技术的创新游戏，提供了独特的角色创建、故事探索和战斗体验。游戏处于Alpha测试阶段，仅对白名单成员开放，参与者有机会赢取奖励。通过融合AI和区块链技术，Gabby World V2打造了创意十足、充满挑战的游戏世界。

QQ截图20240522100328.png

【AiBase提要:】
🎮 创新游戏体验，融合AI和区块链技术
🔓 Alpha测试阶段，白名单成员独享，赢取奖励机会
💡 通过独特奖励机制激励玩家积极参与
详情链接:https://medium.com/@Gabby_World/gabby-world-v2-alpha-newbie-guide-72b8ceb97584

16、马斯克的xAI正努力实现Grok多模态化

埃隆・马斯克的人工智能公司xAI正在为其Grok聊天机器人增加多模态输入功能，开发者文档显示了新模型发布进展，Grok1.5V将支持用户上传照片获取文本回复。xAI在缩小与竞争对手差距方面取得进展，尽管相对较新，但在基准测试中表现出潜力。

【AiBase提要:】
⭐ 埃隆・马斯克的xAI公司正为Grok聊天机器人添加多模态输入功能
⭐ 最新的开发者文档显示了xAI在推出新模型方面的进展
⭐ Grok1.5V将允许用户上传照片并获得基于文本的答案

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
李开复称大模型疯狂降价是双输推理大模型成本将每年降10倍

5月21日，针对这一轮大模型降价，零一万物CEO李开复表示，中国大模型与美国大模型的差距已经从一年多前的7-10年缩小到6个月，这是一个巨大的进步。他认为中国的技术实力在追赶全球并不落后中国在大模型领域已经有了令人自豪的成绩。零一万物会继续发布性能最高、推理成本最低的大模型，同时也不会放过任何尺寸上的机会，以满足不同应用场景的需求。

大模型降价中国大模型技术实力
科大讯飞：讯飞星火Lite API永久免费开放

科大讯飞宣布，讯飞星火API能力正式免费开放。讯飞星火LiteAPI将永久免费开放Pro/MaxAPI的调用费用更是低至0.21元/万tokens。我们期待在科大讯飞的引领下，AI技术能够在更多领域得到应用，为人类生活带来更多便利与可能。

科大讯飞 API能力开放全球开发者
科大讯飞官宣：讯飞星火Lite API永久免费开放

科大讯飞最近宣布，讯飞星火LiteAPI永久免费开放，讯飞星火Pro/MaxAPI低至0.21元/万tokens。讯飞星火V3.5春季上新，这是业界首个支持长文本、长图文、长语音的大模型，不仅能处理海量复杂的信息能结合篇章的语义更快速地给出准确答案。新版本将进一步提升智能化水平，为用户带来更加智能化的使用体验。

科大讯飞 API 模型
末日滤镜下真人和AI傻傻分不清网友：AI特效已经到这个Level了？

5月16日，抖音博主“速速來電”发布了一条图文视频，展示了一个逼真的末日游戏滤镜，引发了网友的热议和广泛关注。他用AI特效生成的图像与真人原图对比，效果逼真到让人难以分辨孰真孰假。上传的原图质量对于最终效果至关重要，选择合适的原图与特效相匹配，才能实现最佳的视觉效果。

末日滤镜 AI头条
Suno 融资 1.25 亿美元，成为音乐创作领域的 “ChatGPT”

音乐AI初创公司Suno宣布，他们在最新一轮融资中筹集了惊人的1.25亿美元，将该公司定位为AI音乐革命的先驱。这笔巨额投资有望彻底改变音乐的创作、传播和变现方式Suno将引领这一变革。我们可以共同开启新的创意可能性，触达新的观众，为音乐构建更美好的未来。

Suno AI头条
李开复：三年后AI将取代50%的工作

创新工场董事长兼首席执行官李开复近日在《财富》创新论坛上，重申了他对未来人工智能发展的预测。早在2017年，李开复就曾预言，AI的影响力将超过历史上所有技术革命的总和，包括电力和互联网，并可能在未来10年内取代50%的人类工作。在未来50年内，人们不会接受伪造的人工智能，这段时间足以让当代的孩子生存下来，并为他们的孩子找到下一步的出路。

人工智能 AI 科技
大模型平台Cohere融资4.5亿美元，估值达50亿美元

加拿大多伦多的大模型平台Cohere近日成功获得来自英伟达、Salesforce和思科等知名企业的4.5亿美元融资。这一轮融资将使Cohere的估值达到50亿美元，比上一轮融资增加了28亿美元。Cohere有望继续在AI领域发挥重要作用。

Cohere 大模型 AI头条
荐AI日报：AMD向英伟达亮剑推出最强AI芯片；斯坦福AI团队承认抄袭国产大模型；suno将推“哼歌”功能；昆仑万维开源2千亿稀疏大模型天工MoE

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、挑战英伟达！高绩效者在GenAI采用中更具挑战性，但通过最佳实践取得成功。

AI芯片
我用midjourney浅仿一下抖音爆火的柯南动画风AI滤镜（附midjourney prompt）

继丑萌的黏土滤镜之后，最近"柯南动画风"的AI滤镜在抖音火了。因其独特的风格和趣味性，吸引了大量用户尝试并分享，使得这一特效迅速走红。经典与现代结合:《名侦探柯南》的画风结合了经典日本漫画的特点和现代漫画的创新，使其具有广泛的吸引力。

midjourney AI滤镜抖音
大模型免费时代来了！腾讯自研混元大模型全面降价：混元-lite模型免费

如今的大模型厂商竞争有多激烈？字节跳动、阿里云、百度、科大讯飞等相继宣布自家大模型降价或免费，腾讯今天也加入其中。目前有混元-pro、混元-standard、混元-lite三个不同版本和尺寸的模型以API的形式面向企业和个人开发者开放。

大模型字节跳动云计算

WonderWorld:从单张图片生成交互式3D场景

WonderWorld是一个创新的3D场景扩展框架，允许用户基于单张输入图片和用户指定的文本探索和塑造虚拟环境。它通过快速高斯体素和引导扩散的深度估计方法，显著减少了计算时间，生成几何一致的扩展，使3D场景的生成时间少于10秒，支持实时用户交互和探索。这为虚拟现实、游戏和创意设计等领域提供了快速生成和导航沉浸式虚拟世界的可能性。

3D场景生成虚拟现实创意设计

ChatTTS_Speaker:基于ERes2NetV2模型的音色稳定性评分与音色打标。

ChatTTS_Speaker是一个基于ERes2NetV2说话人识别模型的实验性项目，旨在对音色进行稳定性评分和音色打标，帮助用户选择稳定且符合需求的音色。项目已开源，支持在线试听和下载音色样本。

音色评分说话人识别 ERes2NetV2

fastc:轻量级文本分类工具，使用大型语言模型嵌入。

fastc是一个基于大型语言模型嵌入的简单且轻量级的文本分类工具。它专注于CPU执行，使用高效的模型如deepset/tinyroberta-6l-768d生成嵌入。通过余弦相似度分类代替微调，实现文本分类。它还可以在不增加额外开销的情况下，使用相同的模型运行多个分类器。

文本分类余弦相似度大型语言模型

MeshAnything:3D资产的自动生成工具

MeshAnything是一个利用自回归变换器进行艺术家级网格生成的模型，它可以将任何3D表示形式的资产转换为艺术家创建的网格(AMs)，这些网格可以无缝应用于3D行业。它通过较少的面数生成网格，显著提高了存储、渲染和模拟效率，同时实现了与先前方法相当的精度。

3D设计网格生成自回归变换器

HunyuanDiT-v1.1:多分辨率扩散变换器，支持中英文理解

HunyuanDiT-v1.1是由腾讯Hunyuan团队开发的一款多分辨率扩散变换模型，它具备精细的中英文理解能力。该模型通过精心设计的变换器结构、文本编码器和位置编码，结合从头开始构建的完整数据管道，实现数据的迭代优化。HunyuanDiT-v1.1能够执行多轮多模态对话，根据上下文生成和细化图像。经过50多名专业人类评估员的全面评估，HunyuanDiT-v1.1在中文到图像生成方面与其他开源模型相比，达到了新的最先进水平。

AI图像生成多模态对话中英文双语

UniAnimate:高效生成一致性人物视频动画的模型

UniAnimate是一个用于人物图像动画的统一视频扩散模型框架。它通过将参考图像、姿势指导和噪声视频映射到一个共同的特征空间，以减少优化难度并确保时间上的连贯性。UniAnimate能够处理长序列，支持随机噪声输入和首帧条件输入，显著提高了生成长期视频的能力。此外，它还探索了基于状态空间模型的替代时间建模架构，以替代原始的计算密集型时间Transformer。UniAnimate在定量和定性评估中都取得了优于现有最先进技术的合成结果，并且能够通过迭代使用首帧条件策略生成高度一致的一分钟视频。

人物动画视频生成扩散模型

LVBench:长视频理解基准测试

LVBench是一个专门设计用于长视频理解的基准测试，旨在推动多模态大型语言模型在理解数小时长视频方面的能力，这对于长期决策制定、深入电影评论和讨论、现场体育解说等实际应用至关重要。

视频理解基准测试多模态模型

Mo:通过卡片式学习，轻松掌握AI科技知识。

Mo是一款结合超现实主义艺术和堂吉诃德理想主义精神的AI科技学习APP。它通过卡片形式，以图文、动画、视频、语音等多样化内容，使AI和科技知识的学习变得生动有趣。Mo不仅覆盖了AI的基础知识，还包含了元宇宙、大数据、大模型等前沿技术，适合各种背景的学习者，旨在打造一个个性化的学习体验。

AI学习科技教育个性化学习

开搜AI搜索:面向大众的AI问答搜索引擎

开搜AI问答搜索引擎是一款面向大众的、直达答案的AI问答搜索引擎，它能够帮助用户从海量的文献资料中筛选出有用的信息，提供直接、精准的答案，并且能够自动总结重点、生成大纲、思维导图并下载。

AI问答信息筛选知识获取

AI Math Notes:一个交互式绘图应用，用于数学方程的绘制和计算。

AI Math Notes 是一个开源的交互式绘图应用程序，允许用户在画布上绘制数学方程。应用程序利用多模态大型语言模型（LLM）计算并显示结果。该应用程序使用Python开发，利用Tkinter库创建图形用户界面，使用PIL进行图像处理。灵感来源于Apple在2024年全球开发者大会（WWDC）上展示的'Math Notes'。

数学教育工具开源

VideoTetris:文本到视频生成的创新框架

VideoTetris是一个新颖的框架，它实现了文本到视频的生成，特别适用于处理包含多个对象或对象数量动态变化的复杂视频生成场景。该框架通过空间时间组合扩散技术，精确地遵循复杂的文本语义，并通过操作和组合去噪网络的空间和时间注意力图来实现。此外，它还引入了一种新的参考帧注意力机制，以提高自回归视频生成的一致性。VideoTetris在组合文本到视频生成方面取得了令人印象深刻的定性和定量结果。

文本到视频视频生成人工智能

Visual Sketchpad:多模态语言模型的视觉推理工具

Visual Sketchpad 是一种为多模态大型语言模型（LLMs）提供视觉草图板和绘图工具的框架。它允许模型在进行规划和推理时，根据自己绘制的视觉工件进行操作。与以往使用文本作为推理步骤的方法不同，Visual Sketchpad 使模型能够使用线条、框、标记等更接近人类绘图方式的元素进行绘图，从而更好地促进推理。此外，它还可以在绘图过程中使用专家视觉模型，例如使用目标检测模型绘制边界框，或使用分割模型绘制掩码，以进一步提高视觉感知和推理能力。

多模态视觉推理教育辅助

GoMate:基于RAG框架的可靠输入和可信输出系统

GoMate是一个基于Retrieval-Augmented Generation (RAG)框架的模型，专注于提供可靠输入和可信输出。它通过结合检索和生成技术，提高信息检索和文本生成的准确性和可靠性。GoMate适用于需要高效、准确信息处理的领域，如自然语言处理、知识问答等。

RAG 自然语言处理文本生成

SD3-Controlnet-Canny:一种用于生成图像的深度学习模型。

SD3-Controlnet-Canny 是一种基于深度学习的图像生成模型，它能够根据用户提供的文本提示生成具有特定风格的图像。该模型利用控制网络技术，可以更精确地控制生成图像的细节和风格，从而提高图像生成的质量和多样性。

图像生成深度学习控制网络

Tencent EMMA:多模态文本到图像生成模型

EMMA是一个基于最前沿的文本到图像扩散模型ELLA构建的新型图像生成模型，能够接受多模态提示，通过创新的多模态特征连接器设计，有效整合文本和补充模态信息。该模型通过冻结原始T2I扩散模型的所有参数，并仅调整一些额外层，揭示了预训练的T2I扩散模型可以秘密接受多模态提示的有趣特性。EMMA易于适应不同的现有框架，是生成个性化和上下文感知图像甚至视频的灵活有效工具。

图像生成多模态 AI

Dream Machine AI:释放AI视频创造的力量，轻松生成惊人视频

Dream Machine是由Luma Labs开发的一款先进的人工智能模型，旨在快速从文本和图片生成高质量的、逼真的视频。这个高度可扩展且高效的变换模型直接在视频上训练，使其能够产生物理上准确、一致且充满事件的镜头。Dream Machine AI是朝着创建通用想象力引擎迈出的重要一步，使每个人都能轻松访问。它可以生成带有平滑动作、电影质量和戏剧元素的5秒视频片段，将静态快照转化为动态故事。该模型理解物理世界中人与人之间、动物和物体之间的互动，允许创建具有极佳角色一致性和准确物理的视频。此外，Dream Machine AI支持广泛的流畅、电影化和自然主义的摄像机运动，与场景的情感和内容相匹配。

AI日报：讯飞星火Lite API免费；李开复称大模型疯狂降价是双输；AI末日滤镜抖音爆火；AI音乐Suno 融资1.25亿美元

今日大家都在搜的词：

热文

站长商机