首页 > 业界 > 关键词  > Runway最新资讯  > 正文

AI日报:Runway Gen 3可生成3D巨幅字幕效果;Google Vids 上线测试;百度网盘推宝宝AI长相预测;Luma AI推首尾帧视频生成

2024-07-01 14:46 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、炸裂!Runway Gen 3可以生成电影片头3D巨幅字幕效果了

Runway最新推出的Gen-3Alpha视频生成模型在保真度、一致性和动作表现方面有重大改进,不仅生成稳定光影,还展现强大想象力。内测博主展示了3D巨幅字幕效果,Gen3即将对所有人开放使用。模型精细控制运动,审美强大,想象力丰富,符合物理规律,生成速度快。

【AiBase提要:】

⚙️ Runway Gen3 可模仿漫威电影片头效果制作3D巨幅字幕效果

💡 极度稳定的光影效果,保持高质量输出,即使在高速移动场景中

🎥 控制模式包括 Motion Brush、高级摄像头控制、导演模式,生成速度快,审美强大

详情链接:https://top.aibase.com/tool/gen-3-alpha

2、百度网盘一刻相册App推出宝宝AI长相预测功能

百度网盘一刻相册App推出了AI长相预测功能,用户上传照片即可预测宝宝未来样子,训练数据贴合中国宝宝特征,操作简单快速。未来将开发更多实用AI功能,征集用户意见。

image.png

【AiBase提要:】

👶 预测宝宝未来样子,训练数据贴合中国宝宝特征,操作简单快速。

📸 上传照片即可得到高清预测图像,提供多种时尚滤镜效果供选择。

🔮 未来将开发更多实用AI功能,如预测孩子不同成长阶段的样子,征集用户意见。

3、谷歌推出AI视频编辑应用Google Vids 上线测试

谷歌最新推出的AI视频编辑应用Google Vids在测试中展现出强大的功能和用户友好的特点,为用户提供了高效、便捷的视频编辑工具。该应用集成Gemini大模型,帮助用户轻松创建视频内容,降低了视频制作门槛,未来有望成为视频创作者的得力助手。

【AiBase提要:】

✨ Google Vids集成Gemini大模型,可帮助用户创建幻灯片、编写视频脚本,并制作分镜头脚本。

🎥 用户通过添加或删除元素来编辑视频,最终导出为MP4文件,入口位于Google Docs文档处理工具中。

🚀 Google Vids的上线测试丰富了Google Workspace套件,展示强大的AI技术能力,为用户提供便捷的视频编辑工具。

4、Luma AI新功能:首尾帧生成视频与向后延长5秒

Luma AI推出了新功能,让视频创作充满无限可能,虽然偶尔会有硬切换画面,但这正是剪辑的魅力所在,让每一秒充满惊喜和创意。未来的视频生成将基于这种延长操作完成,实现智能个性化的视频创作。

【AiBase提要:】

✨ 视频延长魔法:首尾帧生成视频能力,向后延长5秒,让每一帧充满无限可能

💡 创新视频功能“Extend”:智能分析视频内容,保持原有风格和对象一致性的基础上延长视频长度

🌟 Dream Machine模型发布:支持文本和图片输入,生成高质量视频,模拟现实物理特性,免费开放体验

详情链接:https://top.aibase.com/tool/dream-machine

5、全新Solos AirGo Vision智能眼镜发布

Solos公司在香港智能眼镜峰会上发布了全新的Solos AirGo Vision智能眼镜,集成了ChatGPT-4o的可穿戴AI大脑,让用户的双眼瞬间升级为超能力。这款智能眼镜不仅支持实时问答和视觉提示,还具备多语言翻译功能,模块化设计,售价为249美元。

【AiBase提要:】

⭐ 集成 ChatGPT-4o 的多模态 AI 功能,支持实时问答和视觉提示

⭐ 支持超过10种语言的实时翻译,轻松打破语言障碍

⭐ 模块化设计,可替换不同样式的传统框架,售价为249美元

6、商汤如影AI视频生成平台推出央视记者王冰冰AI数字人

商汤科技的AI数字人“AI冰冰”在《2024中国・AI 盛典》中首次亮相,展现了出色的多语言能力和逼真的视觉效果。数字人技术在传媒行业具有巨大潜力,能够拉近人物IP与受众之间的距离。

【AiBase提要:】

✨ 商汤科技创造的AI数字人“AI冰冰”在舞台上展现出专业且自然的表现,得益于SenseNova大模型技术。

🌐 如影平台的AI视频生成技术实现了高清复制和自然的表情、嘴型、动作效果,展示出卓越的语言能力。

🔥 商汤如影提供强大的核心技术支持,使AI冰冰能够展现逼真的视觉效果和流畅的多语种表达能力。

7、知乎宣布推出独立AI搜索平台「知乎直答」

知乎最近推出了全新AI产品「知乎直答」,旨在提升问答效率和质量,缩短用户与优质回答之间的距离,增强社区创作者内容的流通。这一举措预示着问答社区将进入更智能和个性化的新时代。

QQ截图20240701090057.png

【AiBase提要:】

🚀 知乎直答是基于知乎丰富问答数据开发的AI产品,提供简略和深入两种答案生成方式,支持用户快速找到所需内容或专家。

💡 产品定位为生产力工具和发现世界的连接器,帮助用户通过提问来探索世界的能力。

🔮 未来计划推出App版本,引入多模态能力,与知乎社区深度融合,探索对外合作,为整个问答领域带来新的发展方向。

详情链接:https://zhida.zhihu.com/

8、WhatsApp最新Android测试版2.24.14.7推出选择Meta AI Llama模型功能

WhatsApp最新测试版引入了选择Meta AI Llama模型的功能,用户可以根据需求自定义AI交互体验,体验更快速简单的回应或处理更复杂的查询。该功能展示了WhatsApp在AI领域持续创新的决心。

【AiBase提要:】

🔍 WhatsApp最新Android测试版2.24.14.7通过Google Play Beta计划推出选择Meta AI Llama模型功能。

🧠 用户可以选择默认的Llama3-70B模型获得更快速简单的回应,或选择高级的Llama3-405B模型处理更复杂的查询。

📈 WhatsApp计划提供更先进的Llama3-405B模型预览版,每周有使用次数限制,达到限制后用户将回到默认模型继续对话。

9、苹果可能在今年秋季宣布与谷歌 Gemini 的交易

苹果计划在今年秋季推出与谷歌 Gemini 的整合交易以及测试版的 Apple Intelligence,将人工智能作为直接盈利途径。第三方AI服务可能成为苹果的过渡选择,同时苹果将逐步推出自己的生成式AI系统。

【AiBase提要:】

🍎 苹果计划整合谷歌 Gemini 到设备中,推出测试版的 Apple Intelligence。

💡 苹果将人工智能作为直接盈利途径,不仅仅是推动硬件销售的功能。

🤖 第三方AI服务可能成为苹果的过渡选择,同时苹果将逐步推出自己的生成式AI系统。

10、GPTPdf:使用类似GPT-4o的多模态LLM分析PDF文件

近日,一款名为gptpdf的开源项目在github赞火,使用了类似 GPT-4o 的 VLLM 模型解析 PDF 文件并转换为 Markdown 格式。该项目代码简洁高效,只有293行,却能完美解析排版、数学公式、表格、图片、图表等各种内容。费用每页平均成本为0.013美元。

image.png

【AiBase提要:】

🔍 使用类似 GPT-4o 多模态模型解析 PDF 文件,转换为 Markdown 格式。

💻 代码简洁高效,仅293行。

🌟 解析结果几乎完美包括排版、数学公式、表格、图片、图表等内容。

详情链接:https://top.aibase.com/tool/gptpdf

11、AI音频魔法师Resona V2A 可自动为视频配音效

在AI技术大行其道的时代,Resona V2A技术横空出世,像一位神奇的魔术师,让视频自动开口,唱出属于自己的旋律。这不仅是技术突破,更是创意者的福音。Resona V2A一键生成音频,快速高效,创意者得力助手。高性价比,成本降低99%,提供高质量音频解决方案。

【AiBase提要:】

🔮 视频自动开口,唱出属于自己的旋律,技术突破与创意者福音。

⚙️ 一键生成音频,快速高效,加快音频生成速度,创意者投入更多时间和精力到视频创意设计。

💰 成本降低99%,高性价比的音频解决方案,满足不同用户需求。

详情链接:https://top.aibase.com/tool/resona-v2a

12、AI换装黑科技 MMTryon虚拟试穿框架可按需搭配一键叠穿

中山大学和字节智创数字人团队联合推出的MMTryon虚拟试穿框架颠覆了传统换装方式,实现一键生成模特试穿效果,质量高且操作简便。其服装编码器和多模态多参考注意机制让换装更精确灵活,打破了传统算法束缚,获得新SOTA。MMTryon不仅可试穿单件服装,还支持组合换装,无需分割,通过文本指令即可实现高质量虚拟换装。

image.png

【AiBase提要:】

👗 一键生成模特试穿效果,质量高且操作简便

🔥 打破传统算法束缚,获得新SOTA,支持组合换装

💡 利用服装编码器和多模态多参考注意机制,换装更精确灵活

详情链接:https://arxiv.org/abs/2405.00448

举报

  • 相关推荐
  • 对标Sora!谷歌发布AI视频生成器Veo 3:可同时生成视频和音效

    谷歌在I/O开发者大会上发布第三代视频生成模型Veo+3,对标OpenAI的Sora。该模型不仅能基于文本和图像生成高质量视频,还能为人物对话、鸟鸣等场景自动匹配音效,实现更逼真的视听体验。目前Veo+3面向美国Gemini Ultra订阅用户,月费249.99美元,并将纳入企业级Vertex AI平台。谷歌同期还发布了升级版图像模型Imagen 4、电影制作工具Flow等AI产品。值得注意的是,谷歌在AI图像生成领域并非一帆风顺,此前Imagen 3曾因生成含历史错误的图像引发争议。

  • 仅用三张图像即可生成 3D 场景,苹果新 AI 模型“很惊人”

    只需三张输入图像,Matrix3D 就能生成物体、甚至整个环境的详细 3D 重建,这显然可以为 Apple Vision Pro 等沉浸式头显带来非常有趣的应用……

  • AI日报:苹果AI国行版或随iOS 18.6月底上线;Suno v4.5正式上线Runway发布图像一致性参考功能

    本文汇总了AI领域最新动态:1)英伟达开源语音识别模型Parakeet-TDT-0.6B-V2,提升转写效率;2)Suno音乐平台v4.5版本支持8分钟歌曲生成;3)Runway推出图像一致性参考功能Gen-4 References;4)Midjourney V7新增"Omni-Reference"图像控制功能;5)Claude将引入MCP协议提升集成能力;6)iOS18.6或为中国用户启用AI功能;7)OpenAI宣布回归非营利模式;8)Freepik发布版权安全的F-Lite图像模型;9)OpenAI以30亿美

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • AI日报:谷歌最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

    本文汇总了近期AI领域的重要动态:1)谷歌推出249.99美元/月的AI Ultra订阅计划,提供最强AI模型和高级功能;2)腾讯混元模型升级,新增视觉推理T1-Vision和语音对话模型;3)美图获阿里2.5亿美元投资,将在电商和AI领域合作;4)豆包推出语音播客模型,实现文本快速转音频;5)百度文心X1 Turbo获信通院最高评级;6)谷歌发布Flow AI剪辑工具,集成Veo3等三大模型;7)谷歌Veo3支持4K视频生成;8)Imagen4图像模型发布;9)Gemini2.5 Pro新增并行推理功能;10)谷歌推出虚拟试衣工具;11)公测AI编程助手Jules;12)苹果计划在iOS19开放AI模型;13)京东云推五大免费AI营销工具;14)字节开源多模态模型BAGEL;15)英伟达发布物理推理模型Cosmos-Reason1。

  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • AI日报:QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • AI日报:Anthropic最强编码AI模型Claude4;苹果计划AI智能眼镜;QQ浏览器上线首个高考Agent

    【AI日报】今日AI领域重要动态:1)Anthropic发布Claude4系列AI模型,编程能力超越竞争对手;2)苹果计划2026年推出集成AI技术的智能眼镜;3)字节跳动与清华合作推出时序多模态大模型ChatTS;4)3DTown框架实现单张照片生成逼真3D场景;5)OpenAI秘密开发无屏幕AI设备;6)商汤科技推出儿童AI下棋机器人;7)微软记事本新增AI写作功能;8)深圳设立70亿元基金支持AI硬件初创企业;9)谷歌发布3D视频通信平台Beam;10)阿联酋推出"星际之门"计划,免费提供ChatGPT服务;11)法国Mistral推出开源模型Devstral;12)Anthropic API新增四大功能;13)美国众议院通过法案限制各州监管AI;14)QQ浏览器推出高考AI助手。

  • AI日报:美团AI编程工具NoCode将上线;火山引擎发布MCP Servers;腾讯混元上线游戏视觉生成平台

    本文汇总了近期AI领域的重要动态:1)美团将推出对话式编程工具"NoCode";2)火山引擎发布大模型生态平台MCP Servers;3)B站开源动画视频生成模型Index-AniSora;4)字节跳动升级AI耳机Ola Friend的英语学习功能;5)GitHub推出AI编程助手自动修复代码漏洞;6)腾讯混元上线游戏视觉生成平台;7)微软将VS Code转型为开源AI编辑器;8)Windows 11原生支持MCP协议;9)Anthropic发布AI代理开发指南;10)谷歌推出编程AI代理Jules;11)NotebookLM推出iOS版;12)Genspark创3600万美元ARR纪录;13)Bright Data发布开源MCP服务器;14)马斯克宣布Grok模型将登陆Azure平台。这些进展展示了AI技术在编程、内容生成、操作系统等领域的快速发展和应用创新。

  • Google不革自己的命,AI搜索们也已经凉凉了?

    在刚刚结束的 Google I/O 开发者大会中,Google 宣布上线由 Gemini 驱动的高级 AI 搜索模式 AI Mode,可以应对复杂问题,支持追问。与之前的 AI Overviews 对 AI 搜索的浅尝辄止不同,Google 终于不再死抱着“关键词+链接列表”,开始拥抱“自然语言交互+结构化答案”的“新”范式了。 作为上一代搜索引擎的霸主,2024年,Google 的搜索业务贡献了1750亿美元,占总收入的一半以上,而转型

热文

  • 3 天
  • 7天