AI日报：Luma官方亲自下场夸自家“孩子”；日本艺术家用Luma复活妻子看哭网友；苹果AI可能要放大家“鸽子”；北大快手联合推视频生成框架VideoTetris

2024-06-17 16:00 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、Luma 官方发视频介绍Dream Machine模型特点

看了Luma官方发布的Dream Machine模型介绍视频，感觉这款AI视频生成工具非常强大。它不仅提供高质量的视频输出，而且能够快速理解用户的提示，生成符合美学风格的视频内容。这对于创意迭代过程非常有帮助，让视频生成变得更加高效。

【AiBase提要:】
🌟 生成的视频质量高，分辨率可达1024像素。
🎨 能理解提示生成符合美学风格的视频。
⚡ 推理速度快，有利于快速迭代创意。
详情链接:https://top.aibase.com/tool/dream-machine

2、新对口型视频项目Hallo发布可对表情，嘴型进行精确控制

新对口型视频项目Hallo发布，通过单张图像和音频输入生成唱歌和说话的视频，实现精确控制人物表情和姿态，提升语音输入与生成动画之间的对齐精度。该技术不仅可用于虚拟角色动画生成，还可应用于真实人物，支持多种运动控制，跨演员应用，以及歌唱动画生成。技术先进，动画逼真，具有广泛的应用潜力。

【AiBase提要：】
⭐️ 根据单张图像和音频输入生成唱歌和说话视频
⭐️ 支持虚拟和真实角色动画生成，项目已开源
⭐️ 多种运动控制，实现精确表情和姿态控制，增强动画的多样性和真实性。
项目地址：https://top.aibase.com/tool/hallo

3、北大快手联合推视频生成框架VideoTetris 复杂视频生成效果超越Pika

本文介绍了北京大学与快手AI团队合作攻克复杂视频生成难题，提出VideoTetris框架，成功超越商用模型Pika和Gen-2。该框架定义了组合视频生成任务，支持复杂指令和长视频生成，保留位置信息和细节特征。团队采用时空组合扩散方法，优化训练数据预处理和引入参考帧注意力机制，生成更具动感和自然的视频。

【AiBase提要:】
⭐ VideoTetris框架成功攻克复杂视频生成难题，超越商用模型Pika和Gen-2。
⭐ 定义了组合视频生成任务，支持复杂指令和长视频生成，保留位置信息和细节特征。
⭐ 采用时空组合扩散方法，优化训练数据预处理和引入参考帧注意力机制，生成更具动感和自然的视频。
详情链接:https://top.aibase.com/tool/videotetris

4、日本AI艺术家用Luma复活妻子网友泪目

这篇文章讲述了65岁的AI艺术家松尾公也用技术复活了他逝去11年的妻子Tori-chan，感动了无数人。通过AI技术，他重新编曲、录制妻子的歌曲，制作动态视频，并提取翻译她的信件，表达对妻子的思念和爱意。这是一个普通人用技术造梦的故事，展现了爱在AI时代的力量和温度。

【AiBase提要:】
🌟 松尾公也用Luma的AI视频Dream Machine复活逝去11年的妻子Tori-chan，感动众人。
🎶 他通过AI技术重新编曲、录制妻子的歌曲，并制作动态视频，展现出对妻子的深深思念。
💖 通过AI工具提取翻译妻子写给他的信，表达出浓浓的爱意和对妻子的永恒思念。
产品入口:https://top.aibase.com/tool/luma-ai
详细文章：https://www.chinaz.com/ainews/9623.shtml

5、苹果AI或计划将延迟推出，开发者要等到夏末才能进行测试

据彭博社报道，苹果的人工智能（AI）计划将是一个漫长而缓慢的过程。苹果公司上周宣布的苹果 Intelligence 计划预计将在夏末晚些时候才能供开发者测试。这意味着它不会成为苹果新操作系统更新的首批测试版，并且仅会在今年秋季推出一个预览版。

【AiBase提要：】
🍏 苹果的人工智能（AI）计划将在夏末晚些时候供开发者测试
📉 苹果计划不会成为新操作系统更新的首批测试版
💬 苹果Intelligence计划将带来改变消费者与设备互动方式，以及购物方式

6、KREA AI推出视频增强功能一键提升视频画质

这篇文章介绍了KREA AI推出的视频增强功能“Enhancer”，可以提升图片和视频画质，并支持更高的分辨率和帧速率。用户可以简单操作，上传需要改善的目标图片/视频，KREA AI将进行在线处理，最终生成高质量视频。

【AiBase提要：】
⭐ Enhancer功能向所有人开放，可以提升图片和视频画质
⭐ 可配合AI视频工具使用，处理完之后，可以在页面直接查看增强效果前后对比
⭐ 可生成最大2.5x像素的视频和高达 120fps 的帧速率。
产品入口:https://top.aibase.com/tool/krea-ai

7、清华与北大合作发布长视频理解基准测试：LVBench

本文介绍了智谱、清华大学和北京大学合作推出的长视频理解基准测试项目LVBench，旨在弥补现有多模态大型语言模型在处理长视频方面的挑战。该项目包含多类别的数小时QA数据，涵盖不同类型的视频内容，旨在推动长视频领域的技术突破和创新。许多研究机构已在LVBench数据集上展开工作，为视频理解和多模态学习领域注入新活力。

【AiBase提要:】
🔍 LVBench项目是长视频理解基准测试项目，包含多类别的数小时QA数据。
💡 LVBench数据集涵盖视频摘要、事件检测、角色识别和场景理解等多种任务。
🚀 LVBench基准的推出将推动相关技术的突破和创新，为长视频领域的发展注入新动力。
详情链接:https://github.com/THUDM/LVBench

8、网格生成模型MeshAnything：将任何3D转换为艺术家创建的网格

近期，由重建和生成创建的3D资产已经达到了手工制作资产的质量水平，凸显了它们在替代领域的潜力。MeshAnything是一种用于生成艺术家创建的3D网格的自动回归模型，通过VQ-VAE和形状条件的仅解码器变压器实现高质量的网格生成。该方法显著提高了存储、渲染和模拟效率，同时保持与以往方法相当的精度。

【AiBase提要:】
⚙️ MeshAnything使用自回归模型生成高质量的艺术家创作的3D网格。
🔍 MeshAnything的网格体提高了存储、渲染和仿真效率，同时保持精度。
🌐 MeshAnything在各个领域都有广泛的应用场景，满足不同用户的创作和需求。
详情链接:https://top.aibase.com/tool/meshanythingMeshAnything

9、哈佛神经科学家和谷歌DeepMind在虚拟老鼠中创建人工大脑

这篇文章介绍了哈佛大学研究人员与谷歌DeepMind团队合作，利用人工智能技术为虚拟老鼠创建人工"大脑"的突破性研究。他们成功建立了生物力学逼真的3D老鼠模型，并利用DeepMind的深度强化学习算法训练了一个人工神经网络大脑，实现了超越真实的模拟效果。这一创新有望为神经科学和人工智能领域带来革命性进展。

【AiBase提要:】
🧠 虚拟老鼠拥有人工"大脑"，能在复杂环境中精确控制运动
🔬 利用DeepMind算法训练的人工神经网络大脑能产生各种复杂运动轨迹和力量
🤖 未来应用前景广阔，可能开创"虚拟神经科学"新领域，为神经系统疾病治疗带来新策略

10、麦当劳宣布结束与 IBM 的 AI 得来速订购合作

麦当劳宣布结束与 IBM 的 AI 得来速订购合作，将在2024年7月26日前移除在100多家餐厅中测试的技术。尽管目前尚不清楚麦当劳为何结束与 IBM 的合作，但该公司表示正在测试语音接单聊天机器人是否能加快服务速度，并对测试结果表示自信。餐饮行业普遍渴望引入 AI 技术来提升效率。

【AiBase提要:】
🍔 麦当劳将结束与 IBM 的 AI 得来速订购合作，将移除在100多家餐厅中测试的技术
🤖 麦当劳正在测试语音接单聊天机器人以加快服务速度
🔮 餐饮行业普遍渴望引入 AI 技术来提升效率

11、研究：人们与ChatGPT对话五分钟，很难区分是否为人类

大型语言模型（LLMs）如 GPT-4模型在聊天平台ChatGPT展现出惊人能力，难以区分其生成的文本是否为人类所写。加州大学圣迭戈分校研究发现，人们与GPT-4对话时很难分辨其是否为人类，展示出机器展现人类智能的程度。

【AiBase提要:】
🔍 GPT-4模型在研究中展现出与人类难以区分的对话能力。
💡 研究结果显示约50%的互动中人们误认为GPT-4是人类。
🎮 设计了名为"人还是不是人"的在线游戏，揭示人们难以可靠判断与人类还是AI系统交谈的区别。

12、多模态模型的画布框架Sketchpad：提升多模态模型数学能力

这篇文章介绍了研究人员引入的“Sketchpad”概念，为多模态LM提供了视觉画板和绘图工具，使其能够进行视觉推理。通过实验结果显示，Sketchpad显著提高了LM在数学任务和复杂的视觉推理任务上的表现，进一步接近人类的思维方式，为人工智能技术的发展开辟了新的可能性。

【AiBase提要:】
🎨 Sketchpad为多模态LM提供视觉画板和绘图工具，使其能进行视觉推理。
🔍 实验结果显示，Sketchpad显著提高了LM在数学任务和复杂的视觉推理任务上的表现。
🚀 Sketchpad使得GPT-4o在所有任务上创下了新的技术水平，包括V*Bench、BLINK空间推理和视觉对应。
详情链接:https://top.aibase.com/tool/visual-sketchpad

（举报）

相关推荐

关键词：

AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

微软发布首款自研图像生成模型MAI-Image-1，跻身LMArena前十，注重实用性与光影效果；百度世界2025大会将聚焦大模型与AI全球化战略；Meta新技术使RAG推理速度提升30倍；开源项目nanochat实现低成本构建聊天AI；谷歌NotebookLM新增动漫视频生成功能；中国农大发布神农大模型3.0助力智慧农业；腾讯启动"青云奖学金"培养AI人才；苹果FS-DFM模型长文本生成效率提升128倍；谷歌Lens整合AI图像编辑功能；港大与美团提出CodePlot-CoT方法，通过代码绘图解决数学难题，性能提升21%。

AI 图像生成微软
苹果预告M5芯片：新MacBook Pro首发搭载

近日，苹果公司营销主管格雷格·乔斯维亚克（Greg Joswiak）通过官方渠道发布了一则引人瞩目的预告，宣称一款强大的新品即将震撼登场。预告配图动画巧妙展现了“V”字形轮廓，这一形状与罗马数字“5”不谋而合，而配文中又暗藏五个“M”，几乎是在明示新品与苹果M5芯片紧密相关。

苹果新品 M5芯片 MacBook
Sora 2生成已故名人视频引亲属不满 OpenAI回应：重视反馈将迅速纠正失误

OpenAI 近日推出的 Sora 2 模型引发广泛关注，其默认禁止生成在世公众人物视频，用户纷纷尝试生成各类创意内容。然而，创作者与观众很快发现这一限制存在明显漏洞该模型允许生成已故公众人物的影像，从而在伦理层面引发争议。社交媒体上已涌现大量AI复活”名人的案例，例如李小龙主持DJ现场、迈克尔杰克逊表演单口喜剧等。尽管OpenAI在每段生成视频上添加动态水印，�

OpenAI Sora 2模型
全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

国庆假期前夕，OpenAI发布了Sora 2，一款旗舰视频和音频生成模型。据介绍，Sora 2可以完成以前的视频生成模型难以完成的事情，比如运动员的奥林匹克体动作、桨板上的后空翻，准确模拟浮力和刚度的动态等等，并擅长现实主义、电影和动漫风格。一则来自《连线》杂志的重磅爆料更是指出，OpenAI的下一步棋，并非简单升级一个模型，而是要亲自下场，推出一个独立的AI影�

OpenAI Sora 2
百度升级文心助手AIGC创作能力：支持8种模态一键调用多工具

百度搜索近日宣布对文心助手进行全面升级，显著增强其AIGC多模态创作与智能任务解决能力。目前，该平台已支持AI图片、视频、音乐、播客等8种内容形态的生成，并支持用户一键调用多种工具，应对生活、健康、教育、工作等多场景需求。数据显示，百度搜索用户通过文心助手日均生成的AIGC内容量已突破千万。与此同时，百度还发布了行业首个开放式实时互动数字人智�

百度搜索文心助手 AIGC
苹果全新MacBook Pro本月亮相：全球首发M5芯片

苹果M4版MacBook Pro定制机型发货推迟至10月23-28日，预示10月将推M5版。据悉，14/16英寸M5 MacBook Pro本月发布，搭载M5芯片；M5 Pro/Max版则延至2026年初。M5芯片基于台积电3nm工艺，单核成绩突破4000分，多核超1.5万分，成M系列最强标准版。除MacBook Pro外，M5还将用于iPad Pro和Vision Pro，苹果或同步更新Apple TV与HomePod mini。新品将通过新闻稿形式发布，不举办发布会。

M5MacBook Pro 苹果发布会
投身短视频后，「极客」们不再孤单

「Geek」一词在互联网和科技产业的崛起过程中，本来仅指向比尔·盖茨、史蒂夫·乔布斯等对计算机科学和技术充满热情的人。在当下语境中，其含义则不断拓展，成为智慧、专业、创新和热情的代表，对某一领域或技术极度痴迷并具备深入了解、精通能力的人，都可称之为「极客」。在科技发展普及、不断平权的当下，极客们拥有了更蓬勃的创造活力。今年来，以抖音、b站

极客文化科技创新短视频平台
荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

本期AI日报聚焦多项技术突破：Veo 3.1视频生成模型实现角色一致性与多场景叙事升级；蚂蚁发布万亿参数Ling-1T语言模型，推理能力领跑行业；xAI推出电影级视频生成模型Imagine v0.9；软银斥资53.75亿美元收购ABB机器人业务布局物理AI；Vercel v0新增图像编辑功能简化设计流程；OpenAI Sora2首日安装量飙升至应用商店第三，同时引发深度伪造伦理担忧；Lovart平台限时免费开放Sora2无水印视频生成；ChatGPT推出应用生态，正式升级为多功能服务平台。

生成式视频 Veo 3.1
斯维诗蛋白粉打造双蛋白矩阵，引领高效营养新趋势

随着健康意识提升，蛋白质补充方式从传统膳食转向科学精准补充。Swisse斯维诗蛋白粉创新采用“双蛋白矩阵”配方，融合乳清蛋白、乳铁蛋白与免疫球蛋白等活性成分，引领高效营养补充新趋势。蛋白质是维持代谢健康、促进细胞更新、支持运动恢复的关键物质。该产品严选优质乳清蛋白，添加益生成分与矿物质，实现蛋白质与钙同补，系统助力自护力提升与体质强化，成为主动健康管理的重要策略。

蛋白质补充健康意识双蛋白矩阵
荐Sora2之后，又来了个全新的影视级AI视频模型，它的名字，叫GAGA。

Sora2爆火之后，随之而来的AI视频领域的新产品。来自我的好朋友，曹越老师的Sand.ai。凌晨，他们终于上线了他们全新的音画同步视频模型GAGA-1，在人物表演上，我觉得，已经算是现在的TOP级了。

AI视频 GAGA-1 音画同步

今日大家都在搜的词：

热文

3 天
7天

AI日报：Luma官方亲自下场夸自家“孩子”；日本艺术家用Luma复活妻子看哭网友；苹果AI可能要放大家“鸽子”；北大快手联合推视频生成框架VideoTetris

AI日报：微软发布首款自研图像生成模型 MAI-Image-1；百度世界大会时间公布；AI大牛开源nanochat教学工具

苹果预告M5芯片：新MacBook Pro首发搭载

Sora 2生成已故名人视频引亲属不满 OpenAI回应：重视反馈将迅速纠正失误

全球首个！OpenAI将推“AI版抖音”：禁止上传实拍内容视频100%由AI生成

百度升级文心助手AIGC创作能力：支持8种模态一键调用多工具

苹果全新MacBook Pro本月亮相：全球首发M5芯片

投身短视频后，「极客」们不再孤单

荐AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 Ling-1T；Lovart可免费玩Sora2

斯维诗蛋白粉打造双蛋白矩阵，引领高效营养新趋势

荐Sora2之后，又来了个全新的影视级AI视频模型，它的名字，叫GAGA。

今日大家都在搜的词：

热文

微信员工回应好友互删后互动清除：并非新版本特性

京东回应下场造车：不直接涉及制造三方联合推出

微信回应人去世了朋友圈会消失吗：长时间不使用账号已不再回收

苹果官网确认iPhoneAir非合约机并更新发售信息

小米推出短剧App围观短剧：主打无广告免费看

小米17 Pro背屏功能获赞卢伟冰：新功能开发持续推进中

vivo Pad5e发布：售价1999元起搭载骁龙8s Gen3

卢伟冰宣布10月15日开启返场直播称要再聊聊小米17

特斯拉Model Y L全新浅灰色高级内饰上线售价 8000元

AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球

微信员工回应好友互删后互动清除：并非新版本特性

AI日报：LiblibAI 2.0正式上线；通义千问、豆包开启记忆功能；

网易云音乐回应登入李玟账号：已与网友新手机号解绑

董明珠称格力向特斯拉提供服务已有近14万项专利技术

卢伟冰调侃还有小米6钉子户：小米6机主宣布换机小米17

AI日报：快手KAT-Dev代码模型开源登顶；全球首款IP66防护人形机

Windows 10即将“停服”上热搜微软建议用户升级Win 11

库克下月满65岁苹果或迎特努斯时代：有望执掌十年以上

京东回应下场造车：不直接涉及制造三方联合推出

雷军回应小米手机登顶黄金周销量第一：非常了不起

站长商机