AI视野：字节发布视频模型MagicVideo-V2；OpenAI推出自定义GPT商店；Midjourney将上线一致性角色生成功能；Steam允许平台发布AI游戏

2024-01-11 16:06 · 稿源：站长之家

欢迎来到【AI视野】栏目！这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

🤖📈💻💡大模型动态

字节跳动发布视频生成模型MagicVideo-V2

MagicVideo-V2是一种革命性的视频生成技术，集成了文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块，用于生成外观美观、高分辨率的视频，提供出色的保真度和平滑性。

【AiBase提要:】
⭐️ MagicVideo-V2集成了文本到图像模型、视频生成器和帧插值模块。
⭐️ 训练模块能够生成描述场景的图像，然后通过动画处理生成视频序列。
⭐️ MagicVideo-V2在视频生成领域具有前途，为高保真视频生成带来了积极影响。
项目地址:https://top.aibase.com/tool/magicvideo-v2

📰🤖📢AI新鲜事

OpenAI推出自定义GPT商店

OpenAI 在官网正式发布了自定义 GPT 商店，用户可以分享和寻找最流行、最好用的自定义 ChatGPT 助手。同时，推出了面向细分团队的产品 ChatGPT Team，支持团队协作。

微信截图_20240111075749.png

【AiBase提要:】
💡 自定义 GPT 商店涵盖多种类型的助手，如 DALL.E（生成图像）、写作、学术研究、编程、教育和生活等。每周上线新助手并推荐有影响力的产品。
🔍 目前最受欢迎的助手是 “Consensus”，可搜索2亿篇学术论文并提供准确引用。
💰 ChatGPT Team，支持32K 上下文，可访问最新模型，具备视觉、数据分析等功能。按年计费每月25美元，按月计费每月30美元。

Midjourney将于本月内上线一致性角色生成功能

Midjourney将于本月内上线一致性角色生成功能，为用户提供更快速的体验。Midjourney的图片生成质量一直是比较领先的，唯一的问题就是很难保持角色的一致性。这些新功能的推出将使Midjourney平台更加完善，为用户带来更好的使用体验。

QQ截图20240111094153.png

【AiBase提要:】
⭐ Midjourney将推出一致性角色生成功能，提供更快速的体验。
⭐ 图片生成质量一直领先，但难以保持角色一致性。
⭐ 推出新功能将使Midjourney平台更完善，提供更好的使用体验。

Steam允许平台发布大部分AI参与制作的游戏

Steam 对使用 AI 技术的游戏进行了政策上的调整，更新了内容调查并制定了审核标准，其中包括预生成内容和实时生成内容。

【AiBase提要:】
💡 更新内容调查和审核标准。
💡 推出全新系统让玩家举报游戏内违法的实时生成AI内容。
💡 更加开放对待AI技术的游戏发行，但不允许通过实时生成AI创建的色情游戏。

AI框架GauHuman:实现高质量3D人体快速重建和实时渲染

GauHuman在1~2分钟内完成建模，每秒渲染高达189帧，涵盖游戏、电影、虚拟现实等领域。

【AiBase提要:】
【🌐 S-Lab团队推出GauHuman】基于Gaussian Splatting实现高质量3D人体快速重建和实时渲染。
【⚡ 框架优势】1~2分钟内完成建模，每秒渲染高达189帧，应用前景广泛。
【🚀 技术原理】通过SMPL参数和神经网络处理单目人体视频，快速生成高质量3D数字人。
https://top.aibase.com/tool/gauhuman

OpenAI就授权内容与CNN、福克斯及时代周刊展开谈判

OpenAI就授权内容与CNN、福克斯及时代周刊展开谈判，以增强ChatGPT聊天机器人的产品。与多家媒体公司和News/Media Alliance进行谈判，以解决侵权指控问题。

【AiBase提要:】
⚖️ OpenAI涉嫌侵权，正与媒体公司进行谈判。
🗞️ OpenAI与行业组织进行对话，解决相关担忧。
📰 一系列事件后的谈判，解决侵权指控。

🤖📱💼AI应用

Contorlnet插件支持IPadapter FaceID 模型了

插件现在已经支持IPadapter FaceID模型的使用，这个模型是IPadapter Face的升级版本，能更好地还原人像特征到生成的图片中。

【AiBase提要:】
提高了人脸识别精准度，使用LoRA技术提高面部ID的一致性，仅通过文本提示生成各种风格的人脸图像。
提供FaceID的使用方法，需安装insightface并下载模型和Lora，用户可方便地使用IPadapter FaceID 模型。
发布ConTorlNetXS的优化版本，在图像生成方面性能得到极大提升，将推动图像生成领域的进一步发展和应用。
ControlNet 插件更新日志:https://github.com/Mikubill/sd-webui-controlnet/discussions/2442

👨‍💻💡🎯聚焦开发者

新语音转换技术CoMoSVC :速度飙升500倍，高质量歌声转换

近日，香港科技大学与微软亚洲研究院的研究团队联手开发的CoMoSVC技术在歌声转换领域取得了革命性突破。

【AiBase提要:】
⚙️ 快速采样: CoMoSVC的学生模型在保持音频质量的前提下，实现了高达500倍的推理速度提升。
🎶 平衡速度与质量: 该技术在速度和音频质量之间取得了平衡，为音乐娱乐等领域的实时应用带来了新的可能性。
🎵 歌声转换:CoMoSVC利用一致性模型，在保持音频质量的前提下，实现高速的音频采样，为歌声转换领域带来了重大突破。
论文网址:https://arxiv.org/abs/2401.01792
项目网址:https://comosvc.github.io/

Amphion音频生成工具包开源

上海AI实验室、香港中文大学数据科学院和深圳大数据研究院联合开源Amphion音频、音乐和语音生成工具包，帮助开发人员研究文本生成音频等。

【AiBase提要:】
上海AI实验室、香港中文大学数据科学院、深圳大数据研究院开源了音频、音乐生成工具包Amphion，解决生成模型黑箱、代码库分散、缺少评估指标等难题;
Amphion包含数据处理、通用模块、优化算法等基础设施;
Amphion内置文本到语音合成模型，包括FastSpeech2、Vall-E、NaturalSpeech。
开源地址:https://github.com/open-mmlab/Amphion

（举报）

相关推荐

关键词：

MagicVideo-V2

荐AI日报：Midjourney重磅推出视频生成模型V1；OpenAI将在今年夏季发布GPT-5；谷歌推Search Live语音搜索功能

本期AI日报聚焦多项AI领域重要进展：1) Midjourney推出首款视频生成模型V1，支持21秒视频生成；2) OpenAI CEO确认GPT-5将于今夏发布；3) Google上线语音对话搜索功能Search Live；4) OpenAI开源客户服务代理框架；5) MiniMax发布智能代理Agent；6) 恶意工具WormGPT出现新变种；7) OpenAI推出企业版ChatGPT折扣；8) DeepSite V2支持3D网页动画生成；9) AI工具可秒变PPT；10) 比亚迪与字节跳动合作开发动力电池技术；11) 马斯克否认xAI巨额亏损传闻。

AI日报 Midjourney 视频生成模型
荐AI日报：ChatGPT支持MCP和会议记录功能；Cursor 1.0 版本重磅发布；Midjourney视频功能将在本月上线

本期AI日报聚焦多项AI领域突破：1）OpenAI为ChatGPT新增企业数据连接和会议记录功能；2）Cursor 1.0发布集成BugBot等开发工具；3）Midjourney即将推出视频生成功能；4）秘塔AI搜索新增PPT导出功能；5）Manus推出文本生成视频工具挑战Sora；6）法国Mistral发布企业级编程助手；7）英伟达推出文档处理专用AI模型；8）腾讯公益引入大模型提升互动体验；9）Firecrawl推出网页抓取API工具；10）Bland AI实现超真实语音克隆；11）报告显示AI训练成本逼近百亿美元；12）开源设计工具Jaaz支持批量图像生成；13）《逆水寒》手游接入AI实现图片动效玩法。

OpenAI ChatGPT 人工智能
免费使用！荣耀MagicPad 3平板首发AI PPT功能：自动生成

荣耀终端股份有限公司平板与IOT产品领域总经理@荣耀平板利用哥发文透露，荣耀MagicPad 3平板将首发AI PPT功能，可以将文档快速生产为用户想要的PPT。最重要的是他强调，所有这些功能，包含文档格式转化、AI PPT等都是免费的，而且会覆盖现有在售机型和存量平板。

荣耀MagicPad 3 AI
OpenAI奥特曼：GPT5预计今年夏季发布

OpenAI创始人奥特曼在最新播客中透露，GPT-5预计今夏发布，具体日期未定。 GPT-5将是生成式AI能力的重大升级，《商业内幕》称其远超GPT-4，早期测试者认可进步显著。 GPT-4于2023年3月发布，较上一代GPT-3.5有了显著提升。上月初，奥特曼发文向GPT-4告别。目前GPT-4o已经完全替代了GPT-4，前者于2024年5月14日发布，其中o”代表omni”，意为全能”。

GPT-5发布生成式AI升级奥特曼播客
Baidu Steamer-I2V推动视频生成技术突破，擎舵平台赋能原生创意营销

百度推出全球领先的视频生成模型Baidu Steamer-I2V，以89.38%综合评分登顶VBench榜单。该模型通过精准画面控制、高清画质和中文语义优化，能将静态图像转化为连贯动态视频。百度营销平台迎来2周年，已服务超13万家企业，日均生产素材超10万+。在"AI驱动营销全链路升级"主题下，百度与核心代理商共同探讨AIGC技术突破与创意升级，推出"AI创"原生创意大赛。百度商业体系表示将持续巩固传统广告优势，同时突破创意边界，实现营销效果飞跃。未来百度将优化模型性能，拓展应用场景，推动营销行业迈向"一杯咖啡时间完成创意生产"的全智能化时代。

AI营销视频生成模型百度Steamer-I2V
荐AI日报：豆包大模型1.6发布；OpenAI推o3-pro模型、o3价格暴降80%；Figma官方MCP重磅上线

【AI日报】今日AI领域重要动态：1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro，性能显著提升；2)OpenAI推出o3-pro模型，专注可靠性但响应较慢；3)Figma推出Dev Mode MCP服务，实现设计到代码一键转换；4)Krea AI发布图像生成模型Krea1，解决传统AI绘图问题；5)火山引擎豆包日调用量突破16.4万亿次；6)法国Mistral发布推理模型Magistral；7)苹果系统整合ChatGPT图像生成功能；8)OpenAI大幅下调o3价格80%并推出o3-pro；9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15；10)阿里开源MaskSearch框架，提升AI解决复杂问题能力。

人工智能 AI产品视频生成
荐AI日报：腾讯混元3D 2.1大模型开源；字节跳动AI Lab负责人李航卸任；OpenAI Codex 全新升级

本文介绍了AI领域最新动态：1)腾讯开源混元3D2.1大模型，提升3D生成质量；2)OpenAI Codex升级，优化代码生成功能；3)字节跳动AI Lab负责人李航卸任；4)微软发布700个AI应用案例；5)微软推出Code Researcher工具，解决58%系统崩溃问题；6)Observer AI实现屏幕操作自动化；7)Genspark发布AI浏览器；8)麻省理工用AI技术3.5小时修复15世纪名画；9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni；10)MagicTryOn视频换衣框架；11)字节跳动发布实时互动AI视频生成模型Seaweed APT2；12)ChatGPT搜索功能升级；13)字节跳动与老凤祥合作开发AI智能眼镜。

人工智能 3D生成开源大模型
荐AI日报：MiniMax推视频生成模型Hailuo 02；Cursor Pro取消500次请求限制；谷歌发布AI模型 Gemini 2.5 Flash-Lite

本文汇总了AI领域最新动态：1)Cursor Pro取消500次请求限制；2)稀宇科技推出视频生成模型Hailuo02；3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite；4)科大讯飞星火X1升级版7月上线；5)腾讯元宝推出AI编程模式；6)OpenAI将下架GPT-4.5 API；7)苹果Speech API转录速度超Whisper 55%；8)百度推出数字人互动直播间；9)Meta曾试图高薪挖角OpenAI人才；10)Krea1公测开放，解决"AI感"问题；11)特斯拉Grok车载AI助手即将上线；12)谷歌Gemini新增视频分析功能。

人工智能开发者技术趋势
Meta V-JEPA 2模型来袭，OpenAI/微美全息AI创新跃升赋能千行百业变革

Meta推出开源模型V-JEPA2，帮助AI理解3D环境和物理规律；OpenAI发布最强推理模型o3-pro，在数学测试中超越Google Gemini2.5Pro；苹果宣布将推出全新智能模型，扩展语言支持并开放开发者访问；微美全息凭借技术积累在大模型、多模态智能等领域取得突破。全球科技巨头加速布局AI前沿领域，推动AI与教育、金融等重点行业深度融合，赋能产业升级。

Meta V-JEPA2 人工智能
荐AI日报：美团No Code平台免费开放；豆包App升级“一句话P图”功能；苹果Xcode 26内置ChatGPT等AI功能

本文介绍了AI领域多项重要进展：1)美团推出No Code平台和1680个AI应用；2)豆包App升级"一句话P图"功能；3)苹果发布内置ChatGPT的Xcode26开发工具；4)iOS26新增视觉智能功能；5)讯飞星火X1升级版即将发布；6)比亚迪接入阿里通义大模型；7)DeepSeek支持本地工具调用；8)开源框架Rowboat支持快速构建智能助手；9)X平台整合Grok AI优化内容推荐；10)港科大开发进化搜索技术提升小模型图像生成能力；11)硅基流动完成数亿元融资；12)港大与英伟达合作开发新型视觉注意力机制。这些创新展示了AI技术在各领域的快速发展和应用突破。

人工智能 AI产品应用大语言模型

热文

3 天
7天

AI视野：字节发布视频模型MagicVideo-V2；OpenAI推出自定义GPT商店；Midjourney将上线一致性角色生成功能；Steam允许平台发布AI游戏

荐AI日报：Midjourney重磅推出视频生成模型V1；OpenAI将在今年夏季发布GPT-5；谷歌推Search Live语音搜索功能

荐AI日报：ChatGPT支持MCP和会议记录功能；Cursor 1.0 版本重磅发布；Midjourney视频功能将在本月上线

免费使用！荣耀MagicPad 3平板首发AI PPT功能：自动生成

OpenAI奥特曼：GPT5预计今年夏季发布

Baidu Steamer-I2V推动视频生成技术突破，擎舵平台赋能原生创意营销

荐AI日报：豆包大模型1.6发布；OpenAI推o3-pro模型、o3价格暴降80%；Figma官方MCP重磅上线

荐AI日报：腾讯混元3D 2.1大模型开源；字节跳动AI Lab负责人李航卸任；OpenAI Codex 全新升级

荐AI日报：MiniMax推视频生成模型Hailuo 02；Cursor Pro取消500次请求限制；谷歌发布AI模型 Gemini 2.5 Flash-Lite

Meta V-JEPA 2模型来袭，OpenAI/微美全息AI创新跃升赋能千行百业变革

荐AI日报：美团No Code平台免费开放；豆包App升级“一句话P图”功能；苹果Xcode 26内置ChatGPT等AI功能

热文

小米汽车回应YU7是否难破窗：无需担心随车赠送破窗锤

特斯拉中国宣布Model 3/Y长续航版续航提升

小鹏G7官宣7月3日发布全球首款L3级算力车型

安克修改召回方案充电宝泡盐水处理后可获赔

董明珠说自己尽量少说话让年轻管理团队走向台前

小米YU7将开启限时改配非准现车锁单用户可参与

小米股票上热搜：盘中股价突破60港元创历史新高

小米汽车回应YU7是否难破窗：无需担心随车赠送破窗锤

特斯拉中国宣布Model 3/Y长续航版续航提升

小米YU7 3分钟大定突破200000台雷军：YU7订单要高于SU7

京东回应外卖员帮扔垃圾每单0.5元：小范围测试未正式上线

小鹏G7官宣7月3日发布全球首款L3级算力车型

雷军说特斯拉确实了不起：引领了行业趋势尤其是FSD

荣耀正式启动A股IPO 获上市辅导备案

安克修改召回方案充电宝泡盐水处理后可获赔

董明珠说自己尽量少说话让年轻管理团队走向台前

站长商机