AI视野：字节发布视频模型MagicVideo-V2；OpenAI推出自定义GPT商店；Midjourney将上线一致性角色生成功能；Steam允许平台发布AI游戏

2024-01-11 16:06 · 稿源：站长之家

欢迎来到【AI视野】栏目！这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

🤖📈💻💡大模型动态

字节跳动发布视频生成模型MagicVideo-V2

MagicVideo-V2是一种革命性的视频生成技术，集成了文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块，用于生成外观美观、高分辨率的视频，提供出色的保真度和平滑性。

【AiBase提要:】
⭐️ MagicVideo-V2集成了文本到图像模型、视频生成器和帧插值模块。
⭐️ 训练模块能够生成描述场景的图像，然后通过动画处理生成视频序列。
⭐️ MagicVideo-V2在视频生成领域具有前途，为高保真视频生成带来了积极影响。
项目地址:https://top.aibase.com/tool/magicvideo-v2

📰🤖📢AI新鲜事

OpenAI推出自定义GPT商店

OpenAI 在官网正式发布了自定义 GPT 商店，用户可以分享和寻找最流行、最好用的自定义 ChatGPT 助手。同时，推出了面向细分团队的产品 ChatGPT Team，支持团队协作。

微信截图_20240111075749.png

【AiBase提要:】
💡 自定义 GPT 商店涵盖多种类型的助手，如 DALL.E（生成图像）、写作、学术研究、编程、教育和生活等。每周上线新助手并推荐有影响力的产品。
🔍 目前最受欢迎的助手是 “Consensus”，可搜索2亿篇学术论文并提供准确引用。
💰 ChatGPT Team，支持32K 上下文，可访问最新模型，具备视觉、数据分析等功能。按年计费每月25美元，按月计费每月30美元。

Midjourney将于本月内上线一致性角色生成功能

Midjourney将于本月内上线一致性角色生成功能，为用户提供更快速的体验。Midjourney的图片生成质量一直是比较领先的，唯一的问题就是很难保持角色的一致性。这些新功能的推出将使Midjourney平台更加完善，为用户带来更好的使用体验。

QQ截图20240111094153.png

【AiBase提要:】
⭐ Midjourney将推出一致性角色生成功能，提供更快速的体验。
⭐ 图片生成质量一直领先，但难以保持角色一致性。
⭐ 推出新功能将使Midjourney平台更完善，提供更好的使用体验。

Steam允许平台发布大部分AI参与制作的游戏

Steam 对使用 AI 技术的游戏进行了政策上的调整，更新了内容调查并制定了审核标准，其中包括预生成内容和实时生成内容。

【AiBase提要:】
💡 更新内容调查和审核标准。
💡 推出全新系统让玩家举报游戏内违法的实时生成AI内容。
💡 更加开放对待AI技术的游戏发行，但不允许通过实时生成AI创建的色情游戏。

AI框架GauHuman:实现高质量3D人体快速重建和实时渲染

GauHuman在1~2分钟内完成建模，每秒渲染高达189帧，涵盖游戏、电影、虚拟现实等领域。

【AiBase提要:】
【🌐 S-Lab团队推出GauHuman】基于Gaussian Splatting实现高质量3D人体快速重建和实时渲染。
【⚡ 框架优势】1~2分钟内完成建模，每秒渲染高达189帧，应用前景广泛。
【🚀 技术原理】通过SMPL参数和神经网络处理单目人体视频，快速生成高质量3D数字人。
https://top.aibase.com/tool/gauhuman

OpenAI就授权内容与CNN、福克斯及时代周刊展开谈判

OpenAI就授权内容与CNN、福克斯及时代周刊展开谈判，以增强ChatGPT聊天机器人的产品。与多家媒体公司和News/Media Alliance进行谈判，以解决侵权指控问题。

【AiBase提要:】
⚖️ OpenAI涉嫌侵权，正与媒体公司进行谈判。
🗞️ OpenAI与行业组织进行对话，解决相关担忧。
📰 一系列事件后的谈判，解决侵权指控。

🤖📱💼AI应用

Contorlnet插件支持IPadapter FaceID 模型了

插件现在已经支持IPadapter FaceID模型的使用，这个模型是IPadapter Face的升级版本，能更好地还原人像特征到生成的图片中。

【AiBase提要:】
提高了人脸识别精准度，使用LoRA技术提高面部ID的一致性，仅通过文本提示生成各种风格的人脸图像。
提供FaceID的使用方法，需安装insightface并下载模型和Lora，用户可方便地使用IPadapter FaceID 模型。
发布ConTorlNetXS的优化版本，在图像生成方面性能得到极大提升，将推动图像生成领域的进一步发展和应用。
ControlNet 插件更新日志:https://github.com/Mikubill/sd-webui-controlnet/discussions/2442

👨‍💻💡🎯聚焦开发者

新语音转换技术CoMoSVC :速度飙升500倍，高质量歌声转换

近日，香港科技大学与微软亚洲研究院的研究团队联手开发的CoMoSVC技术在歌声转换领域取得了革命性突破。

【AiBase提要:】
⚙️ 快速采样: CoMoSVC的学生模型在保持音频质量的前提下，实现了高达500倍的推理速度提升。
🎶 平衡速度与质量: 该技术在速度和音频质量之间取得了平衡，为音乐娱乐等领域的实时应用带来了新的可能性。
🎵 歌声转换:CoMoSVC利用一致性模型，在保持音频质量的前提下，实现高速的音频采样，为歌声转换领域带来了重大突破。
论文网址:https://arxiv.org/abs/2401.01792
项目网址:https://comosvc.github.io/

Amphion音频生成工具包开源

上海AI实验室、香港中文大学数据科学院和深圳大数据研究院联合开源Amphion音频、音乐和语音生成工具包，帮助开发人员研究文本生成音频等。

【AiBase提要:】
上海AI实验室、香港中文大学数据科学院、深圳大数据研究院开源了音频、音乐生成工具包Amphion，解决生成模型黑箱、代码库分散、缺少评估指标等难题;
Amphion包含数据处理、通用模块、优化算法等基础设施;
Amphion内置文本到语音合成模型，包括FastSpeech2、Vall-E、NaturalSpeech。
开源地址:https://github.com/open-mmlab/Amphion

（举报）

相关推荐

关键词：

MagicVideo-V2

荐AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

本文介绍了AI日报栏目及近期AI领域多项突破性进展：1)智谱推出免费AI Slides工具，基于GLM模型快速生成高质量PPT；2)可灵AI发布可图2.1模型，支持180多种风格图像生成；3)NVIDIA推出DiffusionRenderer技术，实现视频到可编辑3D场景转换；4)墨刀AI新增30秒生成高保真原型功能；5)Higgsfield推出Soul ID工具，10张照片即可生成虚拟形象；6)谷歌DeepMind开源GenAI Processors工具库；7)谷歌Veo新增图像转视频功能；8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。
荐AI日报：百度发布“绘想”平台与MuseSteamer；阿里音频驱动全身数字人模型OmniAvatar

【AI日报】今日AI领域重要动态：1.开源语音大模型Step-Audio-AQAA发布，实现音频到语音的端到端自然转换；2.百度推出"绘想"平台与MuseSteamer，通过AI一键生成专业级视频；3.浙大与阿里联合发布OmniAvatar，音频驱动数字人技术取得突破；4.百度搜索迎十年来最大改版，新增智能框、百看和AI助手功能；5.xAI开发者控制台新增Grok4及Grok4Code引用，预示新一代AI模型即将发布；6.Gemin

人工智能语音识别开源模型
剑指谷歌Chrome！OpenAI即将推出AI浏览器

据媒体报道，OpenAI即将推出的AI浏览器，利用人工智能技术彻底重塑用户的网络浏览体验，直接向占据市场主导地位的谷歌 Chrome 发起挑战。凭借庞大的每周4亿活跃ChatGPT用户基础，OpenAI的浏览器若被广泛接纳，将对谷歌的广告生态系统、网络数据流和搜索流量构成实质性威胁。谷歌Chrome长期以来是Alphabet广告业务的基石，为其精准广告投放和将流量导向自家搜索引擎提供了关�
荐A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

AI日报栏目汇总了近期AI领域的重要进展：1)字节跳动开源EX-4D框架，可将单目视频转换为多视角4D视频；2)B站开源动漫视频生成模型AniSora V3，支持多种风格；3)DeepSWE+开源基于Qwen3-32B的AI Agent系统；4)字节开源3亿参数图像编辑模型VINCIE-3B；5)Stability AI推出移动端音频生成模型Stable Audio Open Small；6)谷歌发布免费教育AI工具套件Gemini for Education；7)Topview推出革命性AI数字人带货技术Avatar

人工智能 AI技术趋势 4D视频生成
Steam现已支持八位堂手柄，无需第三方驱动即连即玩

八位堂宣布旗下多款游戏手柄新增对Steam平台的支持，包括猎户座真无线PC版、《明末：渊虚之羽》联名手柄等型号。通过与Valve团队半年联合调试，升级了手柄驱动程序和功能模块，实现与Steam平台各类游戏的无缝对接。新手柄支持Steam输入API原生适配，具备键位映射、陀螺仪体感控制等功能，并支持跨平台配置文件管理。作为屡获国际设计大奖的外设品牌，此次深度适配既拓展了产品功能，也回应了玩家需求，为玩家带来更沉浸的游戏体验。

八位堂手柄 Steam平台适配游戏硬件
荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

【AI日报】今日AI领域重要动态：1)阿里开源支持链式推理的音频生成模型ThinkSound，实现高保真空间音频生成；2)谷歌Veo3升级，支持静态图片生成生动视频；3)Hugging Face发布30亿参数小模型SmolLM3，性能优于Llama-3.2-3B；4)阿里开源网络智能体WebSailor，展现强大推理和检索能力；5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5；6)Vidu Q1支持最多七张参考图像生成一致性视频；7)苹果�

人工智能音频生成链式推理
OpenAI披露GPT系列新进展，微美全息（WIMI.US）正加速AI技术融合与产业变革

OpenAI创始人Sam Altman宣布将推出开源大模型，性能远超业界预期，其强大的本地运行能力将极大推动AI技术普及。同时透露GPT-5将于今夏面世，支持语音、图像、代码等多模态输入。AI模型成本持续下降，微美全息等企业加速布局"AI+大模型"创新应用。中金指出，未来AI发展将呈现两大趋势：垂直领域定制化Agent需求增长，以及高质量场景数据价值凸显。2025年被视为AI应用大规模落地元年，但技术发展需兼顾创新与安全。

OpenAI GPT大模型 AI技术
荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

本文介绍了AI领域多项重要进展：1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen，显著提升建模效率；2)阿里发布多模态大模型HumanOmniV2，准确率达69.33%；3)钉钉AI表格实现1小时处理千项任务；4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级；5)微软推出Deep Research智能体，自动化研究流程；6)香港理工与OPPO联合开源视频超清框架DLoRAL；7)谷歌开源MCP工具箱简化AI与数据库集成；8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。
可灵AI全系模型上线“视频音效”功能可同步生成高质量立体声音效

可灵AI宣布全系列视频模型上线“视频音效”功能，用户在使用可灵AI进行视频创作时，不仅能获得高质量的视频画面，更能体验到与视频精准匹配、富有空间感的立体声音效……

可灵AI 可灵可灵AI新功能
免费使用！荣耀MagicPad 3平板首发AI PPT功能：自动生成

荣耀终端股份有限公司平板与IOT产品领域总经理@荣耀平板利用哥发文透露，荣耀MagicPad 3平板将首发AI PPT功能，可以将文档快速生产为用户想要的PPT。最重要的是他强调，所有这些功能，包含文档格式转化、AI PPT等都是免费的，而且会覆盖现有在售机型和存量平板。

荣耀MagicPad 3 AI

热文

3 天
7天

AI视野：字节发布视频模型MagicVideo-V2；OpenAI推出自定义GPT商店；Midjourney将上线一致性角色生成功能；Steam允许平台发布AI游戏

荐AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

荐AI日报：百度发布“绘想”平台与MuseSteamer；阿里音频驱动全身数字人模型OmniAvatar

剑指谷歌Chrome！OpenAI即将推出AI浏览器

荐A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

Steam现已支持八位堂手柄，无需第三方驱动即连即玩

荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

OpenAI披露GPT系列新进展，微美全息（WIMI.US）正加速AI技术融合与产业变革

荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

可灵AI全系模型上线“视频音效”功能可同步生成高质量立体声音效

免费使用！荣耀MagicPad 3平板首发AI PPT功能：自动生成

热文

AI日报：xAI 震撼发布Grok4；微软开源全新Phi-4-mini版本；上海

比特币首触112000美元：盘中涨幅最高达3%

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模

微信：持续打击非法使用外挂行为进一步强化外挂营销信息治理

小米回应AI眼镜没有屏显功能：专注拍摄、AI语音交互

荣耀X70支持IP66/IP68/IP69/IP69K 号称行业最高规格防水

REDMI Turbo 4 Pro粉金新配色发布售价1899元起

小米汽车交付超30万辆：用时仅15个月

OPPO K13 Turbo系列官宣将于7月21日发布内置散热风扇

小米回应小折叠未搭载玄戒O1：立项之初总量比较有限