AI视野：Midjourney开始训练视频模型；文心一言用户破亿；优酷上线“AI搜片”功能；快手开源KwaiAgents系统

2023-12-28 15:43 · 稿源：站长之家

📰🤖📢AI新鲜事

Midjourney开始训练视频模型

Midjourney昨晚发布了重要消息，将开始视频模型训练，同时计划下周推出V6版本的重大更新。该更新将在文本处理方面有显著进步，提高内容连贯性和提示准确性。重点改进包括Inpainting功能和全新的风格调整器，为V7版本的重大更新做准备。

【AiBase提要:】
🚀 视频模型训练启动: Midjourney宣布即将开始视频模型训练，拓展其领先地位。
🆕 V6版本重大更新: 下周V6版本将推出，带来文本处理方面的显著进步，包括Inpainting功能和全新风格调整器。
🔮 V7版本预告: Midjourney透露V7版本将是一次重大更新，预示在视频生成领域竞争中的强劲实力。

文心一言用户破亿

百度首席技术官王海峰在WAVESUMMIT大会上宣布，文心一言用户数量突破1亿，与飞桨开发者规模达到千万。

【AiBase提要:】
🚀 文心一言用户已突破1亿，自8月31日开放服务以来，用户提问量与模型效果同步提升。
🛠️ 文心一言作为百度核心技术之一，在语义理解和自然语言处理领域取得显著成就。
💻 与文心一言技术深度绑定的百度飞桨开发平台成功发展，开发者规模已超过千万，达到1070万。

三星新推AI智能冰箱

三星推出2024Bespoke4-DoorFlexRefrigerator，内置摄像头识别食物，App提供个性化食谱建议，32英寸触摸屏支持TikTok和YouTube，强化AI功能。

【AiBase提要:】
🌿 内置摄像头辨识食物，App提供个性化食谱建议。
📲 与Galaxy手机镜像，32英寸触摸屏支持TikTok和YouTube。
🍽️ 强化的AI功能，如视觉AI识别食物并提供更多定制化选项。

阿里发布《AIGC治理与实践白皮书》

阿里巴巴携手中国电子技术标准化研究院发布《AIGC治理与实践白皮书》。阿里强调在AI发展中建立防火墙，同时突破AI应用的天花板，与社会共同解决问题，推动AI造福更广泛人群。

【AiBase提要:】
🔥 发展防火墙: 阿里致力于在AI领域筑牢发展的防火墙，确保安全发展。
🚀 突破天花板: 阿里强调不断突破AI应用的天花板，迎接前所未有的挑战。
🤝 社会共创: 阿里betway体育注册努力与社会各界合作，共同利用AI技术解决社会难题，推动AI造福更多人。

《纽约时报》起诉微软和OpenAI

纽约时报起诉微软和OpenAI，指责它们侵犯版权、滥用报纸知识产权，要求数十亿美元的法定和实际损害赔偿。

【AiBase提要:】
📰 侵权指控:微软和OpenAI被指控侵犯《纽约时报》版权，滥用报纸知识产权用于训练ChatGPT语言模型。
🤝 合作寻求解决方案:OpenAI表示对起诉感到失望，强调与媒体机构的对话，寻求互利合作方式，但未透露具体细节。
🔍 AI模型竞争与商业机会限制:纽约时报指责微软和OpenAI的GPT模型与其内容直接竞争，同时改变内容限制了时报的商业机会，引发媒体机构对人工智能模型的担忧。

比尔·盖茨预测人工智能将引发技术爆炸

比尔·盖茨预测人工智能将在未来18至24个月内迎来广泛应用，特别关注其在发展中国家的应用，强调全球卫生领域的平等性。

【AiBase提要:】
💡 盖茨预测人工智能将在未来18至24个月内广泛应用，加速科技领域的新发现。
🌍 盖茨关注人工智能在发展中国家的应用，特别强调在全球卫生领域的平等性。
🚀 盖茨指出人工智能在教育、抗击疾病等方面的多个应用案例，强调应根据各国实际情况进行调整。

🤖📈💻💡大模型动态

深言科技“语鲸大模型”通过备案

深言科技的“语鲸大模型”已通过备案，具备强大的语义理解与文本生成、代码理解等能力，将在文本创作、数学计算、代码补全等领域向社会公众开放服务。

【AiBase提要:】
🐋 技术实力: 深言科技的“语鲸大模型”在中文理解和生成方面领先，80亿参数的LingoWhale-8B模型已在多个评测基准上达到领先效果。
📅 产业合作: 入选“北京市通用人工智能产业创新伙伴计划”，并与清华大学NLP实验室合作，致力于推动人工智能产业创新。
🌐 开源与商用: LingoWhale-8B模型已开源供学术研究免费使用，商业用途需申请授权，展示深言科技在大模型领域的技术实力。

字节发布AI模型DiffPortrait3D

DiffPortrait3D是字节跳动团队开发的条件扩散模型，通过零样本能力，从一张肖像图生成逼真、多样的3D面部视图，支持不定姿态、夸张表情和各种艺术风格。

【AiBase提要:】
🌐 独特技术:DiffPortrait3D采用2D扩散模型生成先验，结合条件控制模块、交叉视图注意力模块和3D感知噪声生成机制，实现多视角、野外场景下的高质量3D人像合成。
📸 零样本方法:通过零样本方法，DiffPortrait3D能够从单一肖像生成3D一致的新视图，支持不规定相机视角、极端面部表情和多样艺术描绘，无需繁琐微调。
🔬 综合优势:引入条件控制模块、交叉视图注意力模块和3D感知噪声生成机制，确保在合成图像中保持面部特征一致性，经过多视角和野外基准测试展现出逼真高质量的3D面部重建。

🤖📱💼AI应用

优酷上线“AI搜片”功能

一项全新的AI功能“AI搜片”在优酷上线，被称为全网首个AI对话类影视搜索引擎。用户可通过多轮对话实现模糊搜索、影视问答等功能，提升搜索体验，使影视内容查找更智能和个性化。

微信截图_20231228111602.png

【AiBase提要:】
🔍 优酷推出全新AI功能“AI搜片”——首个AI对话类影视搜索引擎。
🎙️ 用户通过对话实现模糊搜索、影视问答，无需具象问题即可完成搜索。
🌐 涵盖全网百万级影视剧实体信息，融合万亿条文娱相关知识词条，提升用户搜索体验。

👨‍💻💡🎯聚焦开发者

腾讯MotionCtrl正式开源

腾讯视频发布的MotionCtrl视频运动控制器正式开源，具有高度自定义相机和物体运动轨迹，实现精细多样化运动控制。

Demo:https://huggingface.co/spaces/TencentARC/MotionCtrl

项目地址:https://top.aibase.com/tool/motionctrl

【AiBase提要:】
🔄 MotionCtrl开源:腾讯视频发布的MotionCtrl视频运动控制器正式开源。
📹 多样化运动控制:项目可高度自定义相机和物体在3D空间的运动轨迹，实现更精细和多样化的运动控制。
🌐 架构优势:MotionCtrl独立控制摄像机和物体运动，考虑了它们的固有属性，提高了运动控制的灵活性。

快手开源KwaiAgents系统性能超越GPT-3.5

快手与哈尔滨工业大学联合研发的「KwaiAgents」系统成功开源，通过Meta-Agent Tuning方法提升7B/13B模型性能，超越了GPT-3.5。

项目地址:https://github.com/KwaiKEG/KwaiAgents

【AiBase提要】
🚀 开源项目优势: 快手联合哈尔滨工业大学开源「KwaiAgents」系统，包含轻量级AI Agents系统、通用能力大模型、自动化评测Benchmark，为研究者提供便利。
🔄 Meta-Agent Tuning方法: 通过MAT方法，引入更多Agent Prompt模板，提升大模型在任务规划、工具使用、反思等能力，避免过拟合问题。
📈 性能超越GPT-3.5: 经过MAT调优后，7B-13B模型在各项能力上显著提升，评测结果显示超越了GPT-3.5效果。

字节推图像分割项目UniRef++

UniRef++项目由字节公司推出，通过整合即参考图像分割、少镜头图像分割、参考视频对象分割和视频对象分割四种方式，利用UniFusion模块和SAM模型提高图像分割效率和精确度。

论文地址:https://arxiv.org/pdf/2312.15715.pdf

【AiBase提要】
🔍 UniRef++整合四种图像分割方式，实现自动选择最适合任务的分割方式。
🔄 UniFusion模块与SAM模型结合，进一步提高图像分割效率和精确度。
🚀 项目允许在广泛基准上进行联合训练，提高资源利用效率，实验结果显示在不同任务上取得先进性能。

（举报）

相关推荐

关键词：

Midjourney

荐AI日报：Midjourney重磅推出视频生成模型V1；OpenAI将在今年夏季发布GPT-5；谷歌推Search Live语音搜索功能

本期AI日报聚焦多项AI领域重要进展：1) Midjourney推出首款视频生成模型V1，支持21秒视频生成；2) OpenAI CEO确认GPT-5将于今夏发布；3) Google上线语音对话搜索功能Search Live；4) OpenAI开源客户服务代理框架；5) MiniMax发布智能代理Agent；6) 恶意工具WormGPT出现新变种；7) OpenAI推出企业版ChatGPT折扣；8) DeepSite V2支持3D网页动画生成；9) AI工具可秒变PPT；10) 比亚迪与字节跳动合作开发动力电池技术；11) 马斯克否认xAI巨额亏损传闻。

AI日报 Midjourney 视频生成模型
荐A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

AI日报栏目汇总了近期AI领域的重要进展：1)字节跳动开源EX-4D框架，可将单目视频转换为多视角4D视频；2)B站开源动漫视频生成模型AniSora V3，支持多种风格；3)DeepSWE+开源基于Qwen3-32B的AI Agent系统；4)字节开源3亿参数图像编辑模型VINCIE-3B；5)Stability AI推出移动端音频生成模型Stable Audio Open Small；6)谷歌发布免费教育AI工具套件Gemini for Education；7)Topview推出革命性AI数字人带货技术Avatar

人工智能 AI技术趋势 4D视频生成
荐Agent成了腾讯AI最大的牌面

抓住DeepSeek带来的契机扭转AI领域的竞争态势之后，腾讯围绕AI应用的布局正在快速深化。元宝、ima等原生AI应用是腾讯进行探索的最前线。腾讯元宝通过大规模市场投入获得用户增长后，继续拓展了更多能力，包括将元宝放入微信好友列表，打通与腾讯地图、腾讯文档的连接，以及上线Chrome浏览器插件。腾讯管理层目前还在观察用户对这些新增功能的反馈，判断哪些功能可以�

腾讯 AI应用元宝
荐如何用AI Agent让企业效率翻倍？

2025年5月，红杉资本AI峰会在旧金山落下帷幕。这场汇聚150位全球顶尖AI公司创始人的大会达成重要共识:下一轮AI竞争的核心不再是工具本身，而是为用户创造的实际收益。在此背景下，Agent的重要性被前所未有的推至所有人的视野前沿。硅谷大厂开启了第一波加速，微软CEO纳德拉在主题演讲中宣布:“我们已经进入了AI Agent时代，正在见证AI系统如何以全新方式帮助我们解决问�

AI峰会红杉资本 Agent时代
荐「6月27日AI日报」腾讯开源轻量级混元-A13B模型；可灵AI推“视频音效”功能

AI日报主要内容： 1. 腾讯开源混元A13B模型，采用MoE架构，总参数量800亿，激活参数130亿，支持低端GPU部署 2. 可灵AI推出"视频音效"功能，实现所见即所听的沉浸体验 3. Black Forest开源图像编辑模型FLUX.1Kontext，支持消费级硬件运行 4. OpenAI发布Deep Research API新模型o3/o4-mini，支持自动化网页搜索和数据分析 5. 小米推出1999元起AI眼镜，集成拍摄、支付、音乐等功能 6. 迅雷推出下载MCP服务，一句话指令让AI自动完成下载任务 7. HeyGen推出AI视频Agent，几分钟内生成专业级视频内容 8. 谷歌开源端侧多模态大模型Gemma3n，手机也能运行云端AI性能

腾讯混元模型开源AI
荐AI日报：阿里开源3D数字人项目MNN TaoAvatar；MiniMax Agent上线；罗永浩数字人直播再探“AI+IP”带货模式

本文汇总了AI领域最新动态：1）阿里开源MNN+TaoAvatar技术，实现手机端3D数字人实时交互；2）MiniMax升级AI工具Agent，新增智能图像搜索和多语言支持；3）罗永浩数字人将登陆百度电商直播；4）OpenAI员工套现近30亿美元，软银成最大接盘方；5）ChatGPT推出深度研究和语音模式升级；6）Meta发布V-JEPA2模型，提升机器人环境适应能力；7）AMD与OpenAI合作推出新一代AI芯片；8）Google Gemini集成Imagen4图像生成模型；9）谷歌AI实现10公里级精准天气预报；10）Gartner预测到2028年80%的AI应用开发时间将缩短50%。

人工智能虚拟现实 3D数字人
荐AI日报：通义千问3大模型全球爆火；即梦图片3.0智能参考全量上线；智谱AI企业级超级助手Agent CoCo上线

【AI日报】今日AI领域重要动态：1.通义千问3大模型全球下载量超1250万，衍生模型13万+；2.即梦图片3.0上线，AI设计进入"零门槛"时代；3.智谱AI发布企业级超级助手Agent CoCo；4.百度推出金融行业大模型"千帆慧金"；5.小红书开源首个大模型dots.llm1，含1420亿参数；6.Hugging Face开源LeRobot项目，降低机器人研发门槛；7.ChatGPT语音功能升级，支持更自然对话翻译；8.Google Gemini应用下载量超ChatGPT但活跃度不足；9.轻量级文档解析模型MonkeyOCR表现优异；10.Google Veo3推出高速视频生成模式；11.Google调整AI Studio政策，限制Gemini2.5Pro免费访问。

AI日报通义千问 AI产品应用
荐AI日报：MiniMax发布视频智能体Hailuo Agent；昆仑万维开源 Skywork-SWE-32B；B站接入Qwen 3等模型

本期AI日报聚焦多项AI领域创新：1)MiniMax推出视频Agent工具，支持文本生成高清视频及人脸驱动；2)昆仑万维开源Skywork-SWE-32B模型，提升软件工程任务表现；3)B站接入通义千问模型，推出数据分析智能体InsightAgent；4)ChatGPT深度整合Gmail与日历功能；5)腾讯云发布全链路AI开发平台"AI Builder"；6)HeyGen推出UGC广告数字人功能；7)研究显示过度依赖AI或削弱批判性思维。此外还涵盖AI音乐生成、内容检测工具停运等动态，展现AI技术快速发展的多元应用与潜在影响。

AI日报视频生成人工智能
可灵AI全系模型上线“视频音效”功能可同步生成高质量立体声音效

可灵AI宣布全系列视频模型上线“视频音效”功能，用户在使用可灵AI进行视频创作时，不仅能获得高质量的视频画面，更能体验到与视频精准匹配、富有空间感的立体声音效……

可灵AI 可灵可灵AI新功能
荐可灵AI离营收单月破亿，还有多远？

虽然嘴上没明说，但快手显然也不想在AI时代仍甘当短视频老二。因此，如今快手的财报会议上，AI占据了越来越多的篇幅，当然关键还是可灵AI的确争气。根据快手2025年一季度财报显示，可灵AI营收超过1.5亿元人民币。从2024年9月的单月千万流水，到2025年第一季度的季度1.5亿营收，换言之，7个月时间里可灵AI实现15倍的营收增长。

快手 AI 可灵AI

热文

3 天
7天

AI视野：Midjourney开始训练视频模型；文心一言用户破亿；优酷上线“AI搜片”功能；快手开源KwaiAgents系统

荐AI日报：Midjourney重磅推出视频生成模型V1；OpenAI将在今年夏季发布GPT-5；谷歌推Search Live语音搜索功能

荐A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

荐Agent成了腾讯AI最大的牌面

荐如何用AI Agent让企业效率翻倍？

荐「6月27日AI日报」腾讯开源轻量级混元-A13B模型；可灵AI推“视频音效”功能

荐AI日报：阿里开源3D数字人项目MNN TaoAvatar；MiniMax Agent上线；罗永浩数字人直播再探“AI+IP”带货模式

荐AI日报：通义千问3大模型全球爆火；即梦图片3.0智能参考全量上线；智谱AI企业级超级助手Agent CoCo上线

荐AI日报：MiniMax发布视频智能体Hailuo Agent；昆仑万维开源 Skywork-SWE-32B；B站接入Qwen 3等模型

可灵AI全系模型上线“视频音效”功能可同步生成高质量立体声音效

荐可灵AI离营收单月破亿，还有多远？

热文

华为Mate X5折叠屏降价：8999元起至高优惠4000元

微信：聊天记录备份和迁移已支持外部存储设备可自动备份

罗马仕辟谣倒闭称定将努力解决一切问题

特斯拉中国宣布Model 3/Y长续航版续航提升

华为Mate X5折叠屏降价：8999元起至高优惠4000元

董明珠说自己尽量少说话让年轻管理团队走向台前

小米YU7将开启限时改配非准现车锁单用户可参与

微信：聊天记录备份和迁移已支持外部存储设备可自动备份

罗马仕辟谣倒闭称定将努力解决一切问题

站长商机