AI日报：可灵AI API对口型能力全面开放；豆包大模型宣称追平GPT-4；百度2024年度AI提示词“答案”；通义千问视觉模型直降80%

2024-12-31 15:08 · 来源： AIbase基地

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、可灵AI API对口型能力全面开放、虚拟试穿升级至V1.5模型

北京快手科技有限公司近日宣布可灵AI（Kling）API完成新一轮升级，主要在虚拟试穿和对口型功能上取得显著进展。升级后的V1.5模型支持“上装+下装”组合服装，提升了试穿体验的真实感。同时，对口型能力的全面开放，使得生成的视频内容更加生动，带来了全新的创作可能性。这些技术进步将为电商、广告营销等领域的客户提供强大的支持，推动视觉内容的创新与发展。

【AiBase提要:】
👗 可灵AI的V1.5模型支持组合服装，提升虚拟试穿的真实感与实用性。
🎤 对口型能力全面开放，实现视频人物口型与配音的完美同步。
🚀 升级将助力企业用户在业务增长上迈出新的步伐，推动视觉内容创新。

2、豆包大模型宣称已追平GPT-4，首次披露300万长文本能力

字节跳动旗下的豆包大模型在2024年度技术进展报告中宣布，其最新版本Doubao-pro-1215在综合性能上已与GPT-4全面对齐，并在某些专业领域表现更为出色。这一进展标志着中国大模型技术的崛起，显示出其在理解精度和生成质量上的显著提升，尤其是在复杂场景中超越了GPT-4，同时提供了更具竞争力的服务价格。

【AiBase提要:】
🚀 豆包大模型在综合性能上已与GPT-4全面对齐，并在部分专业领域表现更强。
💡 通过优化数据处理和创新模型架构，豆包在理解精度和生成质量上取得显著进步。
📚 首次公开300万字的超长文本处理能力，处理延迟控制在15秒以内。

3、智谱深度推理模型 GLM-Zero 预览版上线

智谱华章科技有限公司在年度收官时发布了其首个基于扩展强化学习技术的推理模型GLM-Zero的初代版本GLM-Zero-Preview。该模型专注于提升AI在数理逻辑、代码编写等领域的推理能力，表现出色。尽管与OpenAI的模型仍有差距，但公司计划持续优化，扩展其应用领域。用户可以在智谱清言平台体验该模型，开发者也可通过API调用。

微信截图_20241231095302.png

【AiBase提要:】
🚀 GLM-Zero-Preview专注于提升AI的推理能力，尤其在数理逻辑和代码编写方面表现出色。
🛠️ 用户可在智谱清言平台免费体验GLM-Zero-Preview，支持文字和图片上传，输出完整推理过程。
📈 随着训练量增加，GLM-Zero-Preview在深度推理方面的效果稳步提升，展现了强化学习的重要性。
详情链接:https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh

4、百度发布2024年度AI提示词——“答案”

在2024年的尾声，百度发布了年度AI提示词“答案”，反映了人们对AI的依赖与期待。随着人们频繁向AI寻求解答，诸如“答案”、“为什么”等词汇揭示了社会情绪与个人困惑。百度通过分析高频提示词，展示了AI如何融入人们的日常生活，成为思考与情感的寄托。

【AiBase提要:】
🤖 AI成为人们生活中寻求答案的重要工具，反映了社会的情感与迷茫。
🔍 高频提示词揭示了人们在生活、工作与情感方面的普遍问题与渴望。
🌟 百度强调AI将继续作为人类的伙伴，共同探索未来的可能性与未知领域。

5、通义发布2024年轻人AI使用趋势报告:85、90后关注AI比例更高

根据《2024年轻人AI使用趋势报告》，AI的应用已广泛渗透到生活的各个层面，尤其在工作、学习和创意表达中备受关注。95后、女性及企业管理者对AI的关注度最高。超过80%的受访者表示对AI工具保持高度关注，近一半的受访者每天使用AI，显示出AI已成为生活中不可或缺的一部分。

【AiBase提要:】
🧑‍🎓95后、女性和企业管理者对AI的关注度显著上升，超过80%的受访者高度关注AI工具。
🎨 AI被广泛应用于创意表达和娱乐活动，年轻人乐于尝试AI生成内容。
🔍 尽管对AI的期待增加，但人们对数据隐私的关注也在上升，需保持警觉。

6、OpenAI CEO公布2025年新技术产品，AGI 、成人模式引发热议

OpenAI首席执行官Sam Altman宣布将在2025年推出多项新技术产品，尤其是通用人工智能（AGI）和智能体功能，吸引了广泛关注。新产品的发布体现了OpenAI在人工智能领域的持续创新，尤其是针对用户反馈的响应，显示出公司对市场需求的敏感度。成人模式的推出引发了网友的热烈讨论，期待能带来更开放的内容生成体验。

【AiBase提要:】
🌟 OpenAI计划于2025年推出AGI、智能体等新产品，展示其在人工智能领域的持续创新。
💬 成人模式引起网友关注，期待提供更开放的内容生成体验。
📈 Altman的技术发布源于用户反馈，反映出OpenAI在产品开发中对用户需求的重视。

7、智元机器人开源全球首个百万真机数据集AgiBot World

智元机器人联合多方机构开源了AgiBot World数据集，这是全球首个基于真实场景的百万真机数据集，旨在推动人形机器人技术的发展。该数据集的规模和质量均超越了现有的同类产品，将极大促进机器人大模型的训练和应用。

【AiBase提要:】
🌍 AgiBot World是全球首个基于全域真实场景的百万真机数据集，支持泛化和通用的机器人大模型训练。
📦 数据集涵盖家居、餐饮、工业等五大核心场景，包含3000多种真实物品和80多种技能视频。
📈 智元机器人计划未来开源千万仿真数据，推动人形机器人技术的广泛应用。
详情链接:https://github.com/OpenDriveLab/agibot-world

8、Hugging Face 推出 SmolAgents:三行代码打造智能代理，简化AI开发

Hugging Face的SmolAgents工具包为AI开发带来了革命性的变化，使得智能代理的创建变得前所未有的简单和高效。通过仅仅三行代码，开发者可以利用预训练模型快速构建功能强大的智能代理，极大地降低了开发门槛。SmolAgents的轻量级设计和直观API使得各个技能水平的开发者都能轻松上手，快速完成任务。

【AiBase提要:】
🚀 SmolAgents通过三行代码简化智能代理的创建，降低了开发门槛。
📊 该工具包利用预训练模型，支持语言理解、智能搜索和动态代码执行等功能。
💻 SmolAgents适用于各种开发场景，快速完成任务，适合个人开发者和小型团队。
详情链接:https://github.com/huggingface/smolagents

9、上海市新增9款已完成登记的生成式人工智能服务

上海市网信办近期发布公告，新增9款生成式人工智能服务的登记，旨在推动本市生成式人工智能的创新与规范应用。此次登记工作使总登记数量达63款，强调所有上线服务需标明上线编号，以提升透明度和用户信任。新登记的服务包括无忧智面、AI同步口语练等，旨在为用户提供更安全可靠的服务环境。

【AiBase提要:】
📈 上海市新增9款生成式人工智能服务，登记总数达到63款，促进行业健康发展。
🔍 所有上线的生成式人工智能应用必须标明上线编号，提升服务透明度。
💡 新增服务包括无忧智面、AI同步口语练等，旨在为用户提供安全、可靠的使用体验。

10、超贵!OpenAI o3模型单次查询竟高达1000美元!

OpenAI最近推出的o3AI模型被认为是其最强大的人工智能产品，但运行成本令人咋舌，单次任务费用超过1000美元。o3在ARC-AGI基准测试中表现优异，得分达到87.5%，几乎是前一代o1模型的三倍。然而，这种显著的性能提升伴随着巨大的开销，使得业界对其经济性产生了担忧。

【AiBase提要:】
💸 o3AI模型的单次查询成本超过1000美元，显示出其运行的高昂费用。
📊 在ARC-AGI基准测试中，o3得分达到87.5%，几乎是前一代o1模型的三倍。
🔍 目前o3尚未向公众发布，预计“迷你版”将于明年1月推出。

11、Nvidia 成功收购 Run:ai 并决定开源其 GPU 管理软件

Nvidia 最近完成了对以色列软件公司 Run:ai 的收购，旨在提升 AI 云计算的管理效率。虽然具体收购金额未披露，但该交易价值约为7亿美元。Nvidia 宣布将开源 Run:ai 的软件，以支持更广泛的 AI 生态系统。Run:ai 的软件能够高效调度 Nvidia GPU 资源，优化 AI 运算性能。

【AiBase提要:】
🌟 Nvidia 完成对 Run:ai 的收购，并宣布将开源其软件，以促进 AI 技术的发展。
💻 Run:ai 的软件能有效调度 Nvidia GPU 资源，提升 AI 运算效率。
🤝 Run:ai 将继续为客户提供支持，致力于最大化 AI 基础设施的使用效率。

12.阿里云再度降价：Qwen-VL 大模型全面降价 1 元可处理 600 张图片

阿里云再次降低大模型 Qwen-VL 的价格，降幅超过 80%。此次降价后，用户只需 1 元即可处理 600 张 720P 图片或 1700 张 480P 图片。Qwen-VL 系列模型因其强大的视觉理解能力而广受欢迎，适用于多种终端设备。阿里云的降价主要得益于基础设施优化和模型调用量增长。

【AiBase 提要：】
🌟 阿里云 Qwen-VL 系列模型降价超过 80%，性价比显著提升。
🚀 1 元可处理 600 张 720P 图片，极大降低用户成本。
💡 新的 KV Cache 计费模式进一步减少 API 使用费用。

相关推荐

荐AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”发布；谷歌推全新Gemini 2.5 Flash图像编辑模型

本文汇总了AI领域最新动态：谷歌推出Gemini 2.5 Flash图像编辑模型，字节发布Waver 1.0视频生成工具；百度“梯子AI”提供无广告搜索；文心快码新增终端编码功能；腾讯游戏VISVISE工具集提升动画制作效率；自动驾驶配送机器人RM5进军外卖行业；DeepSeek V3.1出现字符Bug已修复；谷歌翻译升级实时同传和AI陪练；全球首现AI勒索软件PromptLock威胁网络安全；Anthropic推出Chrome浏览器AI助手Claude。

AI Gemini 2.5
百度正式发布AI搜索APP“梯子AI”：主打无广告智能搜索！

百度旗下的AI搜索AppTizzy.ai”已完成了前期的测试，并正式更名为梯子AI”上架。这款应用最初于8月10日发布，当时名称为Tizzy.ai”，更新后版本号从1.0.0直接跳至1.2.0。据介绍，梯子AI定位为智能搜索助手，依托百度多个大模型能力开发而成，主打无广告智能搜索，整合深度思考、资源检索及影视娱乐功能，致力于为用户提供简单搜索，一触即达”的极致体验。

AI搜索智能助手百度大模型
itc保伦股份荣获音响行业“2024年度十大优秀公共广播品牌”奖项

ITC保伦股份在“2024年度音响行业十大优秀品牌评选”中荣获“十大优秀公共广播品牌”奖项。该公司凭借卓越的公共广播产品、强大的技术研发实力及丰富的项目经验，在众多品牌中脱颖而出。ITC深耕行业30余年，自主研发覆盖公共广播、IP广播、消防应急广播等数十款产品，广泛应用于政府、教育、文体场馆等领域，市场占有率领先。其AI定向广播系统采用先进声学技术，实现精准声音管理，有效解决校园噪音等问题。未来，ITC将继续坚持创新，推动行业高质量发展。

音响品牌评选音响行业品牌认知度
2024年提升工作效率的必备AI工具精选清单（附终极挑选攻略）

在AI工具泛滥的当下，许多人陷入效率困境：安装大量应用却效率不降反升。关键在于选择真正适合的工具，而非数量。好工具需匹配需求、成本预算及易用性。AIbase.cn作为导航平台，通过场景化分类、智能筛选和对比功能，帮助用户高效定制专属工具清单，从“喂鱼”变为“教钓鱼”，提供持续适用的方法论。

AI工具选择工作效率需求匹配
2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架，强调需超越单一指标崇拜，基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析，展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程，采用专业工具进行多维度评估，通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型，而非盲目追求流行模型。
荐AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音识别大模型Fun-ASR

AI日报栏目汇总近期AI领域重要进展：腾讯元宝接入DeepSeek V3.1提升智能助手能力；即梦AI推出多帧功能简化视频制作；可灵AI首尾帧功能升级效果提升235%；钉钉与通义实验室联合发布Fun-ASR语音识别大模型；腾讯CodeBuddy IDE国内版公测；Vercel发布AI Gateway简化模型调用；Anthropic整合Claude Code强化企业开发；阿里发布Mobile-Agent-v3突破GUI自动化；Qoder平台革新编程模式；清华团队GUAVA框架实现0.1秒3D化身生成；谷歌搜索新增AI Agent功能；VAST推出Tripo 3.0推动3D内容创作。

AI 腾讯元宝 DeepSeek
百度第一！百度智能云一见领跑视觉大模型赛道

IDC最新报告显示，百度智能云凭借"文心一言4.5"多模态大模型和"文心X1"深度思考模型，在视觉大模型领域综合实力排名第一。其智能云平台在算法模型、工程化落地、行业覆盖等方面优势显著，已服务餐饮、钢铁、电力等20多个行业，帮助数百家企业实现生产全环节的数字化管理。典型案例包括：为风电集团构建安全管控系统，巡检效率提升6-10倍；与中钢研合作金相分析模型，检测准确率达95%；助力连锁餐饮实现全国1000+门店服务质量量化管理，订单覆盖率从5%提升至95%。通过"云端大模型+边缘小模型"的协同架构，在保障精度的同时大幅降低应用成本，推动专业级视觉AI应用普及。

视觉大模型 IDC报告百度智能云
宜人智科携“智语大模型”惊艳WAIC，展示AI赋能千行百业新成果

宜人智科作为AI驱动的数智化科技服务商，近期在世博中心展区展示多项前沿成果，全面呈现其在人工智能领域的创新实力与应用突破。公司CEO唐宁出席行业论坛，分享AI技术助力企业智能化转型的实践路径，展望AI在企业数智化进程中的新方向。宜人智科重点构建超级智能体平台，打造高效“硅基同事”，并推广“人人皆可AI”文化，通过自研工具提升工作效率。其自主研发的

人工智能数智化 AI技术
荐AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

本期AI日报聚焦多项技术突破：阿里通义万相发布Wan 2.2-S2V模型，实现视频音频同步生成；字节跳动研发3D模型生成工具，降低建模门槛；面壁智能推出MiniCPM-V4.5端侧多模态模型；苹果提出RLCF训练法提升模型性能；微软开源VibeVoice-1.5B支持超长语音合成；谷歌Imagen 4正式上线；英伟达发布Jetson Thor机器人计算平台；Genspark推出AI Designer一键生成品牌方案；豆包上线未成年人保护模式。

AI视频生成多模态AI 阿里通义万相
问道未有穷期星海即是归途 | 2025百度商业AI技术创新大赛圆满收官

2025百度商业AI技术创新大赛圆满落幕，聚焦AI技术与商业实践深度融合。赛事吸引2500多支队伍参与，覆盖广告生成式序列化推荐、视频生成推理优化等三大赛道。高校团队表现亮眼，重庆邮电大学、西安电子科技大学等获一等奖。大赛推动产教融合，展现AI在商业应用的前沿突破，助力青年创新者实现技术思维转变，共同期待AI赋能个性化表达与创意平权未来。

AI技术创新商业生态多模态技术

今日大家都在搜的词：

热文

3 天
7天

AI日报：可灵AI API对口型能力全面开放；豆包大模型宣称追平GPT-4；百度2024年度AI提示词“答案”；通义千问视觉模型直降80%

荐AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”发布；谷歌推全新Gemini 2.5 Flash图像编辑模型

百度正式发布AI搜索APP“梯子AI”：主打无广告智能搜索！

itc保伦股份荣获音响行业“2024年度十大优秀公共广播品牌”奖项

2024年提升工作效率的必备AI工具精选清单（附终极挑选攻略）

2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

荐AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音识别大模型Fun-ASR

百度第一！百度智能云一见领跑视觉大模型赛道

宜人智科携“智语大模型”惊艳WAIC，展示AI赋能千行百业新成果

荐AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Generator；微软开源 VibeVoice-1.5B 模型

问道未有穷期星海即是归途 | 2025百度商业AI技术创新大赛圆满收官

今日大家都在搜的词：

热文

AI日报：钉钉十周年发布8.0版本；微信悄悄上线AI播客；阿里开源

iPhone17Pro爆料汇总：橙色版本成最大亮点或迎12项升级

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

20周年版iPhone或成苹果首款曲面机：一体环绕玻璃+曲面机身

24. 98 万起标配华为ADS 4！鸿蒙智行智界 R7 车型上市

小米澎湃OS3发布会官宣首批Beta版招募机型公布

AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Ge

罗永浩播客节目爆火：24小时播放量超2000万晒成绩单求合作

字节跳动回应即将发布AI眼镜：早期探索阶段没有发布计划

vivo Y500定档9月1日发布配备8200mAh巨无霸电池

AI日报：钉钉十周年发布8.0版本；微信悄悄上线AI播客；阿里开源

iPhone17Pro爆料汇总：橙色版本成最大亮点或迎12项升级

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

罗永浩泡面1小时销售额超280万 2小时售罄：一桶近10元

20周年版iPhone或成苹果首款曲面机：一体环绕玻璃+曲面机身

AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音

24. 98 万起标配华为ADS 4！鸿蒙智行智界 R7 车型上市

小米澎湃OS3发布会官宣首批Beta版招募机型公布

李国庆婚礼收到11万余元善款受助学生寄来祝福

AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Ge

站长商机