首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报:可灵Avatar 2.0 上线;谷歌推出Gemini 3 Deep Think模式;阿里云析言 XiYan-SQL 强势夺冠

2025-12-05 16:16 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、KlingAI Avatar 2.0 上线即爆火:5 分钟唱跳一键生成,数字人正式告别“面瘫”时代

KlingAI Avatar 2.0通过多模态导演模块实现从音频到情感表演的智能跃迁,显著提升数字人的表情和动作表现力,为短视频、电商广告与教育内容等领域带来革命性影响。

【AiBase提要:】

✨ Avatar2.0通过多模态导演模块将音频、图像和文本提示转化为连贯故事线。

💡 在表情控制和动作设计上实现质的飞跃,避免早期AI人物的“面瘫”感。

🚀 支持48fps超高帧率与1080p高清输出,用户可通过平台免费试用基础功能。

详情链接:https://app.klingai.com/cn/ai-human/image/new

2、谷歌推出 Gemini 3 Deep Think 模式,AI 推理能力显著提升

谷歌推出了 Gemini 3 Deep Think 模式,显著提升了 AI 的推理能力,特别是在处理复杂的数学、科学和逻辑问题方面。该模式在多个基准测试中表现出色,例如在“人类最后的考试”中取得了41.0%的成绩,而在 ARC-AGI-2 测试中使用代码执行时达到了45.1%。这一改进得益于其先进的并行推理技术,能够同时探索多个假设。Ultra 订阅用户可以通过简单的操作体验这一功能,进一步推动 AI 技术的发展。

image.png

【AiBase提要:】

🧠 Gemini3Deep Think 模式正式推出,提升推理能力,专注于复杂问题。

📊 在严格基准测试中表现卓越,未使用工具时得分41.0%,使用代码时更达45.1%。

🚀 Ultra 订阅用户可通过简单选择体验这一强大模式,推动 AI 技术进步。

详情链接:https://blog.google/products/gemini/gemini-3-deep-think/

3、豆包手机助手发布调整公告:AI 操作能力将进入规范化阶段

豆包手机助手发布调整公告,宣布将对AI操作手机的部分能力进行规范化调整,以维护平台生态和金融安全。

image.png

【AiBase提要:】

📱 AI操作手机功能需用户主动授权,执行过程中可随时终止

🔒 限制AI在App内进行刷分或刷激励的自动化操作

💰 进一步限制银行及互联网支付等金融类应用的代操作行为

4、微软发布 VibeVoice 0.5B:仅0.5B参数却实现300毫秒实时开口

微软发布全新实时文本转语音模型 VibeVoice-Realtime-0.5B,其小巧的体积和强大的性能为 AI 语音交互带来了新的可能性。该模型不仅支持中英文实时转录与语音生成,还能在多角色对话中保持各自独特的语气、节奏和音色特征,同时具备情感表达和上下文记忆能力,使语音更加自然真实。

image.png

【AiBase提要:】

🧠 模型规模小但性能强,仅0.5B参数即可实现接近实时的语音生成。

🗣️ 支持中英文实时转录与语音生成,且能自然呈现多角色对话场景。

💡 具备情感表达和上下文记忆能力,使语音更贴近真人表达。

详情链接:https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B

5、Android XR 特别发布会前瞻:Gemini 驱动智能眼镜首秀,谷歌能否借“空间计算”扳回一城?

文章介绍了谷歌即将举办的《The Android Show:XR Edition》特别发布会,重点展示了 Android XR 平台的软件更新与硬件生态,包括软件底座升级、硬件生态亮相以及开发者与可用性等内容。

image.png

【AiBase提要:】

🧠 软件底座升级,系统响应速度与多设备协同能力优化,第三方开发者工具链同步更新,降低硬件厂商适配成本。

👓 硬件生态亮相,三星 Galaxy XR 头显将现身演示,智能眼镜原型机或首次公开。

🚀 开发者与可用性,直播后开放技术文档与回放,Android XR SDK 将加入 Gemini Runtime。

6、最强编码模型上架!GPT-5.1-CodexMax 现已接入响应 API

OpenAI 宣布其最新最强大的代理编码模型 GPT-5.1-CodexMax 已全面接入响应 API,允许开发者将这一顶级编码智能直接整合到现有应用和生产工作流中。该模型在复杂任务分解、代码生成质量、多步骤推理与自主代理执行能力方面有显著提升。通过 API 的正式开放,开发者无需等待即可在更广泛的环境中调用这一旗舰级模型。使用 API 密钥调用 CodexCLI 的用户也已同步获得 GPT-5.1-CodexMax 的访问权限。OpenAI 表示,此次更新旨在进一步降低高性能 AI 编程能力的接入门槛,让更多产品和服务能够拥有“随时可写、自动纠错、自主执行”的编程助手体验。

【AiBase提要:】

🧠 GPT-5.1-CodexMax 是 OpenAI 最新推出的强大编码模型,能够提升复杂任务分解和代码生成质量。

🚀 该模型已全面接入响应 API,开发者可直接整合到现有应用和工作流中。

💡 OpenAI 表示此次更新旨在降低高性能 AI 编程能力的接入门槛,让更多产品和服务拥有编程助手体验。

7、阿里云析言 XiYan-SQL 强势夺冠,全球 SQL 诊断评测榜单第一

阿里云飞天实验室自主研发的数据分析智能体“析言 XiYan-SQL”在BIRD-CRITIC评测中表现优异,成功登顶所有开放榜单,超越多家国内外顶尖团队,刷新了SQL诊断与修复的行业纪录。该评测涵盖了MySQL、PostgreSQL、SQL Server、Oracle等主流数据库系统,题目包括简单查询和复杂操作,整体难度远高于传统测试。析言 XiYan-SQL通过创新手段提升了模型的可执行性和可维护性,并已在阿里云百炼平台上线,提供SQL生成与诊断服务。

image.png

【AiBase提要:】

✅ 析言 XiYan-SQL 在 BIRD-CRITIC 评测中斩获第一,超越众多顶尖团队。

📊 该评测涵盖多种主流数据库,难度高于传统 SQL 生成测试。

💻 相关技术和模型已开源,支持开发者进行体验与贡献。

8.高德上线“AI 停车雷达”:分钟级预测车位空闲,北京已率先覆盖

高德地图推出全新‘AI 停车雷达’功能,通过空间智能感知与 AI 视觉分析技术,实现对城市道路车位占用情况的分钟级推演与动态可视化。该功能已在北京市上线,覆盖数万个道路停车位,标志着导航类应用从‘帮你开到目的地’迈向‘帮你找到停车位’的完整服务闭环。

亮点提要:

🚗 高德地图发布‘AI 停车雷达’功能,提升停车效率。

🌆 北京率先上线,覆盖全市数万个道路停车位。

📊 该功能推动城市停车资源数字化进程,助力智慧交通体系建设。

详情入口:🔗 https://www.chinaz.com/ainews/23426.shtml

举报

  • 相关推荐
  • AI日报:字节推StoryMem系统;月之暗面再推多模态新模型;AI眼镜Pickle 1发布

    本期AI日报聚焦多项AI领域进展:字节跳动推出StoryMem系统,提升AI生成视频角色一致性28.7%;月之暗面计划2026年推出多模态模型K2.1/K2.5;智能眼镜Pickle 1实现“无限记忆”与主动交互;清华与OpenBMB开源音频模型评测框架UltraEval-Audio;OpenAI押注语音交互,整合团队重构音频系统;开源工具Antigravity支持多账号切换,突破AI使用限制;元象开源面向泛娱乐场景的大模型XVERSE-Ent;苹果回应“国行版AI功能阉割”传闻,提醒用户勿通过第三方强行激活。

  • AI日报:阿里云推多模态交互开发套件;智谱AI港股首日上市;混元发布 HY-Motion1.0开源3D 角色动画生成模型

    阿里云发布多模态交互开发套件,集成通义千问、万相、百聆三大模型,赋能智能硬件。腾讯混元推出开源3D角色动画生成模型HY-Motion 1.0,助力游戏与动画制作。智谱AI在港上市,募资43亿港元,加速商业化落地。抖音在深圳南山设立第二总部,聚焦AI与泛视频研发。OpenAI推出ChatGPT Health,强化健康数据管理与隐私保护。法拉第未来宣布进军具身智能机器人领域,推动汽车与机器人业务协同。蚂蚁阿福月活超3000万,AI健康赛道进入中美竞速新阶段。MiroThinker 1.5以300亿参数实现媲美万亿模型的性能,显著降低推理成本。

  • 告别一次性消耗!京东数字人上线“直播间复刻”功能

    近日,京东官方数字人重磅上线数字人直播间复刻”功能。 该功能的核心突破在于实现了对真人直播场景的全维度、高保真还原。 据介绍,商家仅需上传一段真人直播视频素材,即可快速生成一个数字分身”,其在形象、声线、神态、直播间布景上均与真人主播高度一致。 它不仅能捕捉主播的容貌与声音,更能复刻其独特的语气节奏、微表情神态以及直播间的实景环境。

  • 它石智航 WIYH 数据集正式开源:全球首个具身 VLTA 多模态数据,加速具身智能真实世界落地

    它石智航开源了全球首个大规模真实世界具身多模态数据集WIYH,填补了高质量、可泛化、大规模真实世界数据的空白。该数据集采用以人为中心的新范式,破解了数据采集成本高、仿真数据迁移难等痛点,为具身基座模型实现Scaling Law提供了关键语料。WIYH数据集具备真实可靠、丰富多元、全面多模态、规模化等特征,并拥有海量数据,覆盖10余种核心场景全链路任务。它石还�

  • 海尔智家的数字化转型从AI辅助到AI主导

    12月26日,海尔智家在“启航·2025上市公司高质量发展年会”上分享了其数字化转型的演进路径:从“企业数字化+AI”向“AI+企业数字化”转变,即从AI辅助到AI主导。这一转变的核心在于人机共生重新定义员工工作方式,最终为用户创造最佳体验。AI在主导企业数字化运营中主要体现在四个维度:重塑服务流程,从被动响应到主动守护;升级客服体验,打造更懂用户的智能管家;变革生产运维,从定期保养到预测性维护;重新定义员工工作,为每位员工配备“超级助理”。海尔智家认为,AI的核心价值不在于替代人,而在于激发人的创造力和组织活力,打造数据驱动、人机共生的智能型企业。

  • 海尔智家重塑数字门店的交易模式

    面对消费多元化与线上线下融合趋势,海尔智家提出将传统门店升级为数字门店,通过AI技术重塑交易流程。此举旨在解决传统零售效率低、体验割裂等痛点,实现选品、设计、成交等全流程在线化,提升运营效率。目前该模式已覆盖近千家门店,用户满意度提升27.2%,2025年上半年数字化门店转化零售额达14.9亿元。这场以数字门店为核心的变革,或将成为家电零售回归服务本质的新起点。

  • AI手串、AI调香、AI照相机……AI养活小摊贩?

    在AI席卷各行各业的这一年,不少巨头在这条赛道上不断深耕,也有不少新兴公司应运而生。 而如今,这股AI风潮,也开始席卷大街小巷。从三亚红树林的AI艺术节,到深圳的AI切磋大会,再到上海交大徐汇校区的AI集市,AI正养活一群“小摊贩”。在这些摊点,你能看到高大上的人工智能产品,也能看到许多小玩意儿,从AI手串,到AI冰箱贴,再到AI写真……总之,但凡前缀有个

  • AI日报:阅文、中文在线推AI全栈工具;陌陌甜甜圈上线;OpenAI收购医疗初创公司Torch

    本期AI日报聚焦行业热点:OpenAI以约1亿美元收购医疗初创公司Torch,深化智能健康布局;Google Nano Banana Pro模型两月生成百亿图片,展现强大创意控制力;陌陌上线“甜甜圈”AI恋爱应用,瞄准Z世代情感陪伴需求;AI短剧工具井喷,阅文、中文在线等平台推动行业变革;Anthropic推出医疗合规AI助手Claude,赋能医患双方;谷歌Android XR眼镜应用曝光,支持3K视频与Gemini端侧对话;Adobe Firefly集成GPT-Image 1.5,开启不限量生成模式;Anthropic推出Cowork工具,降低AI代理使用门槛,让非技术用户也能高效处理复杂任务。

  • 海尔智慧楼宇数字化变革助力工厂提效30%以上

    央视报道海尔青岛中央空调互联工厂,作为工信部首批“领航级智能工厂”,通过全流程数字化升级,实现人工效率提升35%,交付周期缩短30%以上。工厂采用AI驱动的柔性生产模式,客户需求直接转化为云端数据,驱动AGV小车、工艺AI设计平台等智能设备,实现“客户需要什么,就造什么”的定制化生产。其核心产品磁悬浮中央空调节能效率达行业最高水平,已应用于全球多个项目。该工厂的数字化转型实践已形成可复制方案,在全球122家工厂推广,赋能上下游企业降本增效。

  • 上晚会、进演讲,AI竞争已经进入「大厂时间」

    这是《窄播Weekly》的第77期,本期我们关注的商业动态是:大厂AI应用出现在跨年晚会、跨年演讲上,明星AI创业公司有了新一波资本动作,整个AI行业的竞争已经进入了大厂主导的时间。 自从开启新一波AI浪潮的ChatGPT3.5选择在2022年11月发布以来,这几年的年末逐渐成为观察AI行业发展趋势的一个重要时间节点。 2024年末,OpenAI风头正盛,连续12日的直播发布拿出了一系列新产品�

今日大家都在搜的词: