AI日报：阿里通义开源多模态推理模型QVQ-72B；OpenAI考虑自研人形机器人；QQ音乐上线首个AI大模型音效

2024-12-25 15:23 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里发布多模态推理模型QVQ-72B!视觉、语言能力双提升

阿里巴巴最近推出的QVQ-72B多模态推理模型在语言和视觉能力上实现了显著提升，能够处理复杂的推理和分析任务，尤其在多步推理和数学推理方面表现突出。该模型的出现标志着阿里巴巴在多模态AI领域的重大突破，提供了新的工具和思路来解决复杂问题，推动各行业的智能化升级。

【AiBase提要:】
🧠 QVQ-72B模型融合了强大的语言和视觉能力，能够处理复杂的推理任务。
🔍 在物理和数学推理中，该模型通过多步推理显著提升了准确率，减少了错误。
📊 QVQ-72B在技术报告和图表分析中具备高效的信息提取能力，为专业人士提供强大支持。
详情链接:https://huggingface.co/spaces/Qwen/QVQ-72B-preview

2、投资三家机器人公司后 OpenAI欲自研人形机器人

OpenAI正在积极探索自研人形机器人，尽管曾在2021年关闭机器人部门。近期，该公司通过投资三家机器人公司，显著布局机器人领域。其旗舰模型O3在AGI测试中首次超越人类水平，为进军实体机器人提供了技术支持。然而，进入这一竞争激烈的市场，OpenAI可能面临利益冲突和硬件研发短板等挑战。

【AiBase提要:】
🤝 OpenAI投资三家机器人公司，积极布局机器人领域。
📈 旗舰模型O3在AGI测试中超越人类，技术优势明显。
⚠️ 面临市场竞争和硬件研发挑战，需快速补齐短板。

3、QQ音乐14.0版本上线，发布首个AI大模型音效、智能匹配听歌音效

QQ音乐14.0版本的推出标志着音乐体验的一个新高度，特别是引入的AI大模型音效。这一创新技术通过分析音频特征，为用户提供个性化的听觉体验，尤其在3D环绕音效方面表现出色。此外，伴唱功能的升级使得用户可以根据个人需求调节播放速度和音调，进一步增强了音乐互动的乐趣。

【AiBase提要:】
🎧 新推出的大模型音效通过AI技术提供个性化听觉体验，提升音乐的空间感和层次感。
🎤 伴唱功能升级，用户可自由调节伴唱模式、播放速度和音调，满足不同演唱需求。
🎨 多款个性化设置功能让用户选择不同样式，享受个性化的听歌体验。

4、讯飞星火浏览器插件新升级新增翻译总结、继续提问等AI功能

讯飞开放平台最近对其星火浏览器插件进行了重要升级，显著提升了用户的浏览体验和工作效率。新功能包括支持多语言的全局翻译、增强的网页总结能力以及“继续提问”功能，使用户能够深入讨论并获取更高质量的答案。此外，插件还提供了一键朗读功能，帮助用户提高外语口语水平。

【AiBase提要:】
🌐 新增的“继续提问”功能允许用户深入讨论，获取更高质量的答案。
📚 实现网页全局对照翻译，支持12种语言，打破语言障碍，提升阅读体验。
🎤 一键朗读功能帮助用户提高外语口语水平，增强学习效果。

5、字节开源 Midscene.js:AI驱动的E2E测试框架迎来突破

随着人工智能技术的迅猛发展，E2E测试领域正经历着一场创新的革命。字节跳动的web-infra团队推出的Midscene.js，结合多模态大语言模型，极大地简化了用户界面测试的过程。用户无需编写代码，通过自然语言即可与网页进行交互，提升了测试效率。

【AiBase提要:】
🛠️ Midscene.js通过自然语言与网页交互，简化了E2E测试流程。
⏱️ Shortest工具利用AI自动生成测试用例，减少重复性工作时间。
📈 AI技术的成熟使得基础E2E测试场景的自动化水平显著提升。
详情链接:https://github.com/web-infra-dev/midscene

6、DeepMind项目MegaSaM :输入普通视频即可预估相机视角和景深

MegaSaM系统的推出标志着计算机视觉领域的一次重大突破。该系统能够从普通动态视频中快速、准确地估计相机参数和深度图，克服了传统技术在动态场景中的局限性。通过对深度视觉SLAM框架的创新性修改，MegaSaM在复杂环境下的实时处理能力显著提高，实验结果显示其在准确性和效率上均优于以往技术。

【AiBase提要:】
🌟 MegaSaM系统能够从普通动态视频中快速、准确地估计相机参数和深度图。
⚙️ 该技术克服了传统方法在动态场景中的不足，适应复杂环境的实时处理。
📈 实验结果显示，MegaSaM在准确性和运行效率上均优于以往技术。
详情链接:https://mega-sam.github.io/#demo

7、字节TikTok算法负责人陈志杰或将离职，投身AI Coding方向创业

字节跳动的TikTok算法负责人陈志杰即将离职，计划专注于AI Coding领域的创业。自2022年加入字节跳动以来，他负责TikTok的推荐算法和数据科学团队，之前在百度积累了近九年的技术经验。随着AI Coding市场的快速发展，预计到2032年将超过295亿美元，吸引了众多投资者的关注。

【AiBase提要:】
🌟 陈志杰即将离职字节跳动，专注于AI Coding创业。
🚀 AI Coding市场前景广阔，预计到2032年将超295亿美元。
💡 国内市场投资人关注AI Coding，多个项目相继涌现。

8、Fireworks AI推出文档解析神器!AI轻松读懂复杂文件

Fireworks AI最近推出了“Document Inlining”功能，旨在解决处理非结构化文档的难题。该功能能够将PDF、截图和图像等文档转化为大语言模型可理解的结构化文本，显著提高了AI处理文档的效率和准确性。其核心在于强大的复合AI系统，能够自动识别和解析多种内容，操作简单且兼容OpenAI API，用户无需额外学习成本。

【AiBase提要:】
📄 高质量输出: Document Inlining提供的文本质量优于传统文本型LLM输出，尤其在推理和生成任务中表现出色。
📊 多种文档格式支持: 该工具支持PDF、图片等多种格式，能够准确提取复杂文档中的关键信息。
🔍 复杂文档解析能力: 能够解析含有表格和图表的复杂文档，并将其转换为LLM可理解的文本。
详情链接:https://fireworks.ai/blog/document-inlining-launch#quality-evaluation

9、果然最强!OpenAI 新模型o3在ARC-AGI基准测试得分破纪录

OpenAI最新发布的模型o3在ARC-AGI基准测试中取得了显著成绩，标准计算条件下得分75.7%，高计算版本更是达到87.5%。尽管这一成就震惊了AI研究界，但专家指出o3仍未达到通用人工智能（AGI）的标准。o3的计算成本高昂，解决每个谜题需17至20美元，且在某些简单任务上表现不佳。

【AiBase提要:】
🌟 o3在ARC-AGI基准测试中获得75.7%的高分，表现超越以往模型。
💰 o3解决每个谜题的成本高达17到20美元，计算量巨大。
🚫 尽管o3表现优秀，但专家们强调其尚未达到AGI的标准。

10、打错字也能 “越狱”GPT-4o、Claude:揭秘AI聊天机器人的脆弱性!

最近的研究揭示了先进AI聊天机器人在面对简单拼写错误时的脆弱性。通过一种名为“最佳选择（Best-of-N，BoN）越狱”的算法，研究人员发现，故意加入拼写错误可以让这些模型忽视安全防护，生成本应拒绝的内容。这一发现不仅突显了AI与人类价值观对齐的困难，也表明即使是高级AI系统也容易受到欺骗。

【AiBase提要:】
🔍 研究发现，通过拼写错误等简单技巧，AI聊天机器人可被轻易 “越狱”。
🧠 BoN越狱技术在多种AI模型中成功率达52%，有些甚至高达89%。
🎨 此技术在音频和图像输入中同样有效，显示出AI的脆弱性。

11、尴尬!谷歌被曝用Claude模型进行对比测试来改进Gemini AI

近日，谷歌的Gemini人工智能项目正在通过与Anthropic公司的Claude模型进行对比测试，以提升自身的性能。负责Gemini改进的承包商正在评估这两种模型的输出，比较的标准包括真实性和安全性。尽管谷歌是Anthropic的主要投资者之一，但谷歌发言人表示并未对Gemini进行Claude模型的训练。

【AiBase提要:】
🌟 Gemini正在与Claude进行对比测试，以提升自身AI模型的性能。
🔍 承包商负责评分，两者的回答比较涉及多个标准，包括真实性和安全性。
🚫 Anthropic禁止在未授权的情况下使用Claude进行竞争性模型的训练。

12、研究发现，OpenAI 的 o1-preview 在诊断复杂医疗病例方面优于医生

一项新研究表明，OpenAI 的 o1-preview 人工智能系统在复杂医疗案例的诊断上表现优于人类医生，达到了88.6%的准确率。该系统在医疗推理方面同样出色，获得了80个病例中78个满分。尽管o1-preview在某些方面表现优秀，但在实际应用中仍面临高成本和不切实际的测试建议等问题。

【AiBase提要:】
🌟 o1-preview 在诊断率上超过医生，达到88.6%的准确率。
🧠 医疗推理方面，o1-preview 在80个病例中获得78个满分，远超医生表现。
💰 尽管表现优秀，o1-preview 在实际应用中的高成本和不切实际的测试建议仍需解决。
详情链接:https://arxiv.org/abs/2412.10849

（举报）

相关推荐

关键词：

简知科技“简智AI大模型”通过国家生成式人工智能服务备案，助力兴趣教育迈向智能化新阶段

广州简知科技自主研发的“简智AI大模型”通过国家生成式人工智能服务备案，标志着该模型在安全性、合规性与可靠性方面达到国家级标准。作为兴趣教育领域AI应用的重要里程碑，该模型围绕用户兴趣成长周期设计，提供个性化学习支持：可为未明确兴趣方向的用户智能推荐内容，为入门用户规划学习路径，为基础扎实用户提供进阶训练与智能反馈。其技术能力在旗下“简小知”等品牌中已实现“学—练—评—测”全流程覆盖，并通过社群互动增强学习动力。公司未来将持续优化模型能力，联合行业伙伴构建完整培养体系，推动兴趣教育向个性化、高质量方向发展。

简智AI大模型生成式人工智能兴趣教育
卖家精灵加入中国人工智能产业发展联盟（AIIA），加速AI赋能跨境电商

卖家精灵凭借在跨境电商智能化运营与AI大数据应用领域的领先实力，近日正式加入中国人工智能产业发展联盟（AIIA），成为该国家级AI产业生态重要成员。此次加入标志着其AI技术实力获权威认可，未来将携手联盟推动AI技术研发与产业化，助力中国品牌全球化。依托八年积累的海量电商数据与算法体系，卖家精灵已构建覆盖选品决策、市场分析等全链路AI解决方案，服务超百万跨境卖家，显著提升运营效率与决策精准度。

人工智能跨境电商 AI大数据
人工智能巨头OpenAI拟上市估值或高达1万亿美元

OpenAI正积极推进上市计划，据知情人士透露，该公司可能最早于2026年下半年向证券监管机构提交上市申请，目标在2027年正式上市。此次IPO的估值有望达到约1万亿美元，或将跻身全球规模最大的IPO之列。在初步讨论中，OpenAI曾考虑通过上市筹集至少600亿美元资金，实际融资规模可能进一步扩大。

OpenAI IPO 上市计划
荐横扫拉美、力压字节系，「AI届的4399」成为出海AI应用新王？

在 Sensor Tower 发布的 Q3应用出海榜单中，我们注意到了一个特别的 AI 应用「Seekee」。它空降下载榜 Top9，是当季度在海外获得最多下载量的出海 AI 应用，而由字节跳动出品、近一段时间炙手可热的「Cici」尽管排名上涨，但仅位列第13。

AI应用出海榜单下载榜
共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

10月28日，AtomGit平台在北京国家会议中心举行升级发布会，正式推出"开源+AI"一体化平台及人工智能开源社区。工信部副部长熊继军出席并致辞，强调建设AI开源社区对汇聚创新资源、把握科技革命机遇的重要意义。平台将整合开源模型、数据集及算力资源，打造开放中立的基础设施，计划于11月21日正式上线。华为、百度等企业代表分享了开源实践，多所高校签署了共建AI生态倡议。此举标志着我国开源生态迈向智能化时代的重要一步。

开源社区人工智能 AtomGit
人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

科杰科技董事善于洋在2025中国国际数字经济博览会发表演讲，强调高质量数据集是人工智能产业决胜关键。他指出，算力、算法和数据构成AI三大要素，而数据决定模型认知边界与输出可靠性。当前需构建Data&AI一体化平台作为核心基础设施，通过集中管理、分散赋能模式，打通数据采集、治理到AI训练全链路，推动产业智能化升级。该平台已在制造、金融等领域落地，助力企业释放数据要素价值，实现弯道超车。

人工智能数据基础设施数字经济
荐双11“换芯” 阿里妈妈AI按下加速键

今年双11的不同，在平台对外披露的商家案例中得以一窥究竟。 AI智能选品、AI智能出价、AI智能调控投放节奏..... 这些营销策略的表述来自音箱品牌Marshall，双11第一波段10天活动期内，Marshall在影音电器行业品牌和店铺排名均位居第一;成交转化率提升67%，爆款成交同比增长30%。这波爆发式增长的背后，反复被CUE到的AI可以说是深藏功与名。绝非只是平台意志的表达，

AI智能选品 AI智能出价 AI智能调控
行业首个！海尔冰箱获ISO/IEC 42001人工智能管理体系认证

2025年10月，海尔冰箱成为全球首个通过ISO/IEC42001人工智能管理体系认证的家电企业，标志着其AI技术研发与管理达国际领先水平。该认证覆盖语音交互、视觉识别、健康保鲜等核心功能全流程，确保用户数据安全与隐私保护。目前AI系统已应用于博观、麦浪等高端产品，推动智能冰箱行业规范化发展。未来海尔将持续优化AI技术，为用户提供更安全、智能的健康饮食体验。

冰箱品牌人工智能技术海尔冰箱
厚植AI创新沃土！麒麟信安打造人工智能孵化器，赋能创业梦想

10月28日，麒麟信安人工智能孵化器在长沙启动，旨在汇聚AI领域人才、技术与资本，构建开放协同的创新生态。该项目获湖南省多部门支持，已吸引60余个项目入围，组建了首批30余位专家导师团，并与多家顶尖机构共建联合体，通过政策扶持、资本对接等多维度赋能，培育优质AI项目在湘落地发展，助力区域打造人工智能产业创新高地。

人工智能孵化器麒麟信安创新创业
【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

阿里云启动双十一“AI智慧季”大型优惠活动，聚焦企业多元AI场景落地需求，推出7000万tokens大模型免费体验、GPU新客特惠等政策，助力企业降低开发成本。同时提供标准化AI产品与解决方案，覆盖内容创作、智能客服等高频应用场景，并举办系列技术分享活动，携手企业拥抱AI新时代。

AI技术阿里云双十一优惠

今日大家都在搜的词：

热文

3 天
7天

AI日报：阿里通义开源多模态推理模型QVQ-72B；OpenAI考虑自研人形机器人；QQ音乐上线首个AI大模型音效

简知科技“简智AI大模型”通过国家生成式人工智能服务备案，助力兴趣教育迈向智能化新阶段

卖家精灵加入中国人工智能产业发展联盟（AIIA），加速AI赋能跨境电商

人工智能巨头OpenAI拟上市估值或高达1万亿美元

荐横扫拉美、力压字节系，「AI届的4399」成为出海AI应用新王？

共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

荐双11“换芯” 阿里妈妈AI按下加速键

行业首个！海尔冰箱获ISO/IEC 42001人工智能管理体系认证

厚植AI创新沃土！麒麟信安打造人工智能孵化器，赋能创业梦想

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

今日大家都在搜的词：

热文

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

焕新享界S9开卖72小时预订突破8000台

OPPO Reno15系列定档11月17日发布

华为Mate 70 Air维修备件价格公布：换主板2499元

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

真我GT8 Pro阿斯顿马丁F1限量版正式开售售价5499元

鸿蒙智行：智界R7累计交付量破10万台

特斯拉Model Y L上线外放电功能最高可输出2200瓦功率

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发