首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:阿里通义开源多模态推理模型QVQ-72B;OpenAI考虑自研人形机器人;QQ音乐上线首个AI大模型音效

2024-12-25 15:23 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里发布多模态推理模型QVQ-72B!视觉、语言能力双提升

阿里巴巴最近推出的QVQ-72B多模态推理模型在语言和视觉能力上实现了显著提升,能够处理复杂的推理和分析任务,尤其在多步推理和数学推理方面表现突出。该模型的出现标志着阿里巴巴在多模态AI领域的重大突破,提供了新的工具和思路来解决复杂问题,推动各行业的智能化升级。

image.png

【AiBase提要:】

🧠 QVQ-72B模型融合了强大的语言和视觉能力,能够处理复杂的推理任务。

🔍 在物理和数学推理中,该模型通过多步推理显著提升了准确率,减少了错误。

📊 QVQ-72B在技术报告和图表分析中具备高效的信息提取能力,为专业人士提供强大支持。

详情链接:https://huggingface.co/spaces/Qwen/QVQ-72B-preview

2、投资三家机器人公司后 OpenAI欲自研人形机器人

OpenAI正在积极探索自研人形机器人,尽管曾在2021年关闭机器人部门。近期,该公司通过投资三家机器人公司,显著布局机器人领域。其旗舰模型O3在AGI测试中首次超越人类水平,为进军实体机器人提供了技术支持。然而,进入这一竞争激烈的市场,OpenAI可能面临利益冲突和硬件研发短板等挑战。

【AiBase提要:】

🤝 OpenAI投资三家机器人公司,积极布局机器人领域。

📈 旗舰模型O3在AGI测试中超越人类,技术优势明显。

⚠️ 面临市场竞争和硬件研发挑战,需快速补齐短板。

3、QQ音乐14.0版本上线,发布首个AI大模型音效、智能匹配听歌音效

QQ音乐14.0版本的推出标志着音乐体验的一个新高度,特别是引入的AI大模型音效。这一创新技术通过分析音频特征,为用户提供个性化的听觉体验,尤其在3D环绕音效方面表现出色。此外,伴唱功能的升级使得用户可以根据个人需求调节播放速度和音调,进一步增强了音乐互动的乐趣。

image.png

【AiBase提要:】

🎧 新推出的大模型音效通过AI技术提供个性化听觉体验,提升音乐的空间感和层次感。

🎤 伴唱功能升级,用户可自由调节伴唱模式、播放速度和音调,满足不同演唱需求。

🎨 多款个性化设置功能让用户选择不同样式,享受个性化的听歌体验。

4、讯飞星火浏览器插件新升级 新增翻译总结、继续提问等AI功能

讯飞开放平台最近对其星火浏览器插件进行了重要升级,显著提升了用户的浏览体验和工作效率。新功能包括支持多语言的全局翻译、增强的网页总结能力以及“继续提问”功能,使用户能够深入讨论并获取更高质量的答案。此外,插件还提供了一键朗读功能,帮助用户提高外语口语水平。

image.png

【AiBase提要:】

🌐 新增的“继续提问”功能允许用户深入讨论,获取更高质量的答案。

📚 实现网页全局对照翻译,支持12种语言,打破语言障碍,提升阅读体验。

🎤 一键朗读功能帮助用户提高外语口语水平,增强学习效果。

5、字节开源 Midscene.js:AI驱动的E2E测试框架迎来突破

随着人工智能技术的迅猛发展,E2E测试领域正经历着一场创新的革命。字节跳动的web-infra团队推出的Midscene.js,结合多模态大语言模型,极大地简化了用户界面测试的过程。用户无需编写代码,通过自然语言即可与网页进行交互,提升了测试效率。

【AiBase提要:】

🛠️ Midscene.js通过自然语言与网页交互,简化了E2E测试流程。

⏱️ Shortest工具利用AI自动生成测试用例,减少重复性工作时间。

📈 AI技术的成熟使得基础E2E测试场景的自动化水平显著提升。

详情链接:https://github.com/web-infra-dev/midscene

6、DeepMind项目MegaSaM :输入普通视频即可预估相机视角和景深

MegaSaM系统的推出标志着计算机视觉领域的一次重大突破。该系统能够从普通动态视频中快速、准确地估计相机参数和深度图,克服了传统技术在动态场景中的局限性。通过对深度视觉SLAM框架的创新性修改,MegaSaM在复杂环境下的实时处理能力显著提高,实验结果显示其在准确性和效率上均优于以往技术。

【AiBase提要:】

🌟 MegaSaM系统能够从普通动态视频中快速、准确地估计相机参数和深度图。

⚙️ 该技术克服了传统方法在动态场景中的不足,适应复杂环境的实时处理。

📈 实验结果显示,MegaSaM在准确性和运行效率上均优于以往技术。

详情链接:https://mega-sam.github.io/#demo

7、字节TikTok算法负责人陈志杰或将离职,投身AI Coding方向创业

字节跳动的TikTok算法负责人陈志杰即将离职,计划专注于AI Coding领域的创业。自2022年加入字节跳动以来,他负责TikTok的推荐算法和数据科学团队,之前在百度积累了近九年的技术经验。随着AI Coding市场的快速发展,预计到2032年将超过295亿美元,吸引了众多投资者的关注。

【AiBase提要:】

🌟 陈志杰即将离职字节跳动,专注于AI Coding创业。

🚀 AI Coding市场前景广阔,预计到2032年将超295亿美元。

💡 国内市场投资人关注AI Coding,多个项目相继涌现。

8、Fireworks AI推出文档解析神器!AI轻松读懂复杂文件

Fireworks AI最近推出了“Document Inlining”功能,旨在解决处理非结构化文档的难题。该功能能够将PDF、截图和图像等文档转化为大语言模型可理解的结构化文本,显著提高了AI处理文档的效率和准确性。其核心在于强大的复合AI系统,能够自动识别和解析多种内容,操作简单且兼容OpenAI API,用户无需额外学习成本。

image.png

【AiBase提要:】

📄 高质量输出: Document Inlining提供的文本质量优于传统文本型LLM输出,尤其在推理和生成任务中表现出色。

📊 多种文档格式支持: 该工具支持PDF、图片等多种格式,能够准确提取复杂文档中的关键信息。

🔍 复杂文档解析能力: 能够解析含有表格和图表的复杂文档,并将其转换为LLM可理解的文本。

详情链接:https://fireworks.ai/blog/document-inlining-launch#quality-evaluation

9、果然最强!OpenAI 新模型o3在ARC-AGI基准测试得分破纪录

OpenAI最新发布的模型o3在ARC-AGI基准测试中取得了显著成绩,标准计算条件下得分75.7%,高计算版本更是达到87.5%。尽管这一成就震惊了AI研究界,但专家指出o3仍未达到通用人工智能(AGI)的标准。o3的计算成本高昂,解决每个谜题需17至20美元,且在某些简单任务上表现不佳。

image.png

【AiBase提要:】

🌟 o3在ARC-AGI基准测试中获得75.7%的高分,表现超越以往模型。

💰 o3解决每个谜题的成本高达17到20美元,计算量巨大。

🚫 尽管o3表现优秀,但专家们强调其尚未达到AGI的标准。

10、打错字也能 “越狱”GPT-4o、Claude:揭秘AI聊天机器人的脆弱性!

最近的研究揭示了先进AI聊天机器人在面对简单拼写错误时的脆弱性。通过一种名为“最佳选择(Best-of-N,BoN)越狱”的算法,研究人员发现,故意加入拼写错误可以让这些模型忽视安全防护,生成本应拒绝的内容。这一发现不仅突显了AI与人类价值观对齐的困难,也表明即使是高级AI系统也容易受到欺骗。

【AiBase提要:】

🔍 研究发现,通过拼写错误等简单技巧,AI聊天机器人可被轻易 “越狱”。

🧠 BoN越狱技术在多种AI模型中成功率达52%,有些甚至高达89%。

🎨 此技术在音频和图像输入中同样有效,显示出AI的脆弱性。

11、尴尬!谷歌被曝用Claude模型进行对比测试来改进Gemini AI

近日,谷歌的Gemini人工智能项目正在通过与Anthropic公司的Claude模型进行对比测试,以提升自身的性能。负责Gemini改进的承包商正在评估这两种模型的输出,比较的标准包括真实性和安全性。尽管谷歌是Anthropic的主要投资者之一,但谷歌发言人表示并未对Gemini进行Claude模型的训练。

【AiBase提要:】

🌟 Gemini正在与Claude进行对比测试,以提升自身AI模型的性能。

🔍 承包商负责评分,两者的回答比较涉及多个标准,包括真实性和安全性。

🚫 Anthropic禁止在未授权的情况下使用Claude进行竞争性模型的训练。

12、研究发现,OpenAI 的 o1-preview 在诊断复杂医疗病例方面优于医生

一项新研究表明,OpenAI 的 o1-preview 人工智能系统在复杂医疗案例的诊断上表现优于人类医生,达到了88.6%的准确率。该系统在医疗推理方面同样出色,获得了80个病例中78个满分。尽管o1-preview在某些方面表现优秀,但在实际应用中仍面临高成本和不切实际的测试建议等问题。

【AiBase提要:】

🌟 o1-preview 在诊断率上超过医生,达到88.6%的准确率。

🧠 医疗推理方面,o1-preview 在80个病例中获得78个满分,远超医生表现。

💰 尽管表现优秀,o1-preview 在实际应用中的高成本和不切实际的测试建议仍需解决。

详情链接:https://arxiv.org/abs/2412.10849

举报

  • 相关推荐
  • AI日报阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • 阿里通义成了AI的“黄埔军校”?

    从去年开始,各大科技巨头就纷纷调整战略,加大了人才招揽的力度:腾讯的“青云计划”以“业界Top0级别薪资”和“不设职级上限”吸引顶尖人才,并计划新增2.8万实习岗位以充实后备力量;字节跳动则启动“Top Seed计划”,专门为大模型、多模态等前沿领域的顶尖博士

  • 全球首款生成式人形机器人运动大模型发布:可根据指令生成跑步、舞蹈等连贯动作

    今日上午,国家地方共建人形机器人创新中心联合复旦大学未来信息创新学院,正式发布了全球首款生成式人形机器人运动大模型 龙跃”(MindLoongGPT)。 龙跃大模型以自然语言驱动”为核心,构建了从多模态输入到高保真动作生成的完整闭环,颠覆传统运动控制范式。 也就是说,用户无需学习专业术语或操作复杂软件,仅需像与人类对话一样发出指令,例如以优雅的姿势递

  • 人形机器人被吐槽只会弹琴跳舞 专家:难转化为实际生产力

    近日,在第五届BEYOND国际科技创新博览会期间,人形机器人再次成为焦点话题,众多观点围绕其发展现状和前景展开,其中人形机器人被吐槽“只会弹琴跳舞,没法产生真正价值”引发了广泛讨论。 在Beyond展区内,多个人形机器人展示出了使用灵巧手弹奏钢琴、古筝等技能,吸引了众多参观者的目光。然而,对于这类表演秀,梅花创投合伙人吴世春有着不同看法。他认为,对

  • 智元灵犀X2人形机器人预计下半年实现量产

    智元机器人公司推出灵犀X2系列人形机器人,包含交互版、探索版和旗舰版三款型号,满足不同场景需求。该机器人具备25-31个自由度,采用多模态交互技术,能实现语音、表情、动作等多维度深度互动。预计2025年下半年开始量产,2026年底出货量可达数千台。灵犀X2适用于讲解员、主持人和表演者等多种角色,已在展览、文娱活动中展现出色表现。此次招募合作伙伴标志着智元在具身智能领域迈出重要一步,未来有望拓展更多应用场景。

  • 苹果炮轰AI推理模型:全是假思考!所谓思考只是一种假象

    有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。 苹果团队认为,现有评估主要集中在既定的数学和编码基准上,看模型最终答案是否正确,但可能存在模型训练时见过类似题目。 并且,这些评估大都缺乏对思考过程质量”的分析,比如中间步骤是否逻辑一致、是否绕弯路等。 为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、�

  • AI日报阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • 超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

    超越OpenAI! 国产大模型突袭,AI语音生成天花板被重新定义了。 MiniMax最新发布Speech-02,同时拿下Artificial Analysis Speech Arena和Hugging Face TTS Arena两项全球权威语音基准测评第一!