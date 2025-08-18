首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatcher；我国首个法律垂直大模型“小包公”发布

2025-08-18 15:48 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、腾讯AudioGenie横空出世！一键生成电影级音效，Claude与Gemini瑟瑟发抖！

腾讯AudioGenie凭借其强大的多模态音频生成能力和创新的无训练框架，正在重新定义AI音频生成的标准。面对国际巨头的竞争，AudioGenie展现了中国AI技术的硬核实力。

【AiBase提要:】

🎥 支持视频、文本和图像等多种模态输入，生成音效、语音、音乐等音频输出。

⚙️ 采用无训练多智能体框架，通过双层架构实现高效协同与自我纠错。

📈 在MA-Bench基准测试中表现优异，挑战Claude与Gemini的市场地位。

详情链接:https://audiogenie.github.io/

2、阿里推出多模态深度研究智能体WebWatcher

阿里巴巴自然语言处理团队推出了开源多模态深度研究智能体WebWatcher，旨在突破现有闭源系统和开源Agent在多模态深度研究领域的局限性。通过整合网页浏览、图像搜索、代码解释器和内部OCR等多种工具，WebWatcher能够像人类研究员一样处理复杂的多模态任务。

image.png

【AiBase提要:】

🌍 WebWatcher是一个开源的多模态深度研究智能体，能够处理复杂的多模态任务。

🧠 通过整合多种工具，如网页浏览、图像搜索等，实现强大的视觉理解与逻辑推理能力。

🚀 在多个评测中，WebWatcher的表现显著优于其他主流模型，展示了其卓越的能力。

详情链接:https://github.com/Alibaba-NLP/WebAgent

3、港大、哈工大、浙大联合推出可解耦 3D 模型技术OmniPart，重塑创意设计

港大、哈工大、浙大联合推出的OmniPart技术，为3D建模领域带来了重要突破，能够实现3D模型部件的独立性和结构清晰性，显著提升了3D建模的精确度和灵活性，适用于游戏开发、动画制作等多个创意领域。

image.png

【AiBase提要:】

🧠 OmniPart 技术实现了3D模型部件的独立性，使得创意设计更加灵活。

🔍 采用自回归模型与部件掩码的两阶段生成框架，提升3D建模的精确度。

🚀 创新机制如体素丢弃，增强了模型在复杂场景中的应用效果。

详情链接:https://omnipart.github.io/

4、Meta 发布 DINOv3，无需标注数据的通用图像处理 AI 新模型

Meta 推出的 DINOv3 是一种无需标注数据的通用图像处理 AI 模型，基于 17 亿张图像进行自监督学习训练，拥有 70 亿个参数。该模型在多个图像任务和领域中表现出色，尤其适用于卫星图像处理等专业领域。

image.png

【AiBase提要:】

🧠 DINOv3 基于 17 亿张图像进行自监督学习训练，无需标注数据。

🚀 拥有 70 亿个参数，可处理多种图像任务和领域，性能优于上一代模型 DINOv2。

🌐 Meta 在 GitHub 上开放了多个预训练模型变体及代码，允许商业使用。

详情链接:https://github.com/facebookresearch/dinov3

5、我国首个法律垂直大模型“小包公”发布：能溯源、可验证

我国首个法律垂直大模型“小包公”正式发布，标志着法律人工智能从学术探索迈向规模化应用。该模型通过整合大量法律数据和先进技术，提供可溯源、可验证的法律依据，有助于缓解法律服务资源分布不均的问题，并在多个重点领域展现示范效应。

【AiBase提要:】

⚖️ 我国首个法律领域垂直大模型“小包公”发布，标志着法律人工智能进入规模化应用阶段。

🔍 “小包公”整合了2亿份裁判文书和420余万部法律法规，具备精准排除“外行概念”的能力。

💡 法律AI有望缓解法律服务资源分布不均问题，推动行政复议、检察监督等领域的数字化和普惠化。

6、ChatGPT移动端收入突破20亿美元，碾压竞争对手创造30倍收入差距

ChatGPT移动应用在全球市场取得了惊人的收入表现，远超其他竞争对手。其收入增长迅速，用户下载量和消费水平均显著领先，显示出其在AI助手领域的主导地位。

【AiBase提要:】

(ChatGPT移动端应用收入达到20亿美元，是竞争对手总和的30倍)

(ChatGPT月收入增长高达673%，远超其他聊天机器人)

(ChatGPT全球下载量达6.9亿次，是Grok的17倍)

7、安卓手机集体抄作业灵动岛，新芯片算力翻倍推动AI功能全面爆发

文章指出，安卓厂商在系统设计上纷纷借鉴苹果的灵动岛交互方式，并结合自身特色进行优化。同时，新一代芯片算力提升为AI功能普及提供了硬件支持，各厂商在系统中集成AI功能，实现更智能的服务体验。

image.png

【AiBase提要:】

✨ 各安卓厂商推出类似苹果灵动岛的交互设计，提升用户体验。

⚡ 新一代芯片算力翻倍，为AI功能普及奠定基础。

🤖 厂商全量集成AI功能，提供一键订票、行程规划等智能服务。

8、欧洲AI创企发布鸡脑和蝇脑模型，94MB超小AI可离线运行苹果手表

欧洲AI初创公司Multiverse Computing发布了两款极小的AI模型，分别命名为SuperFly和ChickBrain。这些模型体积小巧，可以在物联网设备、智能手机、平板电脑和个人电脑上本地运行，无需互联网连接。它们在性能方面表现优异，甚至在一些基准测试中超越了原始模型。

【AiBase提要:】

✨ Multiverse Computing推出了两款超小型AI模型，适用于各种设备并支持本地运行。

🧠 SuperFly和ChickBrain模型分别以蝇脑和鸡脑命名，具备强大的功能和推理能力。

💰 公司通过融资1.89亿欧元进一步推动其量子启发的压缩技术发展，并与多家大公司合作。

9、Claude Code重大更新！新增编程导师模式，初学者也能享受一对一代码指导

Anthropic推出了Claude Code的重要功能更新，新增了针对编程初学者的个性化沟通风格设置。用户可以通过命令自定义交流方式，包括解释型和学习型两种风格，以满足不同学习需求。

【AiBase提要:】

🧠 解释型风格专注于深度教学，帮助开发者理解代码背后的原理。

👩‍🏫 学习型风格采用互动教学方式，提升用户的动手能力和独立解决问题技能。

🌐 新增的编程导师模式让初学者也能享受一对一代码指导，降低学习门槛。

10、AI技术被滥用成“退款神器”，商家无奈：假图太逼真，有苦说不出

文章指出，电商平台出现利用AI伪造商品损坏图片进行恶意退款的现象，严重损害了商家的利益。法律专家认为该行为涉嫌违法，呼吁加强监管和技术创新以应对这一问题。

image.png

【AiBase提要:】

🤖 AI工具被用于伪造商品损坏图片，骗取退款。

⚖️ 恶意退款行为可能构成民事欺诈或刑事诈骗。

🔒 商家需优化售后流程并保留证据以维护自身权益。

11、IDC报告：2024年中国AI公有云服务市场规模激增，阿里云蝉联中国市场第一

IDC报告显示，2024年中国AI公有云服务市场快速增长，主要得益于生成式AI应用的扩展和机器学习需求的上升。计算机视觉、对话式AI和自然语言处理等细分市场表现亮眼，同时技术提供商需关注AI治理和云架构优化以适应智能化时代的需求。

image.png

【AiBase提要:】

🧠 2024年中国AI公有云服务市场规模预计达到195.9亿元，同比增长55.3%。

🖼️ 计算机视觉和对话式AI市场表现突出，分别达到81.0亿元和20.9亿元。

🛠️ 技术提供商需重构云服务架构，加强AI治理以确保透明度与合规性。

举报

  • 相关推荐
关键词：

  • AI日报：B站测试AI视频工具花生AI；腾讯发布多模态模型Large-Vision；昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容： 1. B站测试"花生AI"视频工具，3分钟可成片，同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0，实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI，苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision，支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐，仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新：恢复GPT-4o默认模式，为GPT-5引入多模式选择，优化交互体验

    ​AI视频创作 ​花生AI ​B站AI工具

  • AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测试；小红书发布DynamicFace人脸生成技术

    本期AI日报聚焦多项AI领域创新：1）阿里开源Qwen-Image-Edit图像编辑模型，支持中文渲染与精准文本编辑；2）淘宝测试"AI万能搜"功能，重构电商搜索体验；3）小红书发布DynamicFace人脸生成技术，实现高质量图像视频换脸；4）Gemini API新增URL Context功能，简化网页内容获取流程；5）Nvidia推出小型开放模型Nemotron-Nano-9B-v2，支持智能推理开关；6）马斯克发布Grok Imagine 0.1测试版，进军AI图像生成领域；7）Vercel推出iOS版AI开发工具v0；8）理想汽车发布MindGPT 3.1模型，处理速度提升5倍；9）ToonComposer工具简化动画制作流程；10）ElevenLabs推出视频到音乐生成流程。

    ​AI ​开源 ​图像编辑

  • AI日报：百度推全球首批AI数字员工；Claude Opus4.1出世；谷歌DeepMind发布世界模型Genie 3

    AI日报栏目聚焦人工智能领域最新动态：1)Claude Opus4.1发布，编程能力提升74.5%；2)OpenAI开源GPT-OSS-120B和20B模型；3)谷歌DeepMind推出革命性3D世界模型Genie3；4)谷歌Gemini新增AI故事书生成功能；5)ElevenLabs推出商用AI音乐生成器；6)百度智能云发布首批AI数字员工；7)OpenAI估值或达5000亿美元；8)00后创业者推出云端AI协作开发工具Vinsoo；9)腾讯启动2026校园招聘，重点培养AI人才；10)马斯克宣�

    ​人工智能 ​编程能力 ​数据分析

  • 谷歌DeepMind发布Genie 3世界模型：支持实时生成交互式3D环境

    据媒体报道，谷歌DeepMind正式发布了其新一代通用世界模型Genie 3。 该模型能够根据用户的文本提示，快速生成丰富多样的交互式虚拟环境。Genie 3不仅能够以每秒24帧的速度生成720p分辨率的高清交互式3D世界，更创新性地引入了 可提示世界事件” 功能。用户通过简单文本指令，即可实时修改虚拟环境，显著提升了沉浸感与创造力。 DeepMind视Genie 3为迈向通用人工智能（AGI） 的�

    ​Genie ​3 ​通用世界模型

  • “无限量”供应Claude，就是AI IDE们的百亿补贴

    Anthropic于2025年7月28日宣布，将从8月28日起对Claude Code工具新增每周调用限额——因为少数重度用户全天候高频使用，一次使用成本甚至高达数万美元，远远超过普通订阅预期。 同样在上个月，Cursor曾因其“I’ll keep it unlimited”的Pro收费模式悄然变更为计算tokens限制，导致大量用户抱怨“实际上并非无限”，纷纷在社群中吐槽，迫使公司CEO出面道歉、甚至给出退款补偿。 这两�

    ​文章搜索 ​核心标签 ​AI工具

  • Soul以AI重构社交体验，打造有温度的“Gen AI 社交游乐园”

    Soul 作为新型社交平台，自成立以来便积极探索AI技术在社交领域的应用落地，持续优化AI社交体验，致力于重塑数字时代的连接方式，为社交产品注入新的可能性，打造一个突破传统社交边界的“Gen AI社交游乐园”。前不久，在第二十二届ChinaJoy（中国国际数码互动娱乐展览会）上，Soul App以“Soul树洞情绪疗愈酒吧”为展台主题亮相，重磅推出原创IP“莫比乌斯·第三弹”ChinaJoy

    ​AI社交 ​数字文创 ​虚拟伴侣

  • Agentic AI落地加速：迈富时企业级智能体中台2.0，让 AI Agent成为企业 “数字员工”

    Gartner将代理型AI列为2025年十大战略趋势之首，预测到2028年15%的日常工作决策将由自主智能代理完成。迈富时发布的AI-Agentforce2.0企业级智能体中台，通过"技术赋能+场景落地"双轮驱动，构建了从模型能力到业务价值的闭环。该平台具有三大核心优势：1）"模型-应用-开发平台"三位一体架构；2）ChatBox+工作流双开发模式，支持快速部署；3）企业级安全保障，满足金融等敏感行业需求。已在保险、零售、供应链等领域实现规模化应用，最高提升37%销售转化率。该方案让企业能低成本打造专属数字员工团队，真正释放代理型AI的战略价值。

  • 如何用3分钟精准计算AI大模型成本？避免生成一篇万字文章就超支？

    AI大模型成本控制指南：实测三步预算法+企业级避坑方案。文章揭露行业痛点：1）价格迷雾：各厂商计费规则差异大，长文本/多模态存在隐藏溢价；2）团队实测GPT-4生成20篇行业分析（50万字）实际账单超预算4倍。解决方案：通过AIbase计算器实现精准预测：①场景化选择自动加载计费规则；②输入需求实时生成动态成本矩阵；③智能规避四大隐性成本（长文本衰减补偿/区域差价预警等）。跨境电商案例显示，使用工具后成本降低60%。核心观点：在AI时代，成本控制能力已成为企业核心竞争力。

    ​AI预算计算 ​模型成本控制 ​GPT-4计费

  • AI日报：GPT-5-Auto现身Mac客户端；阿里开源WebAgent项目WebShaper；腾讯推X-Omni多模态模型

    【AI日报】今日AI领域重要动态：1）阿里开源WebAgent项目WebShaper，GAIA评测超越Claude4-Sonnet；2）Moonvalley推出草图转视频功能，支持手绘生成电影级视频；3）腾讯X-Omni模型实现图文理解重大突破；4）百度搜索测试AI应用中心入口；5）Midjourney+新增个性化推荐功能；6）GPT-5或于2025年夏季发布；7）Ollama推出桌面客户端；8）OWL团队开源多智能体协作工具Eigent；9）OpenAI年收入激增至120亿美元；10）英伟达H20芯片因安全风险被约谈；11）万兴科技天幕2.0模型国内排名第四，与华为云共建AI视频实验室。

    ​人工智能 ​AI产品 ​技术趋势

  • 格创东智再获权威认可，AI Agent解决方案入选甲子光年报告

    格创东智凭借工业AI+Agent创新实践入选甲子光年智库《企业级AI+Agent（智能体）价值及应用报告》，继获评"星跃100"2025中国AI产业逐浪者奖项后再获头部科技媒体认可。报告指出，该公司在复杂工作流编排、工具集成和领域知识沉淀三大维度表现突出，成为工业智能化转型标杆案例。其自主研发的章鱼智脑Agentic+AI平台支持多Agent协同和复杂工作流编排，通过"模型即服务、知识可视化、流程任编排"重构工业AI开发范式。典型案例"设备知识库Agent小鲁班"为半导体企业实现故障处理效率提升62%，年增收数千万元。公司持续深化"工业智能体"等研发投入，累计投入超10亿元，沉淀工业机理模型35000+个，构建了AI、工业软件、智能装备三合一的全栈服务生态。预测到2026年认知型Agent将覆盖70%企业复杂决策场景，格创东智将持续引领工业AI解决方案创新，助力中国制造业数字化升级。

    ​工业AI ​Agent ​企业级AI

今日大家都在搜的词：

热文

  • 3 天
  • 7天

站长商机

广告

商务合作 侵权投诉 广告服务 版权声明 招聘

©CopyRight 2002-2020 CHINAZ.COM