首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

2025-07-09 16:36 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里通义开源支持链式推理音频生成模型ThinkSound

阿里语音AI团队开源了全球首个支持链式推理的音频生成模型ThinkSound,该模型通过引入思维链技术,突破传统视频转音频技术的局限,实现高保真、强同步的空间音频生成。这一技术进步标志着AI音频从“看图配音”向“结构化理解画面”的跨越。

image.png

【AiBase提要:】

🧠 ThinkSound首次将多模态大语言模型与统一音频生成架构结合,实现精准音频合成。

📊 研究团队构建了包含2531.8小时高质量样本的AudioCoT数据集,提升模型处理复杂指令的能力。

🚀 ThinkSound在多个测试集中表现优于主流方法,代码和预训练权重已开源,开发者可免费获取。

详情链接:https://github.com/FunAudioLLM/ThinkSound https://huggingface.co/spaces/FunAudioLLM/ThinkSound https://www.modelscope.cn/studios/iic/ThinkSound

2、谷歌Veo3重磅升级,支持静态图片生成生动视频

谷歌宣布对 AI 视频生成工具 Veo3进行重磅升级,用户只需上传一张静态照片即可生成高质量的音频和视频内容,展示了 AI 在创作领域的巨大潜力。Veo3的核心功能包括保持角色在多个镜头下的一致性,并提供丰富的运镜功能,如推镜头。此外,用户可以选择不同质量的生成模型,但需要消耗相应的 credits。

image.png

【AiBase提要:】

🖼️ Veo3升级后支持从单张静态图片生成高质量动态视频。

🎥 支持运镜功能,如推镜头(Dolly in),提升视频专业性。

🔊 用户可选择不同质量模型,但需消耗相应 credits 资源。

3、Hugging Face发布新一代小参数模型 SmolLM3:128K上下文,双模式推理

Hugging Face发布了SmolLM3,一款具有30亿参数的小型开源模型,其性能优于Llama-3.2-3B和Qwen2.5-3B。该模型支持多种语言处理,并具备双模式推理功能,同时公开了架构细节以促进研究与优化。

image.png

【AiBase提要:】

🧠 SmolLM3拥有30亿参数,性能超越同类开源模型,支持多语言处理。

⚙️ 提供深度思考和非思考两种推理模式,灵活应对不同需求。

📊 采用先进的transformer解码器架构,通过三阶段混合训练提升能力。

详情链接:https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base

4、阿里开源 WebSailor,具备强大的推理和检索能力

阿里通义开源了网络智能体 WebSailor,其在中英文任务的 BrowseComp 评测集中表现出色,超越了 DeepSeek R1和 Grok-3等闭源模型,展现了强大的推理和检索能力。银河证券指出 AI Agent 经济已全面开启,并建议关注布局领先的 SAAS 企业。相关上市公司如焦点科技和中科金财已在 AI Agent 技术应用上有所布局,推动了智能体技术的发展。

image.png

【AiBase提要:】

📌 阿里通义开源 WebSailor,展现出色的推理与检索能力。

📈 银河证券指出 AI Agent 经济全面开启,建议关注相关 SAAS 企业。

💡 相关公司如焦点科技和中科金财在智能体技术应用上具备明显优势。

详情链接:https://github.com/Alibaba-NLP/WebAgent

5、Moonvalley发布Marey Realism v1.5:原生1080P AI视频模型,零版权风险引领行业新风向!

Moonvalley推出的Marey Realism v1.5AI视频生成模型在画质、创作自由度和法律合规性上实现了全面升级。其原生1080P视频生成能力、基于授权内容的训练数据以及精准解读复杂提示的能力,为影视制作和广告创意提供了更安全、高效的工具。

image.png

【AiBase提要:】

🎥 原生1080P视频生成能力,提供接近真实拍摄的视觉体验。

🔒100%授权数据训练,彻底规避版权风险。

🔄 支持文本到视频和图像到视频生成,提升创作灵活性。

6、Vidu Q1震撼升级:参考转视频支持最多七张图像,AI视频生成再创新高

Vidu Q1的‘参考转视频’功能允许用户上传最多七张参考图像,生成视觉一致性极高的1080p视频。该技术通过语义融合确保多图像元素在视频中保持一致,解决了传统AI视频生成中的场景断裂或角色失真问题,为创作者提供了强大的工具。

【AiBase提要:】

🎥 支持最多七张参考图像,提升视频创作灵活性

🔍 语义融合技术确保多图像元素在视频中保持高度一致

🔄 多主体一致性技术实现复杂场景的连贯视觉体验

7、苹果研发类似 ChatGPT AI 客服助手,提升用户支持体验

苹果公司正在开发一款基于人工智能的‘支持助手’,旨在为用户提供更智能和高效的客户服务体验。该功能已在 Apple Support 应用代码中被发现,未来将允许用户在联系客服前获得 AI 生成的解决方案,提高服务效率。

【AiBase提要:】

🍎 苹果正在开发一款基于 AI 的支持助手,以提升客户服务效率。

💬 用户可在联系客服前通过 AI 获得问题解决方案,减少等待时间。

🔄 支持助手可能允许上传文件,丰富互动体验。

8、飞书重磅发布多款AI新品,打造企业级“豆包”

飞书发布了多款AI产品,包括知识问答、AI会议、Aily、飞书妙搭等,旨在加速AI在企业级应用中的落地。同时,飞书还推出了业界首个AI应用成熟度模型,帮助企业评估AI产品的实际效果。

【AiBase提要:】

🚀 飞书推出多款AI产品,助力企业实现智能化运营。

📊 发布AI应用成熟度模型,提升企业对AI产品的判断能力。

📈 飞书多维表格性能与AI能力双重飞跃,支持大规模数据处理。

9、微软、OpenAI 与 Anthropic 联合推出教育工作者 AI 培训中心

美国教师联合会(AFT)联合微软、OpenAI 和 Anthronic 成立全国人工智能教育学院,旨在为教师提供免费的AI工具培训,帮助他们更好地利用人工智能技术。该项目获得2300万美元资金支持,推动教育领域的技术变革。

【AiBase提要:】

👩‍🏫 教师将通过AI培训掌握新技术,确保在教育中的主导地位。

💰 微软、OpenAI 和 Anthropic 提供2300万美元资金支持AI教育项目。

📚 AI学院致力于推动教育民主化,确保技术服务于学生和教师。

10、昆仑万维重磅发布 Skywork-R1V3.0:跨模态推理能力直逼人类专家!

image.png

昆仑万维发布 Skywork-R1V3.0,展现出卓越的多模态推理能力,训练样本少但表现出色,达到了人类专家水平。

【AiBase 提要:】

1. 🤖 Skywork-R1V3.0在跨模态推理中取得76.0分,超越多款闭源模型。

2. 🔬 该模型使用1.2万条微调样本和1.3万条强化学习样本进行训练。

3. 📊 在物理、逻辑和数学推理测试中表现优异,分别获得52.8分、59.7分和77.1分。

举报

  • 相关推荐
  • 北电数智亮相世界人工智能大会,“四链融合”推动AI产业落地

    2025世界人工智能大会“人工智能+”战略领军人才与创新发展论坛圆满落幕。论坛聚焦“人才领航智启未来”主题,汇聚中科院、社科院专家及中国联通、腾讯云等机构代表,围绕“人工智能+”行动分享经验,为AI高质量发展筑牢人才根基、激发创新动能。北电数智CMO杨震出席并发表演讲,分享AI行业落地实践,强调紧跟国家战略,推进产业、创新、人才、资本四链融合,打造面向不同场景的AI解决方案,全方位助力AI产业发展。

  • 寒武纪智能芯片赋能多模态大模型应用

    大模型快速发展推动人工智能技术迈向新阶段,从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示,2024年中国大模型开发平台市场规模达16.9亿元,人工智能算力市场约190亿美元,预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发,推出多款处理器及加速卡产品,支持大模型训练推理及多模态任务,并与产业链合作共同推进人工智能产业发展。

  • 海尔冰箱唯一获批“制冷家电人工智能技术山东省工程研究中心”

    海尔冰箱在人工智能领域取得新突破,主导建设的"制冷家电人工智能技术山东省工程研究中心"成为2025年山东省工程研究中心认定名单中唯一入选的冰箱品牌。该中心聚焦人工智能、物联网、大数据等技术方向,开发了全空间智慧保鲜舱冰箱等140多项行业首创产品,近三年获授权发明专利803件。海尔冰箱还推出行业首款接入DeepSeek的AI全空间保鲜冰箱,具备方言识别、降噪技术等功能,显著提升用户体验。市场数据显示,2023年1-7月海尔冰箱以47%市场份额稳居行业第一。通过AI技术赋能,海尔冰箱正引领行业向精准、智能保鲜时代跨越。

  • 下一个爆款在哪儿?2025英特尔人工智能创新应用大赛获奖名单揭晓

    8月16日,2025英特尔人工智能创新应用大赛总决赛在深圳落幕。40支优秀团队从2817支队伍中脱颖而出,围绕工业、教育、心理健康、游戏等领域展开对决。大赛展示了AI从云端走向边缘的趋势,依托酷睿Ultra处理器和低代码开发工具,推动AI应用本地化落地。获奖作品包括动力电池机器人协作拆卸系统和AI生成PPT服务,体现AI与产业需求的深度融合。英特尔与联想、惠普等合作伙伴共同为开发者提供全栈支持,加速AI技术普及和商业化进程。

  • ISC.AI 2025 人工智能安全治理与创新实践论坛圆满召开

    ISC.AI2025人工智能安全论坛在北京召开,聚焦AI安全治理与创新实践。论坛汇集顶尖专家,探讨大模型安全评估与防护、智能体安全、AI治理等前沿议题。360集团张向征指出,随着Agent技术爆发式应用,AI安全已成为产业核心焦点。专家们强调需构建AI安全防护体系,应对大模型直接访问核心系统带来的全新挑战。中国电子院彭健提出企业合规建设需关注九大要素,清华大学苏航揭示智能体安全风险远超传统AI。华为云范建军倡导端到端大模型安全防护,中国信通院杨哲超呼吁构建协同治理框架。论坛为构建安全、普惠、负责任的人工智能未来贡献智慧。

  • 马斯克母亲发帖支持儿子:演示Grok视频生成功能

    近日,马斯克母亲梅耶-马斯克发帖演示支持马斯克的Grok视频生成功能。 她表示,这次我把手指放在了最近在X上发布的这张照片上,提示是用Grok制作视频”,现在自己的狗摇着尾巴了,自己玩得很开心。 她还特别提示,这个视频由@grok Imagine制作。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

  • 昇腾助力中科大团队实现MoE 稀疏大模型并行推理提速超30%

    中国科学技术大学张燕咏团队在昇腾算力支持下,成功研发出基于专家选择分布预测的专家负载均衡和all2all通信均衡框架。该框架通过“三步走”策略,有效解决了MoE稀疏大模型推理中的专家负载不均和通信开销大两大难题,显著提升推理性能。实验显示,该方案在多项指标上较主流方案提升超30%,为昇腾技术优化MoE模型推理提供了宝贵借鉴,将加速其在各领域的落地应用。

  • AI日报:智谱视觉推理模型GLM-4.5V开源;达摩院开源三项具身智能核心技术;360智脑推出Light-IF系列模型

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,这是该公司在通向通用人工智能(AGI)道路上的又一重要探

今日大家都在搜的词: