首页 > AI头条  > 正文

AI日报:阿里通义开源R1-Omni模型;全国第二例AIGC版权案判决;OpenAI发布智能体API

2025-03-12 15:32 · 来源: AIbase基地

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里通义开源R1-Omni模型 可提升多模态情感识别能力

通义实验室团队于3月11日开源了R1-Omni模型,标志着全模态模型的发展取得了重要进展。该模型通过结合强化学习与可验证奖励的方法,显著提升了多模态情感识别的推理能力和泛化性能。训练过程分为冷启动和RLVR两个阶段,确保了模型在多模态情感识别任务中的稳定性和效率。

image.png

【AiBase提要:】

🎥 R1-Omni模型结合强化学习与可验证奖励,专注于多模态情感识别的推理能力提升。

📊 在冷启动阶段,模型通过580条视频数据进行微调,为后续训练打下基础。

🌟 实验结果显示,R1-Omni在多个测试集上相较于基线模型提升超过35%,展现出卓越的泛化能力。

详情链接:https://arxiv.org/abs/2503.05379

2、OpenAI推出新工具,助力AI智能体从“回答问题”跨越到“执行任务”

OpenAI最近发布了一系列新工具,旨在简化AI智能体的开发流程并增强其功能。这些工具包括Responses API、Agents SDK和计算机使用工具,标志着AI从单纯回答问题向实际执行任务的转变。新工具的推出将显著提升AI在现实世界中的应用能力,为开发者提供更强大的支持,预计将在未来的科技发展中发挥重要作用。

image.png

【AiBase提要:】

🔄 新推出的Responses API结合聊天功能与多种集成工具,提供实时信息和引用来源,提升开发灵活性。

🔧 Agents SDK作为开源框架,协调多个智能体之间的复杂工作流程,提高信息检索效率。

💻 计算机使用工具使AI能够直接在计算机上执行任务,标志着AI功能的重大升级。

3、百度AI开源表格识别模型PP-TableMagic

3月11日,百度AI推出了PP-TableMagic,一个开源的表格识别解决方案,标志着表格结构化信息提取领域的重大进步。该技术通过创新的多模型组网架构,克服了传统表格识别在复杂场景下的局限性,实现了高精度的端到端表格识别,并支持模型的高定制化微调。PP-TableMagic的设计使其能够高效处理各种表格数据,极大地提升了文档智能理解和数据分析的能力,适应了数字化时代的需求。

微信截图_20250312082522.png

【AiBase提要:】

🛠️ PP-TableMagic采用多模型串联架构,提升了表格识别的精度和适应性。

📈 该模型支持定制化微调,能够满足不同场景的需求,减少数据标注工作量。

💻 提供详细的安装指南和使用教程,支持高性能推理和服务化部署。

详情链接:https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md

4、Manus与阿里云通义千问达成合作,共推国产AI智能体产品

人工智能Agent产品新秀Manus与阿里云旗下大语言模型通义千问达成战略合作,双方将基于通义千问系列开源模型,在国产模型和算力平台上实现Manus的全部功能。此举旨在为中国用户打造更具创造力的通用智能体产品。尽管Manus在发布后遇到了一些问题,但其早期预览版展示了自动执行复杂任务的能力,标志着国产AI技术的进步。

【AiBase提要:】

🤖 Manus与阿里云通义千问达成战略合作,推动国产AI智能体产品的发展。

🌐 双方将基于通义千问开源模型,实现Manus的全部功能,提升用户体验。

📈 Manus展示了自动执行复杂任务的能力,标志着全球首款通用智能体产品的发布。

5、告别平面!MIDI:可提取图片元素生成360度3D场景

MIDI技术的出现为我们带来了从单张2D图像生成360度3D场景的可能性。通过智能分割和多实例同步扩散,MIDI能够高效地构建出细致入微的3D环境,极大地提升了虚拟现实、游戏开发和室内设计等领域的内容创作效率。未来,用户只需拍摄一张照片,就能快速生成可交互的3D场景,真正实现“一键穿越”的梦想。

【AiBase提要:】

🖥️ MIDI通过智能分割技术,能够识别并提取2D图像中的独立元素,为3D场景构建提供基础。

🎶 采用多实例同步扩散,MIDI可同时对多个物体进行建模,提升了3D生成的效率与协调性。

🌍 MIDI在有限数据下展现出强大的泛化能力,生成的3D场景纹理细腻,效果真实。

详情链接:https://huanngzh.github.io/MIDI-Page/

6、视频局部编辑技术VideoPainter:输入提示词自动识别修改,支持长视频

VideoPainter是一款基于深度学习的视频编辑工具,能够通过简单的提示词自动识别并修改视频内容,尤其适合长视频处理。用户只需输入简短的指令,系统便能快速完成编辑,极大提升了视频制作的效率。其背后的Diffusion Transformer模型使得编辑过程更为精准,用户可以轻松实现创意转化,真正改变了视频编辑的游戏规则。

【AiBase提要:】

✨ 通过简单的提示词,VideoPainter能够自动识别并修改视频内容,提升编辑效率。

🎬 适合长视频处理,用户可以快速找到并修改特定片段,避免繁琐的传统编辑流程。

🚀 基于先进的DiT模型,VideoPainter提供高准确性和灵活性,让创意转化为现实变得简单。

详情链接:https://yxbian23.github.io/project/video-painter/

7、开源版OpenAI Operator来了!Nanobrowser浏览器的免费AI自动化超人

Nanobrowser是一款完全免费的开源工具,旨在为用户提供高效的网页自动化功能,同时确保数据安全和隐私。用户只需安装扩展程序并配置自己的LLM API密钥,即可享受顶级的自动化体验。与传统的RPA工具相比,Nanobrowser以其直观的操作界面和多代理系统,使得即使是小白用户也能轻松上手。

image.png

【AiBase提要:】

💰 Nanobrowser是完全免费的开源工具,无需订阅费用,用户可自主配置LLM API密钥。

🔒 所有操作在本地浏览器中进行,确保用户隐私和数据安全,避免敏感信息泄露。

🤖 支持OpenAI、Anthropic和Google等主流AI模型,提供直观的操作界面,适合不同层次的用户。

详情链接:https://github.com/nanobrowser/nanobrowser

8、Luma AI 开源的图像预训练技术IMM实现图像生成十倍提速

Luma AI 最近开源的 Inductive Moment Matching (IMM) 技术,显著提升了图像生成的速度和质量。通过创新的预训练算法,IMM 能够在推理阶段实现灵活跳跃,减少生成步骤,从而突破了生成式预训练的瓶颈。实验结果表明,IMM 在多个数据集上展现了卓越的性能,标志着多模态基础模型的新未来。

【AiBase提要:】

⚡ IMM 技术通过反向设计预训练算法,显著提升推理效率。

🏆 在 ImageNet 和 CIFAR-10数据集上,IMM 实现了前所未有的高质量生成。

🔧 IMM 训练稳定性强,适应性好,突破了传统模型的限制。

详情链接:https://github.com/lumalabs/imm

9、原字节跳动AI高管骆怡航加入生数科技任CEO 推进AI视频生成商业化

骆怡航的加入标志着生数科技在AI视频生成领域迈向了新的阶段。他的丰富经验和技术背景将有助于公司在多模态技术方面的进一步发展,尤其是在视频生成的商业化进程中。生数科技的创始人朱军与骆怡航的合作,预示着未来将推出更多创新产品,推动整个行业的发展。

【AiBase提要:】

👤 骆怡航作为新任CEO,将全面负责生数科技的研发和商业化进程。

📈 他在字节跳动的成功经验,尤其是AI产品线的管理,为生数科技带来了强大的技术支持。

🎥 生数科技即将推出的Vidu2.0将大幅提升视频生成效率,降低成本,推动行业发展。

10、全国第二例判决AIGC版权案:法院确认作者享有著作权

江苏省苏州市常熟市人民法院于3月7日宣判了一起备受瞩目的AI生成内容著作权纠纷案,标志着江苏省首例、全国第二例涉及AI生成内容的著作权案件。法院确认林某使用Midjourney软件生成的图片作品享有著作权,并指出其创作过程具有独创性,符合著作权法的保护要求。

【AiBase提要:】

🌟 江苏省首例AI著作权纠纷案宣判,法院确认作者享有著作权。

🖼️ 常熟市人民法院认为,林某对作品的创作具有独创性,构成著作权保护。

💰 法院判决侵权方公开道歉并赔偿1万元,未提出上诉,判决生效。

11.硅基流动:DeepSeek-R1 & V3 API 升级,支持批量推理、R1 价格直降75%

硅基流动宣布 DeepSeek-R1 和 V3 API 支持批量推理,且价格大幅降低。批量推理将帮助用户高效处理大数据任务,特别是在生成报告和数据清洗等场景。用户在 3 月 11 日至 18 日的优惠期内,DeepSeek-R1 的批量推理价格直降 75%,为 1 元 / 百万 Tokens,输出为 4 元 / 百万 Tokens。

【AiBase 提要:】

 🌟 DeepSeek-R1 和 V3 API 现已支持批量推理,提高处理效率。

💰 批量推理价格直降 75%,用户可享受更低的服务成本。

📊 适用于数据分析和模型评估等无需实时响应的场景。

12、Domo AI 发布 i2v 模型升级:稳定性与提示词理解能力显著提升

Domo AI 最近对其图像到视频(i2v)模型进行了重大升级,提升了模型的稳定性和生成速度,同时增强了对用户提示词的理解能力。新模型可更准确地将静态图像转化为流畅动画,并支持多种风格转换,极大提高了内容创作者的创作效率和灵活性。

【AiBase 提要:】  

🌟 新版 i2v 模型在生成速度和稳定性上有显著提高。  

🎨 用户可通过模型快速实现多种风格转换,提升创作便利性。  

💬 模型对用户提示词的理解能力显著增强,确保结果高度一致。


  • 相关推荐
  • OpenAI发布ChatGPT Agent智能体:支持写代码、做PPT、分析金融

    OpenAI推出ChatGPT智能体,整合网页交互、数据搜索与多模态协作功能,可完成代码生成、PPT制作、金融分析等复杂任务。该智能体融合Operator的网页自动化操作、Deep Research的数据分析能力及优化后的GPT-4对话引擎三大核心模块。目前面向付费用户开放,Pro版近乎无限使用,其他版本每月限50次任务。OpenAI承认其仍存在金融建模需人工验证、非英语文本解析准确率低等技术局限,并

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • 刚刚,OpenAI通用智能体ChatGPT Agent正式登场

    ​Agent AI 时代,比我们想象中来得要早一些。 北京时间周五凌晨,OpenAI 突然开启了新产品直播。 本次发布的是全新的 ChatGPT Agent,它实现了通用智能体(Agent)能力的关键升级。

  • AI日报:字节将发布AI编程工具TRAE2.0版本;Mistral重磅推出音频模型Voxtral;月之暗面回应Kimi K2 API速度慢

    AI日报栏目聚焦AI领域最新动态:1)字节跳动将发布TRAE 2.0编程工具,新增语音交互功能;2)Mistral推出开源音频模型Voxtral,支持多语言;3)月之暗面回应Kimi K2API速度慢问题,正在优化系统;4)昆仑万维发布AgentOrchestra框架,实现多智能体协作;5)OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资;6)Kimi-2上线,性能超越GPT-4.1;7)TRAE推出Kimi-K2模型服务,国际版支持Grok-4;8)字节跳动Seed�

  • AI日报:xAI 震撼发布Grok4;微软开源全新Phi-4-mini版本;上海累计82款大模型通过备案

    AI日报栏目聚焦人工智能领域最新动态:1)xAI发布旗舰模型Grok4,在数学推理和代码生成表现突出,同时推出开发者专用Grok4Code;2)微软开源Phi-4-mini模型,推理效率提升10倍,适合边缘设备;3)上海82款大模型完成备案,垂直领域应用取得突破;4)Hugging Face推出开源桌面机器人Reachy Mini,支持Python编程;5)Perplexity发布AI浏览器Comet挑战Chrome;6)OpenAI将首次发布开放权重模型,打破闭源惯例;7)谷歌医疗AI模型MedGemma系列上新,单个GPU即可运行;8)OpenAI以约65亿美元收购AI硬件公司io Products,正式进军硬件市场。

  • AI日报:阿里通义推Qwen-TTS模型;Cursor已支持网页和手机端;字节发布图像合成技术XVerse

    【AI日报】今日AI领域7大突破:1)阿里通义Qwen-TTS实现方言语音合成重大突破;2)Cursor发布Web版AI编程工具;3)字节XVerse技术实现多对象精准图像生成;4)NoteGen跨平台AI笔记工具革新知识管理;5)ManimML动画库可视化Transformer架构;6)TEN+Agent开源语音交互技术降低延迟;7)Chai-2抗体设计模型将药物研发周期缩短至两周。淘宝同时上线RecGPT推荐模型提升购物体验。

  • A日报:Kimi开放平台上线Kimi Playground;OpenAI重磅发布ChatGPT Agent;Suno推人声替换功能

    【AI日报】汇总了近期AI领域重要进展:1)月之暗面推出Kimi Playground平台,实现从对话助手到智能助理的转变;2)OpenAI发布ChatGPT Agent,支持自主执行浏览、购物等任务;3)Suno发布v4.5+版本,新增人声替换等音乐创作功能;4)谷歌Veo3视频生成模型上线,支持文本转视频;5)全球首个直播流扩散模型MirageLSD发布,实现实时视频转换;6)VSCode编程助手Traycer提升大型代码库处理效率;7)ART框架支持Python一键训练AI Agent;8)NVIDIA语音识别模型Canary-Qwen-2.5B词错率创新低;9)Mistral AI推出Le Chat挑战ChatGPT;10)百度小度上线首个支持物理交互的MCP Server;11)Lightricks的LTXV模型实现60秒高质量视频生成;12)开源模型LTX-Video13B支持30倍速高清视频生成。

  • 奇富科技信贷智能体:用 AI 重新定义金融智能体的 “专家级” 边界

    奇富科技通过AI驱动的金融智能体技术,正在重塑银行业信贷流程。其自主研发的Deepbank平台整合AI营销助手、审批官、决策助手和合规助手四大模块,将传统3天的数据分析流程压缩至1小时,实现从"经验依赖"到"智能驱动"的转变。该技术融合700+模型和7000+策略模块,覆盖99%小微企业群体,信用评估准确率达98%。通过与广东华兴银行等机构合作,奇富将"专家级"信贷能力注入银行系统,推动全流程智能化转型。这一创新不仅提升审批效率、降低合规风险,更重新定义了行业竞争维度——从技术比拼转向业务价值创造,助力银行在普惠金融和精准风控间找到平衡点。

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • A日报:月之暗面开源大模型Kimi K2;智源全面开源RoboBrain2.0;通义千问发布Qwen Chat桌面客户端

    本期AI日报重点报道了多项AI领域突破性进展:1.月之暗面推出万亿参数开源大模型Kimi K2,展现强大智能能力;2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统;3.通义千问发布桌面客户端Qwen Chat;4.IndexTTS2实现影视级语音合成;5.HuggingFace开源机器人Reachy Mini热销;6.Meta推出实时视频生成模型StreamDiT;7.PixVerse新增多关键帧视频生成功能;8.特斯拉推出仅支持AMD处理器的Grok AI助手;9.OpenAI推迟开源大模型发布以加强安全测试;10.Liquid AI开源边缘AI模型LFM2;11.AI"时间穿越"特效在社交媒体走红。

今日大家都在搜的词: