首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:阿里通义开源R1-Omni模型;全国第二例AIGC版权案判决;OpenAI发布智能体API

2025-03-12 15:41 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里通义开源R1-Omni模型 可提升多模态情感识别能力

通义实验室团队于3月11日开源了R1-Omni模型,标志着全模态模型的发展取得了重要进展。该模型通过结合强化学习与可验证奖励的方法,显著提升了多模态情感识别的推理能力和泛化性能。训练过程分为冷启动和RLVR两个阶段,确保了模型在多模态情感识别任务中的稳定性和效率。

image.png

【AiBase提要:】

🎥 R1-Omni模型结合强化学习与可验证奖励,专注于多模态情感识别的推理能力提升。

📊 在冷启动阶段,模型通过580条视频数据进行微调,为后续训练打下基础。

🌟 实验结果显示,R1-Omni在多个测试集上相较于基线模型提升超过35%,展现出卓越的泛化能力。

详情链接:https://arxiv.org/abs/2503.05379

2、OpenAI推出新工具,助力AI智能体从“回答问题”跨越到“执行任务”

OpenAI最近发布了一系列新工具,旨在简化AI智能体的开发流程并增强其功能。这些工具包括Responses API、Agents SDK和计算机使用工具,标志着AI从单纯回答问题向实际执行任务的转变。新工具的推出将显著提升AI在现实世界中的应用能力,为开发者提供更强大的支持,预计将在未来的科技发展中发挥重要作用。

image.png

【AiBase提要:】

🔄 新推出的Responses API结合聊天功能与多种集成工具,提供实时信息和引用来源,提升开发灵活性。

🔧 Agents SDK作为开源框架,协调多个智能体之间的复杂工作流程,提高信息检索效率。

💻 计算机使用工具使AI能够直接在计算机上执行任务,标志着AI功能的重大升级。

3、百度AI开源表格识别模型PP-TableMagic

3月11日,百度AI推出了PP-TableMagic,一个开源的表格识别解决方案,标志着表格结构化信息提取领域的重大进步。该技术通过创新的多模型组网架构,克服了传统表格识别在复杂场景下的局限性,实现了高精度的端到端表格识别,并支持模型的高定制化微调。PP-TableMagic的设计使其能够高效处理各种表格数据,极大地提升了文档智能理解和数据分析的能力,适应了数字化时代的需求。

微信截图_20250312082522.png

【AiBase提要:】

🛠️ PP-TableMagic采用多模型串联架构,提升了表格识别的精度和适应性。

📈 该模型支持定制化微调,能够满足不同场景的需求,减少数据标注工作量。

💻 提供详细的安装指南和使用教程,支持高性能推理和服务化部署。

详情链接:https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md

4、Manus与阿里云通义千问达成合作,共推国产AI智能体产品

人工智能Agent产品新秀Manus与阿里云旗下大语言模型通义千问达成战略合作,双方将基于通义千问系列开源模型,在国产模型和算力平台上实现Manus的全部功能。此举旨在为中国用户打造更具创造力的通用智能体产品。尽管Manus在发布后遇到了一些问题,但其早期预览版展示了自动执行复杂任务的能力,标志着国产AI技术的进步。

【AiBase提要:】

🤖 Manus与阿里云通义千问达成战略合作,推动国产AI智能体产品的发展。

🌐 双方将基于通义千问开源模型,实现Manus的全部功能,提升用户体验。

📈 Manus展示了自动执行复杂任务的能力,标志着全球首款通用智能体产品的发布。

5、告别平面!MIDI:可提取图片元素生成360度3D场景

MIDI技术的出现为我们带来了从单张2D图像生成360度3D场景的可能性。通过智能分割和多实例同步扩散,MIDI能够高效地构建出细致入微的3D环境,极大地提升了虚拟现实、游戏开发和室内设计等领域的内容创作效率。未来,用户只需拍摄一张照片,就能快速生成可交互的3D场景,真正实现“一键穿越”的梦想。

【AiBase提要:】

🖥️ MIDI通过智能分割技术,能够识别并提取2D图像中的独立元素,为3D场景构建提供基础。

🎶 采用多实例同步扩散,MIDI可同时对多个物体进行建模,提升了3D生成的效率与协调性。

🌍 MIDI在有限数据下展现出强大的泛化能力,生成的3D场景纹理细腻,效果真实。

详情链接:https://huanngzh.github.io/MIDI-Page/

6、视频局部编辑技术VideoPainter:输入提示词自动识别修改,支持长视频

VideoPainter是一款基于深度学习的视频编辑工具,能够通过简单的提示词自动识别并修改视频内容,尤其适合长视频处理。用户只需输入简短的指令,系统便能快速完成编辑,极大提升了视频制作的效率。其背后的Diffusion Transformer模型使得编辑过程更为精准,用户可以轻松实现创意转化,真正改变了视频编辑的游戏规则。

【AiBase提要:】

✨ 通过简单的提示词,VideoPainter能够自动识别并修改视频内容,提升编辑效率。

🎬 适合长视频处理,用户可以快速找到并修改特定片段,避免繁琐的传统编辑流程。

🚀 基于先进的DiT模型,VideoPainter提供高准确性和灵活性,让创意转化为现实变得简单。

详情链接:https://yxbian23.github.io/project/video-painter/

7、开源版OpenAI Operator来了!Nanobrowser浏览器的免费AI自动化超人

Nanobrowser是一款完全免费的开源工具,旨在为用户提供高效的网页自动化功能,同时确保数据安全和隐私。用户只需安装扩展程序并配置自己的LLM API密钥,即可享受顶级的自动化体验。与传统的RPA工具相比,Nanobrowser以其直观的操作界面和多代理系统,使得即使是小白用户也能轻松上手。

image.png

【AiBase提要:】

💰 Nanobrowser是完全免费的开源工具,无需订阅费用,用户可自主配置LLM API密钥。

🔒 所有操作在本地浏览器中进行,确保用户隐私和数据安全,避免敏感信息泄露。

🤖 支持OpenAI、Anthropic和Google等主流AI模型,提供直观的操作界面,适合不同层次的用户。

详情链接:https://github.com/nanobrowser/nanobrowser

8、Luma AI 开源的图像预训练技术IMM实现图像生成十倍提速

Luma AI 最近开源的 Inductive Moment Matching (IMM) 技术,显著提升了图像生成的速度和质量。通过创新的预训练算法,IMM 能够在推理阶段实现灵活跳跃,减少生成步骤,从而突破了生成式预训练的瓶颈。实验结果表明,IMM 在多个数据集上展现了卓越的性能,标志着多模态基础模型的新未来。

【AiBase提要:】

⚡ IMM 技术通过反向设计预训练算法,显著提升推理效率。

🏆 在 ImageNet 和 CIFAR-10数据集上,IMM 实现了前所未有的高质量生成。

🔧 IMM 训练稳定性强,适应性好,突破了传统模型的限制。

详情链接:https://github.com/lumalabs/imm

9、原字节跳动AI高管骆怡航加入生数科技任CEO 推进AI视频生成商业化

骆怡航的加入标志着生数科技在AI视频生成领域迈向了新的阶段。他的丰富经验和技术背景将有助于公司在多模态技术方面的进一步发展,尤其是在视频生成的商业化进程中。生数科技的创始人朱军与骆怡航的合作,预示着未来将推出更多创新产品,推动整个行业的发展。

【AiBase提要:】

👤 骆怡航作为新任CEO,将全面负责生数科技的研发和商业化进程。

📈 他在字节跳动的成功经验,尤其是AI产品线的管理,为生数科技带来了强大的技术支持。

🎥 生数科技即将推出的Vidu2.0将大幅提升视频生成效率,降低成本,推动行业发展。

10、全国第二例判决AIGC版权案:法院确认作者享有著作权

江苏省苏州市常熟市人民法院于3月7日宣判了一起备受瞩目的AI生成内容著作权纠纷案,标志着江苏省首例、全国第二例涉及AI生成内容的著作权案件。法院确认林某使用Midjourney软件生成的图片作品享有著作权,并指出其创作过程具有独创性,符合著作权法的保护要求。

【AiBase提要:】

🌟 江苏省首例AI著作权纠纷案宣判,法院确认作者享有著作权。

🖼️ 常熟市人民法院认为,林某对作品的创作具有独创性,构成著作权保护。

💰 法院判决侵权方公开道歉并赔偿1万元,未提出上诉,判决生效。

11、重生之我在小红书给AI当老板 元宝动不动崩溃,DeepSeek天天摸鱼

在小红书上,网友们化身AI公司的“霸道总裁”,在群聊中调侃和指挥各种AI模型,展现出一场幽默的AI职场闹剧。起初由网友Komorebi发起,随后引发广泛参与,大家分享了与AI打工仔的搞笑互动。尽管目前的BotGroup平台功能尚显简陋,但其新奇的玩法和AI的拟人化表现让人忍俊不禁,成为社交媒体的新热点。

【AiBase提要:】

🤖 网友们在小红书上化身AI公司的“霸道总裁”,调侃和指挥AI模型,形成一场幽默的职场闹剧。

💼 BotGroup网页应用让不同AI模型进入同一群聊,用户可以与AI互动并参与各种游戏,体验当老板的乐趣。

😂 尽管功能简陋,AI员工们的搞笑表现和互动仍然吸引了大量网友参与,成为社交媒体的新热点。

12、Domo AI 发布 i2v 模型升级:稳定性与提示词理解能力显著提升

Domo AI 最近对其图像到视频(i2v)模型进行了重大升级,提升了模型的稳定性和生成速度,同时增强了对用户提示词的理解能力。新模型可更准确地将静态图像转化为流畅动画,并支持多种风格转换,极大提高了内容创作者的创作效率和灵活性。

【AiBase 提要:】

🌟 新版 i2v 模型在生成速度和稳定性上有显著提高。

🎨 用户可通过模型快速实现多种风格转换,提升创作便利性。

💬 模型对用户提示词的理解能力显著增强,确保结果高度一致。

举报

  • 相关推荐
  • 共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

    10月28日,AtomGit平台在北京国家会议中心举行升级发布会,正式推出"开源+AI"一体化平台及人工智能开源社区。工信部副部长熊继军出席并致辞,强调建设AI开源社区对汇聚创新资源、把握科技革命机遇的重要意义。平台将整合开源模型、数据集及算力资源,打造开放中立的基础设施,计划于11月21日正式上线。华为、百度等企业代表分享了开源实践,多所高校签署了共建AI生态倡议。此举标志着我国开源生态迈向智能化时代的重要一步。

  • 人工智能巨头OpenAI拟上市 估值或高达1万亿美元

    OpenAI正积极推进上市计划,据知情人士透露,该公司可能最早于2026年下半年向证券监管机构提交上市申请,目标在2027年正式上市。 此次IPO的估值有望达到约1万亿美元,或将跻身全球规模最大的IPO之列。 在初步讨论中,OpenAI曾考虑通过上市筹集至少600亿美元资金,实际融资规模可能进一步扩大。

  • 厚植AI创新沃土!麒麟信安打造人工智能孵化器,赋能创业梦想

    10月28日,麒麟信安人工智能孵化器在长沙启动,旨在汇聚AI领域人才、技术与资本,构建开放协同的创新生态。该项目获湖南省多部门支持,已吸引60余个项目入围,组建了首批30余位专家导师团,并与多家顶尖机构共建联合体,通过政策扶持、资本对接等多维度赋能,培育优质AI项目在湘落地发展,助力区域打造人工智能产业创新高地。

  • 卖家精灵加入中国人工智能产业发展联盟(AIIA),加速AI赋能跨境电商

    卖家精灵凭借在跨境电商智能化运营与AI大数据应用领域的领先实力,近日正式加入中国人工智能产业发展联盟(AIIA),成为该国家级AI产业生态重要成员。此次加入标志着其AI技术实力获权威认可,未来将携手联盟推动AI技术研发与产业化,助力中国品牌全球化。依托八年积累的海量电商数据与算法体系,卖家精灵已构建覆盖选品决策、市场分析等全链路AI解决方案,服务超百万跨境卖家,显著提升运营效率与决策精准度。

  • 行业首个!海尔冰箱获ISO/IEC 42001人工智能管理体系认证

    2025年10月,海尔冰箱成为全球首个通过ISO/IEC42001人工智能管理体系认证的家电企业,标志着其AI技术研发与管理达国际领先水平。该认证覆盖语音交互、视觉识别、健康保鲜等核心功能全流程,确保用户数据安全与隐私保护。目前AI系统已应用于博观、麦浪等高端产品,推动智能冰箱行业规范化发展。未来海尔将持续优化AI技术,为用户提供更安全、智能的健康饮食体验。

  • 人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

    科杰科技董事善于洋在2025中国国际数字经济博览会发表演讲,强调高质量数据集是人工智能产业决胜关键。他指出,算力、算法和数据构成AI三大要素,而数据决定模型认知边界与输出可靠性。当前需构建Data&AI一体化平台作为核心基础设施,通过集中管理、分散赋能模式,打通数据采集、治理到AI训练全链路,推动产业智能化升级。该平台已在制造、金融等领域落地,助力企业释放数据要素价值,实现弯道超车。

  • 从识别到修复,联想想帮帮AI服务智能体打造你的AI智能维修管家

    AI时代重塑陪伴形式,联想“想帮帮AI服务智能体”以公益之心推出,通过五大功能(智玩、智验、智检、智修、智换)构建全流程闭环服务。它能随时响应、精准诊断、智能优化系统,一键解决电脑卡顿等问题,让用户省时省心。该服务强调责任与长期守护,结合北京领养日公益理念,传递科技向善、服务有爱的智能温度,重新定义AI陪伴的全部意义。

  • 十方融海小智AI:以科技温度诠释“人工智能+”时代的人文关怀

    近日,小女孩“小十三”与十方融海研发的小智AI机器人深情告别的视频走红网络。这段1分17秒的对话不仅让无数网友泪目,更展现了AI技术的情感温度。十方融海团队迅速响应,跨越600公里为女孩送上定制版机器人作为生日礼物,并推出儿童心理陪伴计划。该事件体现了“人工智能+教育”的深刻内涵,彰显科技企业的人文关怀与社会担当,成为“技术向善”的生动实践。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 专注供应链单据识别 | 运小沓AI单证平台,单据识别提效500%

    供应链数字化进程中,单证处理效率低下是行业痛点。海运/空运托书、报关草单等核心单证格式复杂、人工录入易错,通用识别工具难以适配。运小藄AI单证平台通过自研大模型实现"无需定制、一键识别、精准高效"的智能处理,覆盖全场景单证类型,支持无缝对接业务系统。实际应用显示:托书录入效率提升500%,错误率降至0.1%以下;报关草单制单效率提升300%,有效解决"订舱等不起、报关错不起、定制用不起"三大难题。

今日大家都在搜的词: