首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:阿里通义开源R1-Omni模型;全国第二例AIGC版权案判决;OpenAI发布智能体API

2025-03-12 15:41 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里通义开源R1-Omni模型 可提升多模态情感识别能力

通义实验室团队于3月11日开源了R1-Omni模型,标志着全模态模型的发展取得了重要进展。该模型通过结合强化学习与可验证奖励的方法,显著提升了多模态情感识别的推理能力和泛化性能。训练过程分为冷启动和RLVR两个阶段,确保了模型在多模态情感识别任务中的稳定性和效率。

image.png

【AiBase提要:】

🎥 R1-Omni模型结合强化学习与可验证奖励,专注于多模态情感识别的推理能力提升。

📊 在冷启动阶段,模型通过580条视频数据进行微调,为后续训练打下基础。

🌟 实验结果显示,R1-Omni在多个测试集上相较于基线模型提升超过35%,展现出卓越的泛化能力。

详情链接:https://arxiv.org/abs/2503.05379

2、OpenAI推出新工具,助力AI智能体从“回答问题”跨越到“执行任务”

OpenAI最近发布了一系列新工具,旨在简化AI智能体的开发流程并增强其功能。这些工具包括Responses API、Agents SDK和计算机使用工具,标志着AI从单纯回答问题向实际执行任务的转变。新工具的推出将显著提升AI在现实世界中的应用能力,为开发者提供更强大的支持,预计将在未来的科技发展中发挥重要作用。

image.png

【AiBase提要:】

🔄 新推出的Responses API结合聊天功能与多种集成工具,提供实时信息和引用来源,提升开发灵活性。

🔧 Agents SDK作为开源框架,协调多个智能体之间的复杂工作流程,提高信息检索效率。

💻 计算机使用工具使AI能够直接在计算机上执行任务,标志着AI功能的重大升级。

3、百度AI开源表格识别模型PP-TableMagic

3月11日,百度AI推出了PP-TableMagic,一个开源的表格识别解决方案,标志着表格结构化信息提取领域的重大进步。该技术通过创新的多模型组网架构,克服了传统表格识别在复杂场景下的局限性,实现了高精度的端到端表格识别,并支持模型的高定制化微调。PP-TableMagic的设计使其能够高效处理各种表格数据,极大地提升了文档智能理解和数据分析的能力,适应了数字化时代的需求。

微信截图_20250312082522.png

【AiBase提要:】

🛠️ PP-TableMagic采用多模型串联架构,提升了表格识别的精度和适应性。

📈 该模型支持定制化微调,能够满足不同场景的需求,减少数据标注工作量。

💻 提供详细的安装指南和使用教程,支持高性能推理和服务化部署。

详情链接:https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md

4、Manus与阿里云通义千问达成合作,共推国产AI智能体产品

人工智能Agent产品新秀Manus与阿里云旗下大语言模型通义千问达成战略合作,双方将基于通义千问系列开源模型,在国产模型和算力平台上实现Manus的全部功能。此举旨在为中国用户打造更具创造力的通用智能体产品。尽管Manus在发布后遇到了一些问题,但其早期预览版展示了自动执行复杂任务的能力,标志着国产AI技术的进步。

【AiBase提要:】

🤖 Manus与阿里云通义千问达成战略合作,推动国产AI智能体产品的发展。

🌐 双方将基于通义千问开源模型,实现Manus的全部功能,提升用户体验。

📈 Manus展示了自动执行复杂任务的能力,标志着全球首款通用智能体产品的发布。

5、告别平面!MIDI:可提取图片元素生成360度3D场景

MIDI技术的出现为我们带来了从单张2D图像生成360度3D场景的可能性。通过智能分割和多实例同步扩散,MIDI能够高效地构建出细致入微的3D环境,极大地提升了虚拟现实、游戏开发和室内设计等领域的内容创作效率。未来,用户只需拍摄一张照片,就能快速生成可交互的3D场景,真正实现“一键穿越”的梦想。

【AiBase提要:】

🖥️ MIDI通过智能分割技术,能够识别并提取2D图像中的独立元素,为3D场景构建提供基础。

🎶 采用多实例同步扩散,MIDI可同时对多个物体进行建模,提升了3D生成的效率与协调性。

🌍 MIDI在有限数据下展现出强大的泛化能力,生成的3D场景纹理细腻,效果真实。

详情链接:https://huanngzh.github.io/MIDI-Page/

6、视频局部编辑技术VideoPainter:输入提示词自动识别修改,支持长视频

VideoPainter是一款基于深度学习的视频编辑工具,能够通过简单的提示词自动识别并修改视频内容,尤其适合长视频处理。用户只需输入简短的指令,系统便能快速完成编辑,极大提升了视频制作的效率。其背后的Diffusion Transformer模型使得编辑过程更为精准,用户可以轻松实现创意转化,真正改变了视频编辑的游戏规则。

【AiBase提要:】

✨ 通过简单的提示词,VideoPainter能够自动识别并修改视频内容,提升编辑效率。

🎬 适合长视频处理,用户可以快速找到并修改特定片段,避免繁琐的传统编辑流程。

🚀 基于先进的DiT模型,VideoPainter提供高准确性和灵活性,让创意转化为现实变得简单。

详情链接:https://yxbian23.github.io/project/video-painter/

7、开源版OpenAI Operator来了!Nanobrowser浏览器的免费AI自动化超人

Nanobrowser是一款完全免费的开源工具,旨在为用户提供高效的网页自动化功能,同时确保数据安全和隐私。用户只需安装扩展程序并配置自己的LLM API密钥,即可享受顶级的自动化体验。与传统的RPA工具相比,Nanobrowser以其直观的操作界面和多代理系统,使得即使是小白用户也能轻松上手。

image.png

【AiBase提要:】

💰 Nanobrowser是完全免费的开源工具,无需订阅费用,用户可自主配置LLM API密钥。

🔒 所有操作在本地浏览器中进行,确保用户隐私和数据安全,避免敏感信息泄露。

🤖 支持OpenAI、Anthropic和Google等主流AI模型,提供直观的操作界面,适合不同层次的用户。

详情链接:https://github.com/nanobrowser/nanobrowser

8、Luma AI 开源的图像预训练技术IMM实现图像生成十倍提速

Luma AI 最近开源的 Inductive Moment Matching (IMM) 技术,显著提升了图像生成的速度和质量。通过创新的预训练算法,IMM 能够在推理阶段实现灵活跳跃,减少生成步骤,从而突破了生成式预训练的瓶颈。实验结果表明,IMM 在多个数据集上展现了卓越的性能,标志着多模态基础模型的新未来。

【AiBase提要:】

⚡ IMM 技术通过反向设计预训练算法,显著提升推理效率。

🏆 在 ImageNet 和 CIFAR-10数据集上,IMM 实现了前所未有的高质量生成。

🔧 IMM 训练稳定性强,适应性好,突破了传统模型的限制。

详情链接:https://github.com/lumalabs/imm

9、原字节跳动AI高管骆怡航加入生数科技任CEO 推进AI视频生成商业化

骆怡航的加入标志着生数科技在AI视频生成领域迈向了新的阶段。他的丰富经验和技术背景将有助于公司在多模态技术方面的进一步发展,尤其是在视频生成的商业化进程中。生数科技的创始人朱军与骆怡航的合作,预示着未来将推出更多创新产品,推动整个行业的发展。

【AiBase提要:】

👤 骆怡航作为新任CEO,将全面负责生数科技的研发和商业化进程。

📈 他在字节跳动的成功经验,尤其是AI产品线的管理,为生数科技带来了强大的技术支持。

🎥 生数科技即将推出的Vidu2.0将大幅提升视频生成效率,降低成本,推动行业发展。

10、全国第二例判决AIGC版权案:法院确认作者享有著作权

江苏省苏州市常熟市人民法院于3月7日宣判了一起备受瞩目的AI生成内容著作权纠纷案,标志着江苏省首例、全国第二例涉及AI生成内容的著作权案件。法院确认林某使用Midjourney软件生成的图片作品享有著作权,并指出其创作过程具有独创性,符合著作权法的保护要求。

【AiBase提要:】

🌟 江苏省首例AI著作权纠纷案宣判,法院确认作者享有著作权。

🖼️ 常熟市人民法院认为,林某对作品的创作具有独创性,构成著作权保护。

💰 法院判决侵权方公开道歉并赔偿1万元,未提出上诉,判决生效。

11、重生之我在小红书给AI当老板 元宝动不动崩溃,DeepSeek天天摸鱼

在小红书上,网友们化身AI公司的“霸道总裁”,在群聊中调侃和指挥各种AI模型,展现出一场幽默的AI职场闹剧。起初由网友Komorebi发起,随后引发广泛参与,大家分享了与AI打工仔的搞笑互动。尽管目前的BotGroup平台功能尚显简陋,但其新奇的玩法和AI的拟人化表现让人忍俊不禁,成为社交媒体的新热点。

【AiBase提要:】

🤖 网友们在小红书上化身AI公司的“霸道总裁”,调侃和指挥AI模型,形成一场幽默的职场闹剧。

💼 BotGroup网页应用让不同AI模型进入同一群聊,用户可以与AI互动并参与各种游戏,体验当老板的乐趣。

😂 尽管功能简陋,AI员工们的搞笑表现和互动仍然吸引了大量网友参与,成为社交媒体的新热点。

12、Domo AI 发布 i2v 模型升级:稳定性与提示词理解能力显著提升

Domo AI 最近对其图像到视频(i2v)模型进行了重大升级,提升了模型的稳定性和生成速度,同时增强了对用户提示词的理解能力。新模型可更准确地将静态图像转化为流畅动画,并支持多种风格转换,极大提高了内容创作者的创作效率和灵活性。

【AiBase 提要:】

🌟 新版 i2v 模型在生成速度和稳定性上有显著提高。

🎨 用户可通过模型快速实现多种风格转换,提升创作便利性。

💬 模型对用户提示词的理解能力显著增强,确保结果高度一致。

举报

  • 相关推荐
  • AI日报:昆仑万维天工超级智能体发布OpenAI核心API支持MCP;百度飞桨PaddleOCR 3.0开源

    【AI日报】汇总了近期AI领域重要动态:1)百度飞桨发布PaddleOCR3.0,提升文字识别精度13%;2)昆仑万维发布天工超级智能体,AI办公成本仅为OpenAI的40%;3)OpenAI API新增MCP支持简化开发流程;4)xAI推出实时网页搜索API;5)谷歌Sparkify可将问题秒变动画;6)Mistral发布高效代码模型Devstral;7)Video Ocean推出4K视频生成工具;8)谷歌推出AI内容识别工具SynthID;9)谷歌NotebookLM使用量半年增长56%;10)硅基流动升级128K长文本模型;11)DeepMind发布音乐生成模型Lyria2;12)多模态大模型MMaDA实现跨模态推理;13)微软发布网页智能体Magentic-UI;14)Framer推出AI建站套件。

  • 阿里通义成了AI的“黄埔军校”?

    从去年开始,各大科技巨头就纷纷调整战略,加大了人才招揽的力度:腾讯的“青云计划”以“业界Top0级别薪资”和“不设职级上限”吸引顶尖人才,并计划新增2.8万实习岗位以充实后备力量;字节跳动则启动“Top Seed计划”,专门为大模型、多模态等前沿领域的顶尖博士

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • AI日报:QQ浏览器升级为AI浏览器;OpenAI新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • OpenAI发布云端AI编程智能体Codex:代码准确率高达90%

    OpenAI于5月19日正式推出基于Codex-1模型的云端AI编程智能体Codex。该工具具备强大的代码生成与理解能力,支持Python、JavaScript、C等主流语言,覆盖前后端开发、算法实现等多个领域。测试显示其处理常规编程任务的速度远超人工,代码准确率达90%以上,能显著提升开发效率。Codex深度集成GitHub,支持智能代码补全和结构化代码自动生成,使开发者平均编码时间缩短30%。目前该服务已面向ChatGPT+Pro等高级用户开放,未来有望成为软件开发领域的标配工具,推动AI辅助编程进入新阶段。

  • AI日报阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报:DeepSeek开源R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • AI日报阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • 超越OpenAI、拿下球双料第一,“AI吴彦祖”背后大模型SOTA了!

    超越OpenAI! 国产大模型突袭,AI语音生成天花板被重新定义了。 MiniMax最新发布Speech-02,同时拿下Artificial Analysis Speech Arena和Hugging Face TTS Arena两项全球权威语音基准测评第一!