首页 > 业界 > 关键词  > 人工智能最新资讯  > 正文

AI日报:昆仑万维天工智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

2025-05-26 16:13 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、全球首款Office智能体APP!昆仑万维天工超级智能体APP上线

昆仑万维集团推出全球首款基于AI Agent架构的Office智能体手机应用,天工超级智能体APP通过四大智能体协同工作,重新定义移动办公效率,支持跨端协同和私人知识库搭建,未来还将扩展至更多领域。

6388384555375819598691648.png

【AiBase提要:】

✨ 天工超级智能体APP是全球首款基于AI Agent架构的Office智能体手机应用,重新定义移动办公效率。

💻 支持跨端协同和私人知识库搭建,实现文档、PPT、表格和通用智能体的高效协作。

🌍 计划扩展至教育、医疗、法律等垂直领域,并优化多语言支持,覆盖更多市场。

2、最新研究:ChatGPT 助力中小学生学习成效提升近87%

研究表明,利用 ChatGPT 等大型语言模型可显著提升 K12阶段学生的学习成绩,整体提升达86.7%,并能增强高阶思维能力。

image.png

【AiBase提要:】

✨ 使用 ChatGPT 学生学习成绩平均提升0.867个标准差,涵盖多学科。

🧠 学生高阶思维能力提升0.457个标准差,推理与创新能力得到增强。

📚 能减轻学生精神负担,提升学习积极性,尤其在技能课程中表现突出。

3、谷歌通过 Gemini 应用扩展了其热门新视频机型 Veo3的访问权限

谷歌的AI视频生成工具Veo3在发布后迅速扩展到全球更多地区,但未涵盖欧盟。Gemini Pro和Ultra用户享有不同配额,Veo3虽受关注但也引发对虚假信息传播的担忧。

【AiBase提要:】

🌟 Veo3现支持71国用户,但欧盟暂未开放。

🎥 Gemini Ultra用户每月享125次生成机会,Pro用户仅10次。

⚠️ 能生成逼真虚假内容,可能威胁信息真实性。

4、谷歌重磅发布三大Gemma模型变体,AI医疗、手语翻译与海豚语言解锁新可能!

谷歌推出了MedGemma、SignGemma和DolphinGemma三款基于Gemma架构的人工智能模型,分别针对医疗、手语翻译和海豚语言研究领域,展示了AI技术在跨领域应用的巨大潜力。

6388384771738084508743444.png

【AiBase提要:】

🌟 MedGemma革新医疗AI,助力精准诊疗,提供多模态和文字推理两种模型。

🗣️ SignGemma专注手语翻译,支持ASL到英语,促进无障碍沟通。

🐬 DolphinGemma解析海豚语言,探索跨物种交流,为科学研究提供新工具。

5、AI教育革命!VideoTutor一句话即可生成K12定制教学视频

作为一款创新的AI教育工具,VideoTutor凭借其强大的一键生成功能和多语言支持,为K12教育和SAT备考带来了全新的学习体验。

image.png

【AiBase提要:】

🌟 一键生成个性化教学视频,输入问题或上传截图即可获得直观易懂的讲解。

🌍 支持多语言生成,灵活适配不同年级和语言需求,打破语言障碍。

📚 教学内容逻辑清晰,视觉效果直观,有效提升学习效率,减轻教师备课负担。

6、字节跳动推出开源多模态模型BAGE

字节跳动发布了最新开源多模态基础模型BAGEL,该模型在图像理解和生成方面表现出色,超越了许多主流开源视觉语言模型,展示了强大的文本转图像生成能力和复杂的图像编辑功能。

【AiBase提要:】

✨ BAGEL基于70亿参数规模,超越主流VLM如Qwen2.5-VL和InternVL-2.5,在图像理解、生成和编辑任务中表现卓越。

🌐 模型采用混合变压器-专家结构,支持高效多模态预训练,具备文本转图像生成能力,媲美专业生成器Stable Diffusion3。

🤝 提供开源模型、评估脚本、使用文档及Gradio WebUI,鼓励社区参与优化并推动模型进步。

详情链接:https://github.com/ByteDance-Seed/Bagel

7、AI开发神器Rork:一句话打造iOS+Android应用,零编程也能当开发者!

Rork是一款AI驱动的无代码开发工具,通过自然语言描述即可生成完整应用,支持iOS和Android双平台,极大降低开发门槛。

image.png

【AiBase提要:】

✨一键生成应用:无需编程经验,用自然语言描述即可快速生成功能齐全的应用。

📱跨平台支持:基于React Native技术,同时支持iOS和Android,提供原生体验。

🌟智能集成后端:自动整合Supabase、Firebase等数据库,简化开发流程。

详情链接:https://rork.com/

8、AI新手福音!AingDesk一键打造智能助手,多模型对话即将引爆

AingDesk是一款对新手友好的AI助手构建工具,支持本地知识库、联网搜索、智能体构建及多模型对话等功能,降低了AI助手开发的技术门槛,使更多人能参与其中。

6388385619746952201728160.png

【AiBase提要:】

🌟零门槛设计,无需编程经验即可快速构建个性化智能助手。

🌐支持本地与云端灵活部署,兼顾隐私保护与高效性能。

💬联网搜索与智能体构建功能强大,即将推出多模型对话功能提升响应质量。

详情链接:https://github.com/aingdesk/AingDesk

9、Claude4登陆Amazon Bedrock 企业AI的‘最后一公里’打通了

Anthropic 推出最新Claude4系列大模型,包含 Claude Opus4和 Claude Sonnet4,分别面向高复杂性和高并发场景。两款模型均支持强大的上下文理解和多步推理能力,在多个行业测试中表现优异。

image.png

【AiBase提要:】

🌟Claude4系列新模型Claude Opus4和Claude Sonnet4在Amazon Bedrock平台上线,标志着Agentic AI进入企业级应用新时代。

🚀Claude Opus4被誉为‘全球最佳编码模型’,适合高复杂性任务,Sonnet4则优化了推理和编码能力,适合高并发场景。

🌐开发者可通过Amazon Bedrock统一API访问Claude4系列,实现与多种主流模型的无缝切换,显著提高任务完成率和执行精度。

10、Youware重磅更新:MCP加持一键生成复杂网页,AI建站进入新时代!

Youware通过深度集成Model Context Protocol (MCP),显著提升了网页生成的能力与效率,推出积分系统和社区功能,为用户带来更便捷的创作体验。

image.png

【AiBase提要:】

✨通过MCP实现智能化网页生成,用户只需简单提示即可一键生成复杂网页。

🌟推出积分系统和社区功能,为创作者提供收益激励和互动平台。

💻简化建站流程,降低门槛,支持多种MCP服务,提升用户体验。

举报

  • 相关推荐
  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • AI日报:字节将发布AI编程工具TRAE2.0版本;Mistral重磅推出音频模型Voxtral;月之暗面回应Kimi K2 API速度慢

    AI日报栏目聚焦AI领域最新动态:1)字节跳动将发布TRAE 2.0编程工具,新增语音交互功能;2)Mistral推出开源音频模型Voxtral,支持多语言;3)月之暗面回应Kimi K2API速度慢问题,正在优化系统;4)昆仑万维发布AgentOrchestra框架,实现多智能体协作;5)OpenAI前CTO创立的Thinking Machines Lab获20亿美元融资;6)Kimi-2上线,性能超越GPT-4.1;7)TRAE推出Kimi-K2模型服务,国际版支持Grok-4;8)字节跳动Seed�

  • AI日报:美图发布影像AI Agent RoboNeo;1.8bit量化Kimi K2模型上线;亚马逊推AI代码编辑器 Kiro

    【AI日报】今日AI领域重要动态:1)美图推出RoboNeo,通过自然语言指令实现图片精修、品牌设计等全能影像处理;2)Unsloth AI将Kimi K2模型量化至1.8bit,体积缩减78%保持性能;3)谷歌Gemini嵌入模型登顶MTEB榜单,超越OpenAI;4)亚马逊发布免费AI代码编辑器Kiro,集成Claude模型;5)Claude新增应用工具目录功能提升工作效率;6)MiniMax完成近3亿美元融资,估值超40亿美元;7)UTCP新协议让AI代理直

  • OpenAI发布ChatGPT Agent智能体:支持写代码、做PPT、分析金融

    OpenAI推出ChatGPT智能体,整合网页交互、数据搜索与多模态协作功能,可完成代码生成、PPT制作、金融分析等复杂任务。该智能体融合Operator的网页自动化操作、Deep Research的数据分析能力及优化后的GPT-4对话引擎三大核心模块。目前面向付费用户开放,Pro版近乎无限使用,其他版本每月限50次任务。OpenAI承认其仍存在金融建模需人工验证、非英语文本解析准确率低等技术局限,并

  • 刚刚,OpenAI通用智能体ChatGPT Agent正式登场

    ​Agent AI 时代,比我们想象中来得要早一些。 北京时间周五凌晨,OpenAI 突然开启了新产品直播。 本次发布的是全新的 ChatGPT Agent,它实现了通用智能体(Agent)能力的关键升级。

  • 三维天地AI智能体应用:数据资源盘点实现“自动驾驶”

    传统数据治理存在效率低下、深度不足、准确性差三大痛点。SunwayLink开发的智能体通过三大创新突破:1)自动生成数据目录,缩短盘点周期60%;2)NLP技术智能洞察数据内容,元数据填充率从20%提升至85%;3)动态监控元数据变更,自动更新并预警。某军工单位应用后,数据发现效率显著提升,血缘覆盖率达75%,自动化任务占比超80%。该方案实现了从"人治"到"智治"的转型,推动企业数字化升级。

  • 三维天地AI智能体应用落地场景:赋能法务合同审核

    文章探讨了AI智能体在合同管理领域的应用突破。针对传统人工审核模式效率低、风险高、成本失控等问题,基于SunwayLink平台开发的"数字法务"智能体实现了三大创新:1)认知层面融合法律大模型与行业知识图谱;2)决策环节建立风险评估体系,涵盖法律合规、商业履约等模块;3)执行层面与CLM系统打通实现全流程自动化。应用案例显示,某地产集团部署后审查效率提升80%,合同审批周期从10天缩短至3天,重大条款漏检率为零。未来展望指出,AIGC驱动的智能合同生成和预测性风控将成为趋势,推动企业从"人工检查"向"数字法务"转型。该方案重构了企业契约管理模式,穿透效率瓶颈与风险迷雾。

  • MasterAgent颠覆性上线:一键式生成智能体集群,分钟级构建专属AI协作网络

    全球首个L4+级智能体母系统MasterAgent在深圳发布,标志着AI从"被动执行工具"升级为能主动思考、跨界解决问题的"数字伙伴"。该系统突破性实现三大功能:一键生成智能体集群、多智能体自主协作、灵活定制优化。核心技术突破包括动态Agent生成框架将开发周期压缩至分钟级,以及去中心化多智能体协同机制,支持数百个智能体像"数字团队"一样高效协作。由深圳深元人工智能科技自主研发,其团队依托中国科学技术大学专家资源,已快速成长为国家级高新技术企业。这一突破让AI真正成为能创造实际价值的"新生产力单元"。

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。