首页 > 原创 > 关键词  > AI视频生成最新资讯  > 正文

AI日报:阿里通义万相首尾帧生视频模型;豆包开源Seed智能体模型UI-TARS-1.5;OpenAI首发“智能体实践指南”

2025-04-18 15:27 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里通义万相首尾帧生视频模型Wan2.1-FLF2V-14B开源

阿里巴巴的通义实验室在Hugging Face和GitHub上开源了Wan2.1-FLF2V-14B模型,标志着AI视频生成技术的重大进步。该模型支持高清视频生成,并通过用户提供的首尾帧实现流畅的动画过渡,具备多种功能如文本到视频、视频编辑等。开源特性降低了技术门槛,吸引了开发者的关注,推动了AI视频创作的广泛应用。

【AiBase提要:】

📸 支持首尾帧控制,用户仅需提供两张图片即可生成流畅的5秒720p高清视频。

🚀 模型具备多模态支持,除了视频生成,还可进行文本引导的图像和音频生成,拓展了创作场景。

🌐 开源生态促进了开发者的参与,阿里推出的免费体验活动进一步激发了社区反馈与优化。

详情链接:https://github.com/Wan-Video/Wan2.1

2、字节豆包开源 Seed 智能体模型 UI-TARS-1.5

字节跳动的UI-TARS-1.5模型在多模态智能体领域取得了显著进展,特别是在GUI操作和游戏推理方面。该模型通过强化学习增强了高阶推理能力,展现出在复杂任务中的优越表现。开源的UI-TARS-1.5为开发者提供了强大的工具,推动了多模态智能体技术的发展,未来将继续优化以接近人类水平。

image.png

【AiBase提要:】

🖥️ UI-TARS-1.5在7个GUI评测基准中取得了SOTA表现,展现了长时推理和交互能力。

🎮 在游戏任务中,UI-TARS-1.5展现了稳定的推断时扩展性,并在Minecraft中验证了其“思考-再行动”机制的有效性。

📈 该模型通过视觉感知增强和System2推理机制,实现了精准的GUI操作,降低了开发门槛。

详情链接:https://github.com/bytedance/UI-TARS - Website:https://seed-tars.com/ - Arxiv:https://arxiv.org/abs/2501.12326

3、OpenAI 发布“智能体构建实践指南”实用性文档(附文档资源)

OpenAI近期发布的《构建智能体实践指南》为产品和工程团队提供了构建智能体系统的必要知识与最佳实践。该指南详细阐述了智能体的定义、设计及安全部署,强调智能体与传统软件的根本区别,特别适用于复杂决策和处理非结构化数据的场景。

image.png

【AiBase提要:】

🧠 智能体具备高度自主性,能够代表用户完成复杂工作流程,区别于传统软件的自动化功能。

🔧 构建智能体需要考虑模型、工具和指令等核心组成部分,以确保智能体的有效性和可靠性。

🔒 安全护栏是管理数据隐私和声誉风险的关键,开发者需设置多层防护措施以应对潜在风险。

详情链接:https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf

4、腾讯混元InstantCharacter开源,高度角色一致性、自定义姿势、样式和场景

腾讯混元团队正式开源了InstantCharacter框架,这一基于扩散变换器的角色个性化工具,具备高一致性和灵活性,能够从单张图像生成多样化的角色定制,适用于多种艺术风格。该框架的开源将降低角色定制的技术门槛,激发全球开发者的创新热情,同时也需关注版权和伦理问题。

【AiBase提要:】

🖼️ 单图驱动:仅需一张角色图像和文本提示即可生成多样化的姿势、风格和场景。

🔄 高一致性:通过先进的DiT架构,确保生成图像在角色特征上的高度一致性。

🌈 风格多样性:支持写实、动漫、卡通等多种风格,满足不同创作需求。

详情链接:https://huggingface.co/spaces/InstantX/InstantCharacter

5、视频扩散革新技术FramePack:仅需6GB显存,1.5秒/帧

FramePack是一项革命性的视频扩散技术,其低显存需求和高效生成能力使其成为视频生成领域的游戏规则改变者。仅需6GB显存,FramePack能够实现全帧率下的千帧视频生成,极大降低了技术的应用门槛。此外,其生成速度在优化后可达到1.5秒/帧,为内容创作和实时应用提供了新的可能性。

【AiBase提要:】

💻 FramePack仅需6GB显存,能够在30fps下生成千帧视频,降低了技术门槛。

⚡ 生成速度惊人,未优化情况下为2.5秒/帧,优化后可达1.5秒/帧,适合多种应用场景。

🌍 该技术为内容创作、游戏开发及边缘计算等领域提供了广泛的应用前景,推动视频生成技术的“平民化”。

详情链接:https://lllyasviel.github.io/frame_pack_gitpage/

6、谷歌推出全新 Gemini2.5Flash:智慧与速度兼具的 AI 助手

谷歌最新推出的 Gemini2.5Flash 版本在推理能力上进行了显著升级,特别是引入了全混合推理模型,使开发者可以根据需求灵活控制思考过程中的成本和延迟。通过设定思考预算,开发者能够在质量与效率之间找到理想的平衡点。此版本在处理复杂任务时表现出色,尤其是在多步骤推理的场景中,展现了其卓越的性能和灵活性。

image.png

【AiBase提要:】

💡 Gemini2.5Flash 引入全混合推理模型,允许开发者选择启用思考功能,灵活控制推理过程。

⚙️ 开发者可以设定思考预算,平衡质量、成本和延迟,满足不同任务的需求。

📊 在 LMArena 的“困难提示”测试中,Gemini2.5Flash 表现优异,仅次于2.5Pro,展现了其强大的推理能力。

7、OpenAI推出Flex处理API,助力低成本 AI 应用

OpenAI最近推出了Flex处理API,以应对激烈的人工智能市场竞争。该API允许用户以更低的成本使用AI模型,尽管在响应速度和可用性上有所妥协。Flex处理特别适合低优先级和非生产性任务,显著降低了使用成本,尤其在当前AI服务普遍上涨的背景下,提供了一个经济实惠的选择。

【AiBase提要:】

💰 Flex处理API使用户能够以更低的成本使用AI模型,适合预算有限的开发者。

⚡ 使用Flex处理时,o3模型的输入词元价格降至每百万个5美元,输出词元降至每百万个20美元。

🔒 为确保合理使用,开发者需通过身份验证流程访问o3模型,维护平台安全。

8、Midjourney图像编辑器迎来重大更新:全新UI、图层功能与智能工具上线

Midjourney于2025年4月17日发布了其图像编辑器的重要更新,优化了用户体验并引入了多项创新功能,包括全新的用户界面、图层功能、智能选择工具和升级的内容审核机制。这些改进不仅提升了编辑效率和灵活性,还增强了平台的安全性,进一步巩固了Midjourney在AI创意工具领域的领先地位。

image.png

【AiBase提要:】

🖌️ 全新用户界面优化,提升操作效率与创作体验,适合专业设计师与新手用户。

📂 引入图层功能,允许用户对图像进行分层管理,增强创作灵活性与精确度。

🔍 新增智能选择工具,利用AI算法简化复杂编辑操作,提高编辑效率。

9、微软推出新型语言模型 BitNet b1.582B4T,仅占用0.4GB内存

微软研究团队发布的开源语言模型BitNet b1.582B4T以其20亿参数和仅0.4GB的内存占用引起关注。该模型采用创新的1.58位低精度架构,显著降低了计算资源需求,相较于同类产品表现出色。经过预训练和微调,BitNet在多个基准测试中表现优异,且能耗和解码延迟具有明显优势。

image.png

【AiBase提要:】

🌟 该模型具有20亿参数,内存占用仅为0.4GB,显著低于同类产品。

🔧 采用创新架构,放弃传统16位数值,使用1.58位低精度存储权重。

🚀 已经在 Hugging Face 发布,微软计划进一步优化模型功能与性能。

详情链接:https://arxiv.org/html/2504.12285v1

10、Genspark Super Agent新增文件转换工具,支持转换超400种文件格式

Genspark Super Agent推出了全新的文件转换工具,支持超过400种文件格式的互转,极大提升了用户的办公效率。该工具操作简便,用户只需上传文件并选择目标格式,即可快速完成转换。其智能优化和无缝集成的特点,使得这一工具成为个人和企业用户在日常办公中不可或缺的助手。

image.png

【AiBase提要:】

📁 支持超过400种文件格式的互转,满足多样化的办公需求。

⚡ 转换过程智能优化,减少信息丢失,提升文件编辑灵活性。

💡 提供每日200个免费信用额度,降低用户使用AI技术的门槛。

详情链接:https://page.genspark.site/page/toolu_015jDXJp3H2Whpw4V2vS71sH/genspark_file_converter_orange_n_icon.html

11、智谱Z基金出资3亿支持全球开源社区 北京追加投资2亿元

北京市人工智能产业投资基金再次追加对智谱的投资,旨在支持其开源模型研发和社区生态建设。智谱作为国内AI大模型企业的佼佼者,已在多个领域积累了丰富的模型能力,并拥有庞大的开发者社区。此次投资将进一步推动智谱在开源生态中的发展,助力其在2025年实现全面开源的目标,促进人工智能的普惠发展。

【AiBase提要:】

💡 北京市人工智能产业投资基金追加投资智谱2亿元,支持开源模型研发。

🌍 智谱计划出资3亿元支持全球AI开源社区,鼓励基于开源模型的创业项目。

📈 自成立以来,智谱已开源55款模型,下载量近4000万次,致力于推动AI普惠。

12、理想同学MindGPT3.0上线:深度思考能力媲美DeepSeek

理想汽车最近宣布其智能助手“理想同学”完成了重要升级,搭载的MindGPT3.0模型现已全面上线。这次升级不仅提升了人工智能的性能,尤其是深度思考能力,使其能与行业领先的模型相媲美。用户可以通过手机App和网页版免费体验这一新模型,享受更智能的交互方式,提升了语音输入的理解能力和容错能力,同时在复杂指令处理上也表现出色。

image.png

【AiBase提要:】

🚀 MindGPT3.0模型的升级显著提升了深度思考能力,用户体验更智能高效。

🔍 该模型支持结构化思维链展示,用户可以直观了解助手的思考过程。

🛠️ 新增的无关历史对话过滤功能有效提高了回复的准确性,改善了用户体验。

举报

  • 相关推荐
  • AI日报:QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • AI日报:昆仑万维天工超级智能体发布;OpenAI核心API支持MCP;百度飞桨PaddleOCR 3.0开源

    【AI日报】汇总了近期AI领域重要动态:1)百度飞桨发布PaddleOCR3.0,提升文字识别精度13%;2)昆仑万维发布天工超级智能体,AI办公成本仅为OpenAI的40%;3)OpenAI API新增MCP支持简化开发流程;4)xAI推出实时网页搜索API;5)谷歌Sparkify可将问题秒变动画;6)Mistral发布高效代码模型Devstral;7)Video Ocean推出4K视频生成工具;8)谷歌推出AI内容识别工具SynthID;9)谷歌NotebookLM使用量半年增长56%;10)硅基流动升级128K长文本模型;11)DeepMind发布音乐生成模型Lyria2;12)多模态大模型MMaDA实现跨模态推理;13)微软发布网页智能体Magentic-UI;14)Framer推出AI建站套件。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • 网易数智发布CoreAgent智能体开发平台及多款行业智能体

    5月23日,网易在杭州举办"万象新生"2025创新企业大会。网易数智宣布品牌升级,LOGO颜色从"科技蓝"变为"网易红",展现拥抱AI时代的决心。会上发布一站式智能体开发平台CoreAgent,整合知识库、运行沙箱等功能,助力企业智能化转型。同时成立AI生态联盟,首批成员包括英特尔、人民中科等上下游企业。网易数智还推出导购数字员工、智能外呼数字员工等多款行业智能体产品,加速企业数字化进程。

  • OpenAI发布云端AI编程智能体Codex:代码准确率高达90%

    OpenAI于5月19日正式推出基于Codex-1模型的云端AI编程智能体Codex。该工具具备强大的代码生成与理解能力,支持Python、JavaScript、C等主流语言,覆盖前后端开发、算法实现等多个领域。测试显示其处理常规编程任务的速度远超人工,代码准确率达90%以上,能显著提升开发效率。Codex深度集成GitHub,支持智能代码补全和结构化代码自动生成,使开发者平均编码时间缩短30%。目前该服务已面向ChatGPT+Pro等高级用户开放,未来有望成为软件开发领域的标配工具,推动AI辅助编程进入新阶段。

  • 腾讯大模型战略首次全景亮相!智能体平台重磅上线,从“落地可用”到“智能协同”

    ​智能体的开发门槛,又又又被打下来了! 昨天,腾讯云在他们的AI产业应用峰会上,正式上线了全新的智能体开发平台,率先在行业内实现零代码配置多智能体协同构建。 除了上线智能体开发平台,腾讯云也对从AI Infra到模型到应用的整个体系来了波全面升级。 包括混元系列大模型,也迎来了重磅更新。 腾讯云副总裁吴永坚对量子位表示:“腾讯云在智能体领域的产品布局

  • 下手帮你干活直接交付结果 纳米AI超级搜索智能体发布

    ​当搜索不再只是获取信息的工具,而能直接帮你完成购物决策、行程规划甚至输出专业报告——这一愿景随着纳米AI超级搜索智能体的发布成为现实。

  • AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • 微软张祺:智能体将成为广告行业的变革引擎

    微软在北京举办"MSA Accelerate营销峰会2025",聚焦AI与智能体对广告行业的变革。微软全球资深副总裁张祺博士指出,AI时代已至,推理能力和记忆机制的突破让模型更强大高效。峰会发布多项创新产品,包括海外市场"品牌智能体",可执行复杂任务、实时响应并自主决策,显著提升品牌与消费者互动效率。微软广告业务中国区副总裁黄秀兰强调将持续深化本土生态合作,通过技术赋能助力中国品牌拓展国际市场。核心亮点包括:Copilot在广告个性化体验的重大突破,相关搜索广告效果提升25%;沉浸式展厅广告打造线上品牌旗舰店;动态筛选器通过对话交互实现精准投放。微软承诺坚持"信任优先"原则,确保数据安全可控。

  • AI日报:通义千问开源Qwen3向量模型;字节跳动图像编辑模型SeedEdit 3.0;ElevenLabs推v3语音模型

    本文汇总了近期AI领域的重要动态:1)通义千问发布Qwen3-Embedding系列模型,在多语言文本处理表现优异;2)字节跳动推出图像编辑模型SeedEdit3.0,提升细节保持能力;3)ElevenLabs发布情感语音合成系统Eleven v3 Alpha;4)Anthropic推出面向国家安全的Claude Gov模型;5)可灵AI月收入连续两月超1亿元;6)Meta公布智能眼镜Aria Gen2技术细节;7)爱诗科技上线AI视频工具"拍我AI";8)富国银行预测2030年ChatGPT广告收入将达千亿美元。