AI日报：阿里通义万相首尾帧生视频模型；豆包开源Seed智能体模型UI-TARS-1.5；OpenAI首发“智能体实践指南”

2025-04-18 15:27 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里通义万相首尾帧生视频模型Wan2.1-FLF2V-14B开源

阿里巴巴的通义实验室在Hugging Face和GitHub上开源了Wan2.1-FLF2V-14B模型，标志着AI视频生成技术的重大进步。该模型支持高清视频生成，并通过用户提供的首尾帧实现流畅的动画过渡，具备多种功能如文本到视频、视频编辑等。开源特性降低了技术门槛，吸引了开发者的关注，推动了AI视频创作的广泛应用。

【AiBase提要:】
📸 支持首尾帧控制，用户仅需提供两张图片即可生成流畅的5秒720p高清视频。
🚀 模型具备多模态支持，除了视频生成，还可进行文本引导的图像和音频生成，拓展了创作场景。
🌐 开源生态促进了开发者的参与，阿里推出的免费体验活动进一步激发了社区反馈与优化。
详情链接:https://github.com/Wan-Video/Wan2.1

2、字节豆包开源 Seed 智能体模型 UI-TARS-1.5

字节跳动的UI-TARS-1.5模型在多模态智能体领域取得了显著进展，特别是在GUI操作和游戏推理方面。该模型通过强化学习增强了高阶推理能力，展现出在复杂任务中的优越表现。开源的UI-TARS-1.5为开发者提供了强大的工具，推动了多模态智能体技术的发展，未来将继续优化以接近人类水平。

【AiBase提要:】
🖥️ UI-TARS-1.5在7个GUI评测基准中取得了SOTA表现，展现了长时推理和交互能力。
🎮 在游戏任务中，UI-TARS-1.5展现了稳定的推断时扩展性，并在Minecraft中验证了其“思考-再行动”机制的有效性。
📈 该模型通过视觉感知增强和System2推理机制，实现了精准的GUI操作，降低了开发门槛。
详情链接:https://github.com/bytedance/UI-TARS - Website:https://seed-tars.com/ - Arxiv:https://arxiv.org/abs/2501.12326

3、OpenAI 发布“智能体构建实践指南”实用性文档（附文档资源）

OpenAI近期发布的《构建智能体实践指南》为产品和工程团队提供了构建智能体系统的必要知识与最佳实践。该指南详细阐述了智能体的定义、设计及安全部署，强调智能体与传统软件的根本区别，特别适用于复杂决策和处理非结构化数据的场景。

【AiBase提要:】
🧠 智能体具备高度自主性，能够代表用户完成复杂工作流程，区别于传统软件的自动化功能。
🔧 构建智能体需要考虑模型、工具和指令等核心组成部分，以确保智能体的有效性和可靠性。
🔒 安全护栏是管理数据隐私和声誉风险的关键，开发者需设置多层防护措施以应对潜在风险。
详情链接:https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf

4、腾讯混元InstantCharacter开源，高度角色一致性、自定义姿势、样式和场景

腾讯混元团队正式开源了InstantCharacter框架，这一基于扩散变换器的角色个性化工具，具备高一致性和灵活性，能够从单张图像生成多样化的角色定制，适用于多种艺术风格。该框架的开源将降低角色定制的技术门槛，激发全球开发者的创新热情，同时也需关注版权和伦理问题。

【AiBase提要:】
🖼️ 单图驱动:仅需一张角色图像和文本提示即可生成多样化的姿势、风格和场景。
🔄 高一致性:通过先进的DiT架构，确保生成图像在角色特征上的高度一致性。
🌈 风格多样性:支持写实、动漫、卡通等多种风格，满足不同创作需求。
详情链接:https://huggingface.co/spaces/InstantX/InstantCharacter

5、视频扩散革新技术FramePack:仅需6GB显存，1.5秒/帧

FramePack是一项革命性的视频扩散技术，其低显存需求和高效生成能力使其成为视频生成领域的游戏规则改变者。仅需6GB显存，FramePack能够实现全帧率下的千帧视频生成，极大降低了技术的应用门槛。此外，其生成速度在优化后可达到1.5秒/帧，为内容创作和实时应用提供了新的可能性。

【AiBase提要:】
💻 FramePack仅需6GB显存，能够在30fps下生成千帧视频，降低了技术门槛。
⚡ 生成速度惊人，未优化情况下为2.5秒/帧，优化后可达1.5秒/帧，适合多种应用场景。
🌍 该技术为内容创作、游戏开发及边缘计算等领域提供了广泛的应用前景，推动视频生成技术的“平民化”。
详情链接:https://lllyasviel.github.io/frame_pack_gitpage/

6、谷歌推出全新 Gemini2.5Flash:智慧与速度兼具的 AI 助手

谷歌最新推出的 Gemini2.5Flash 版本在推理能力上进行了显著升级，特别是引入了全混合推理模型，使开发者可以根据需求灵活控制思考过程中的成本和延迟。通过设定思考预算，开发者能够在质量与效率之间找到理想的平衡点。此版本在处理复杂任务时表现出色，尤其是在多步骤推理的场景中，展现了其卓越的性能和灵活性。

【AiBase提要:】
💡 Gemini2.5Flash 引入全混合推理模型，允许开发者选择启用思考功能，灵活控制推理过程。
⚙️ 开发者可以设定思考预算，平衡质量、成本和延迟，满足不同任务的需求。
📊 在 LMArena 的“困难提示”测试中，Gemini2.5Flash 表现优异，仅次于2.5Pro，展现了其强大的推理能力。

7、OpenAI推出Flex处理API，助力低成本 AI 应用

OpenAI最近推出了Flex处理API，以应对激烈的人工智能市场竞争。该API允许用户以更低的成本使用AI模型，尽管在响应速度和可用性上有所妥协。Flex处理特别适合低优先级和非生产性任务，显著降低了使用成本，尤其在当前AI服务普遍上涨的背景下，提供了一个经济实惠的选择。

【AiBase提要:】
💰 Flex处理API使用户能够以更低的成本使用AI模型，适合预算有限的开发者。
⚡ 使用Flex处理时，o3模型的输入词元价格降至每百万个5美元，输出词元降至每百万个20美元。
🔒 为确保合理使用，开发者需通过身份验证流程访问o3模型，维护平台安全。

8、Midjourney图像编辑器迎来重大更新:全新UI、图层功能与智能工具上线

Midjourney于2025年4月17日发布了其图像编辑器的重要更新，优化了用户体验并引入了多项创新功能，包括全新的用户界面、图层功能、智能选择工具和升级的内容审核机制。这些改进不仅提升了编辑效率和灵活性，还增强了平台的安全性，进一步巩固了Midjourney在AI创意工具领域的领先地位。

【AiBase提要:】
🖌️ 全新用户界面优化，提升操作效率与创作体验，适合专业设计师与新手用户。
📂 引入图层功能，允许用户对图像进行分层管理，增强创作灵活性与精确度。
🔍 新增智能选择工具，利用AI算法简化复杂编辑操作，提高编辑效率。

9、微软推出新型语言模型 BitNet b1.582B4T，仅占用0.4GB内存

微软研究团队发布的开源语言模型BitNet b1.582B4T以其20亿参数和仅0.4GB的内存占用引起关注。该模型采用创新的1.58位低精度架构，显著降低了计算资源需求，相较于同类产品表现出色。经过预训练和微调，BitNet在多个基准测试中表现优异，且能耗和解码延迟具有明显优势。

【AiBase提要:】
🌟 该模型具有20亿参数，内存占用仅为0.4GB，显著低于同类产品。
🔧 采用创新架构，放弃传统16位数值，使用1.58位低精度存储权重。
🚀 已经在 Hugging Face 发布，微软计划进一步优化模型功能与性能。
详情链接:https://arxiv.org/html/2504.12285v1

10、Genspark Super Agent新增文件转换工具，支持转换超400种文件格式

Genspark Super Agent推出了全新的文件转换工具，支持超过400种文件格式的互转，极大提升了用户的办公效率。该工具操作简便，用户只需上传文件并选择目标格式，即可快速完成转换。其智能优化和无缝集成的特点，使得这一工具成为个人和企业用户在日常办公中不可或缺的助手。

【AiBase提要:】
📁 支持超过400种文件格式的互转，满足多样化的办公需求。
⚡ 转换过程智能优化，减少信息丢失，提升文件编辑灵活性。
💡 提供每日200个免费信用额度，降低用户使用AI技术的门槛。
详情链接:https://page.genspark.site/page/toolu_015jDXJp3H2Whpw4V2vS71sH/genspark_file_converter_orange_n_icon.html

11、智谱Z基金出资3亿支持全球开源社区北京追加投资2亿元

北京市人工智能产业投资基金再次追加对智谱的投资，旨在支持其开源模型研发和社区生态建设。智谱作为国内AI大模型企业的佼佼者，已在多个领域积累了丰富的模型能力，并拥有庞大的开发者社区。此次投资将进一步推动智谱在开源生态中的发展，助力其在2025年实现全面开源的目标，促进人工智能的普惠发展。

【AiBase提要:】
💡 北京市人工智能产业投资基金追加投资智谱2亿元，支持开源模型研发。
🌍 智谱计划出资3亿元支持全球AI开源社区，鼓励基于开源模型的创业项目。
📈 自成立以来，智谱已开源55款模型，下载量近4000万次，致力于推动AI普惠。

12、理想同学MindGPT3.0上线:深度思考能力媲美DeepSeek

理想汽车最近宣布其智能助手“理想同学”完成了重要升级，搭载的MindGPT3.0模型现已全面上线。这次升级不仅提升了人工智能的性能，尤其是深度思考能力，使其能与行业领先的模型相媲美。用户可以通过手机App和网页版免费体验这一新模型，享受更智能的交互方式，提升了语音输入的理解能力和容错能力，同时在复杂指令处理上也表现出色。

【AiBase提要:】
🚀 MindGPT3.0模型的升级显著提升了深度思考能力，用户体验更智能高效。
🔍 该模型支持结构化思维链展示，用户可以直观了解助手的思考过程。
🛠️ 新增的无关历史对话过滤功能有效提高了回复的准确性，改善了用户体验。

（举报）

相关推荐

关键词：

荐AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；Sora2免费用户可生成15秒视频

本期AI日报聚焦多项技术更新：谷歌Veo 3.1视频模型新增音频生成与精细化编辑功能；通义千问推出记忆功能提升对话连贯性；Sora2免费用户可生成15秒视频，Pro版支持25秒；百度文心助手升级8种创作模式；谷歌Flow工具增强视频光影编辑与音频合成能力；Anthropic发布高性价比Claude Haiku 4.5；北京查处首例AI虚假广告案，涉伪造主持人带货；阿里推出响应仅200毫秒的编程工具Qoder CLI。

AI 视频生成谷歌
佳能 PowerShotV1：双十一专为新手打造，告别复杂操作，畅享高清创作

佳能PowerShot V1瞄准Vlog新手痛点，以6000元档位提供“开机即拍”的简易操作。其一体化变焦镜头覆盖17-52mm焦段，智能模式自动优化夜景、美食等场景画质，1.4英寸大底CMOS和5.7K超采样技术确保画质超越手机。相机配备侧翻屏、双重防抖及Vlog套装配件，解决传统相机上手难、配件杂的困扰，帮助新手轻松产出稳定高清内容，实现“开箱即拍”。

短视频创作 Vlog设备选择新手友好相机
AI搜索引擎优化新趋势：GEO生成式引擎优化如何提升品牌AI可见度？

AI时代品牌需抢占AI搜索优化(AISEO)与生成式引擎优化(GEO)先机。文章指出，随着豆包、文心一言等AI助手成为主要信息渠道，品牌在AI平台的可视度直接影响用户决策。核心策略包括：优化品牌在AI训练数据中的曝光，发布高质量内容；参与问答社区自然植入品牌；使用GEO排名工具监测优化效果。重点推荐AIBase平台的GEO查询工具，可覆盖主流AI平台并提供竞品分析和专业优化建议，帮助品牌提升AI推荐权重，抢占流量入口。

AISEO GEO AI搜索引擎优化
什么是GEO优化？AI生成式引擎优化平台推荐

在数字化浪潮席卷的当下，搜索引擎的使用方式正在发生根本性变革。越来越多的用户不再只是输入碎片化的关键词，而是通过自然语言与AI对话来获取信息。根据中国信通院发布的《2025年生成式AI商业应用报告》数据显示，超60%的用户已养成借助AI对话获取各类信息的习惯。这一转变催生了全新的营销领域——GEO优化。什么是GEO优化? GEO，全称为生成式引擎优化，是

GEO优化 AI搜索生成式引擎优化
荐AI+大消费的首个双11，商家借阿里妈妈实现首波爆发

10月15日晚八点，天猫正式开启了2025年度双11预售，预售首小时，便有35个品牌成交破亿，1802个品牌成交翻倍，破亿品牌数、成交翻倍品牌数、活跃用户数均超去年同周期。淘宝天猫作为双11的主阵地，再一次见证了无数优秀品牌商家的高光时刻。作为首个AI全面落地的双11，这场品牌生意集体爆发盛景的背后，阿里妈妈对商家经营的赋能作用，已悄然融入每一个关键节点。在

双11预售天猫双11 阿里妈妈
什么样的内容最容易被AI引用?GEO（生成引擎优化）时代的核心命题

随着AI问答时代到来，用户从“搜索”转向直接向AI“提问”，生成引擎优化（GEO）应运而生。文章指出，易被AI引用的内容需具备权威性、准确性、结构清晰且被广泛认可，并介绍了AIBase的GEO排名查询工具。该工具支持多平台检测，通过模拟真实用户提问，提供品牌在AI回答中的曝光度、排名等数据分析及优化建议，帮助品牌提升AI可见度，抢占智能问答时代先机。

SEO GEO 搜索引擎优化
荐Sora2之后，又来了个全新的影视级AI视频模型，它的名字，叫GAGA。

Sora2爆火之后，随之而来的AI视频领域的新产品。来自我的好朋友，曹越老师的Sand.ai。凌晨，他们终于上线了他们全新的音画同步视频模型GAGA-1，在人物表演上，我觉得，已经算是现在的TOP级了。

AI视频 GAGA-1 音画同步
美国女子AI生成号码中10万美元彩票

美国密歇根州45岁女子塔米卡·卡维通过ChatGPT随机生成的号码购买强力球彩票，意外赢得10万美元奖金。她平时极少购彩，此次因奖池超10亿美元突发奇想尝试AI选号，结果精准匹配4个白球和1个强力球号码，更因选择翻倍选项使奖金翻倍。这已是今年第二起AI推荐号码中奖案例，此前弗吉尼亚州一名女子同样通过ChatGPT选中15万美元。彩票机构紧急提醒公众：开奖完全随机，AI无法提高中奖概率。此事引发对技术伦理的讨论，部分专家担忧会催生“AI玄学”市场。

人工智能彩票 ChatGPT
AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

今日AI领域动态：阿里夸克启动"C计划"布局对话式AI应用，剑指字节"豆包"；Anthropic推出Claude Code网页版，支持浏览器直接编码；谷歌Veo新增视频"精确编辑"功能，提升创作效率；Fish Audio升级S1语音克隆模型，10秒即可复刻真人声音；AWS美东故障影响ChatGPT等多项服务；DeepSeek-OCR推出"视觉记忆压缩"机制破解AI记忆瓶颈；Adobe推出AI Foundry服务，支持企业定制品牌AI模型；Anthropic发布Claude for Life Sciences，加速生命科学研究。

AI 对话式AI 阿里巴巴
革命来临：在生成式 AI 时代，SEO该怎么做

生成式AI正重塑SEO规则：搜索入口从点击列表转向答案直呈，SEO核心从"优化排名"升级为"优化被引用"。需打造能被AI摘录的内容（如FAQ、结构化数据），强化语义结构与权威性，监控"被AI引用"新指标。推荐使用AIBase GEO等工具量化AI可见性，实现从流量获取到答案源头的战略转型。

生成式AI SEO变革搜索入口

今日大家都在搜的词：

热文

3 天
7天

AI日报：阿里通义万相首尾帧生视频模型；豆包开源Seed智能体模型UI-TARS-1.5；OpenAI首发“智能体实践指南”

荐AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；Sora2免费用户可生成15秒视频

佳能 PowerShotV1：双十一专为新手打造，告别复杂操作，畅享高清创作

AI搜索引擎优化新趋势：GEO生成式引擎优化如何提升品牌AI可见度？

什么是GEO优化？AI生成式引擎优化平台推荐

荐AI+大消费的首个双11，商家借阿里妈妈实现首波爆发

什么样的内容最容易被AI引用?GEO（生成引擎优化）时代的核心命题

荐Sora2之后，又来了个全新的影视级AI视频模型，它的名字，叫GAGA。

美国女子AI生成号码中10万美元彩票

AI日报：阿里夸克“C计划”曝光；Veo3.1将增加视频“精确编辑”功能；Anthropic推出Claude Code网页版

革命来临：在生成式 AI 时代，SEO该怎么做

今日大家都在搜的词：

热文

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

余承东曝鸿蒙智行新款享界S9将于11月上市

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

华为MatePad Pro流金典藏版开卖：售价7799元

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

华为MatePad Mini典藏版今日开售：售价5999元起

一加Ace 6开启预售：售价2599元起

20周年款iPhone将配自研相机并搭载自研定制LOFIC传感器

华为nova Flip S小折叠开售：首发3388元起

兰博基尼联名！REDMI K90 Pro Max冠军版官宣

雷军回应K90定价：最近内存涨价太多希望大家理解这份诚意

苹果首款2nm手机芯片上热搜 A20由iPhone 18系列首发

REDMI K90标准版12+512GB降价300元小米回应：可退差价

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

小米汽车发布跨年购置税补贴方案至高不超15000元

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

余承东曝鸿蒙智行新款享界S9将于11月上市

站长商机