首页 > 原创 > 关键词  > AI日报最新资讯  > 正文

AI日报:QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

2025-05-19 16:18 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、B站团队推出AniSora开源动漫视频生成模型,一键打造多种风格动画!

B站团队通过AniSora开源动漫视频生成模型,填补了动漫视频生成领域的技术空白,支持多种动漫风格的视频创作。

image.png

【AiBase提要:】

😊 AniSora支持一键生成多种动漫风格视频,涵盖系列剧集、中国原创动画等多种类型。

🌟 引入时空掩码模块,支持图像生成视频、帧插值和局部图像引导等功能,提升生成质量。

🏆 经过严格测试,人物与运动一致性达到当前最高标准(SOTA),展现卓越性能。

2、OpenAI 发布全新编程智能体 Codex

我作为一名开发者,对OpenAI推出的Codex感到非常兴奋。Codex不仅能大幅缩短开发时间,还与GitHub无缝集成,极大提升了工作效率。它通过强化学习生成符合人类偏好的代码,展现了强大的自我委派能力。

image.png

【AiBase提要:】

🚀 Codex 智能助手由 OpenAI 推出,能在30分钟内完成复杂的开发任务。

🔗 Codex 与 GitHub 无缝集成,支持多任务并行处理,极大提升开发者效率。

🤖 Codex 通过强化学习训练,确保生成的代码符合人类开发者偏好。

3、Google搜索推出AI Mode实验,探索全新智能问答体验

Google推出了名为 'AI Mode' 的实验性功能,提供文本、语音和图像提问的智能问答体验,并鼓励用户反馈以持续优化服务。

image.png

【AiBase提要:】

🌟 支持文本、语音和图像提问,提供更智能的问答体验。

🔍 可通过跟进问题深入探索,获取更多相关信息和网页链接。

🔒 注重用户隐私,采取措施保护数据安全并鼓励用户反馈。

详情链接:https://support.google.com/websearch/answer/16011537?visit_id=638832352895396136-3267382421&p=aimodeavailability&rd=1#aimodeavailability

4、ChatGPT将整合MCP协议,助力企业接入多样AI服务

ChatGPT即将支持MCP协议,该协议允许其与第三方AI服务无缝对接,提供更个性化的用户体验。企业可通过此协议优化工作流程,提升效率和决策质量。

【AiBase提要:】

🌟 MCP协议旨在统一大语言模型与外部系统的互动方式,类似AI应用的“USB-C接口”。

⚙️ 用户可自定义添加工具,填写名称、URL和描述,实现ChatGPT与个人应用的结合。

💼 MCP为企业提供数据按需共享能力,优化工作流程,推动智能化决策。

5、阿里通义实验室推出 ZeroSearch:让大模型无需 API 自我 “搜索”

ZeroSearch 是一种新框架,通过强化学习和少量标注数据,使大语言模型能够模拟搜索引擎,提升检索和推理能力,同时减少对真实搜索引擎的依赖,降低训练成本。

【AiBase提要:】

✨ ZeroSearch 利用强化学习和少量标注数据,使大模型无需依赖真实搜索引擎即可生成高质量文档,增强推理能力。

📚 框架采用课程式学习法,从高质量到低质量文档逐步训练,提高模型适应复杂检索任务的能力。

🌟 在问答数据集测试中,ZeroSearch 表现优于传统方法,在单跳和多跳问答任务中均有显著优势。

6、Stability AI与Arm推出手机级音频生成AI:7秒内创建11秒立体声

Stability AI和Arm联合发布了稳定音频开放小型模型,该模型能在7秒内生成11秒高质量立体声音频,优化后可在移动设备上流畅运行,基于对抗相对对比技术,大幅减少参数量,适合消费级硬件。

【AiBase提要:】

突破性技术让音频生成仅需7秒,实现接近实时的音频合成能力。

模型架构优化至三部分,适配移动端,支持多种音频生成任务。

训练数据严格筛选,确保合法合规,但当前更适用于英语提示输入。

7、Qwen发布全新偏好建模模型系列WorldPM

Qwen团队推出了WorldPM系列模型,包括WorldPM-72B及其衍生版本,通过大规模训练实现偏好建模的突破,为开发者提供高效优化路径。

image.png

【AiBase提要:】

🌍 WorldPM通过1500万条偏好数据训练,验证了偏好建模遵循规模化定律,提升模型在监督学习中的表现。

🌐 模型系列开源发布,降低技术门槛,助力全球开发者提升模型优化效率。

🌟 强化风格中立性,克服主观偏见,在编码、数学等任务中展现显著优势。

详情链接:https://huggingface.co/Qwen/WorldPM-72B

8、OpenAI 揭秘 GPT-5:将多款产品整合为一体

Jerry Tworek 在Reddit上分享了GPT-5的最新动态,它将整合Codex、Operator、Deep Research和Memory,以简化用户的操作流程。Codex的编程效率提升了三倍,并且OpenAI计划通过这一工具帮助新手开发者更快入门。

【AiBase提要:】

🌟 GPT-5整合了Codex、Operator、Deep Research和Memory,减少了工具间的切换困扰。

💻 Codex提升了编程效率三倍,特别适合解决琐碎问题的开发者。

👨‍💻 OpenAI计划通过Codex帮助新手开发者快速学习编程,增强人类开发者的整体能力。

9、ListenHub:颠覆播客体验的 AI 生成工具正式上线

ListenHub是一款基于AI技术的播客生成工具,支持中文和英文,提供个性化播客体验。它以其高效的生成速度和友好的用户界面受到欢迎,适合普通用户及内容创作者。提供免费和高级会员服务,并注重移动端体验。

image.png

【AiBase提要:】

🌟 使用AI技术快速生成与用户兴趣相关的内容,涵盖科技、历史和社会话题。

⚡️ 生成速度快,1-5分钟即可完成播客制作,适合忙碌人群和内容创作者。

📱 支持多平台和移动端使用,提供免费和高级会员选项,满足多样化需求。

详情链接:https://listenhub.ai/zh

10、QQ浏览器升级为AI浏览器:上线QBot 新增5大AI新能力

QQ浏览器升级为AI浏览器并推出QBot,带来更智能的浏览体验,包括搜索、阅读、翻译、写作及办公辅助等功能。

image.png

【AiBase提要:】

🚀 QBot支持多模态提问,能精准回答各类问题,提供24/7智能陪伴。

📚 AI阅读工具可快速总结网页内容、生成脑图,提升信息处理效率。

💼 办公场景下,QBot提供文档编辑、翻译、写作等多功能工具,助力高效办公。

11、数学建模的AI助手MathModelAgent

MathModelAgent是一款专为数学建模设计的智能工具,能够自动完成从问题分析、模型构建、代码编写到论文撰写的全流程,展现了AI在学术与技术领域的深远潜力。

image.png

【AiBase提要:】

问题分析与建模:建模手能快速解析数学问题并生成逻辑清晰的数学模型。

代码生成与调试:代码手内置反思模块,生成高质量代码并通过本地解释器实时调试。

论文自动撰写:论文手根据建模和计算结果自动生成格式规范的学术论文。

12、GenSpark推出全球首个 Agentic AI下载代理,革新文件管理体验

我非常看好GenSpark推出的这款Agentic Download Agent工具,它真正实现了文件管理和信息处理的自动化与智能化,极大地简化了我的工作流程。无论是学术研究还是日常办公,这款工具都能让我专注于更重要的事情。

【AiBase提要:】

🚀 支持通过自然语言指令一键完成文件搜索、下载和整理,大幅提升效率。

📚 提供AI Drive功能,支持对文件进行摘要生成、关键信息提取和分析报告生成。

🌐 具备强大的自动化与智能化特性,支持批量处理、智能整理和透明操作。

13、谷歌NotebookLM即将推出Sparks视频概览

谷歌旗下的NotebookLM计划推出‘Sparks’功能,将文档、笔记等转化为1-3分钟的短视频,其中10%内容由AI生成,结合Gemini2.5和Deep Research功能,实现从研究到呈现的端到端解决方案。

image.png

【AiBase提要:】

✨ Sparks视频概览结合Gemini2.5和Deep Research,将文档转化为1-3分钟短视频,助力高效内容创作。

📚 适用于教育、研究、内容创作等多个场景,显著提升工作效率。

🌐 全球化布局,支持多语言,未来有望进一步拓展国际市场。

举报

  • 相关推荐
  • 马斯克母亲发帖支持儿子:演示Grok视频生成功能

    近日,马斯克母亲梅耶-马斯克发帖演示支持马斯克的Grok视频生成功能。 她表示,这次我把手指放在了最近在X上发布的这张照片上,提示是用Grok制作视频”,现在自己的狗摇着尾巴了,自己玩得很开心。 她还特别提示,这个视频由@grok Imagine制作。

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • 女频破局、顶流续作,优酷动漫如何引领暑期“新纪元”?

    百亿暑期档背后,是一场属于动画的“逆袭叙事”。动画电影《浪浪山小妖怪》不仅跻身“十亿票房俱乐部”,更一举冲入中国影史动画电影票房榜前十。 这股动画热远不止于大银幕,长视频平台同样迎来了一场内容狂欢。以优酷动漫为例,在新内容、新题材遍地开花的动画暑期档,不仅制造了新的题材爆款,还以多部优质作品形成内容矩阵,真正实现了“全面”。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • AI日报:阿里开源Qwen-Image-Edit;淘宝“AI万能搜”功能灰度测试;小红书发布DynamicFace人脸生成技术

    本期AI日报聚焦多项AI领域创新:1)阿里开源Qwen-Image-Edit图像编辑模型,支持中文渲染与精准文本编辑;2)淘宝测试"AI万能搜"功能,重构电商搜索体验;3)小红书发布DynamicFace人脸生成技术,实现高质量图像视频换脸;4)Gemini API新增URL Context功能,简化网页内容获取流程;5)Nvidia推出小型开放模型Nemotron-Nano-9B-v2,支持智能推理开关;6)马斯克发布Grok Imagine 0.1测试版,进军AI图像生成领域;7)Vercel推出iOS版AI开发工具v0;8)理想汽车发布MindGPT 3.1模型,处理速度提升5倍;9)ToonComposer工具简化动画制作流程;10)ElevenLabs推出视频到音乐生成流程。

  • AI日报:即梦上线智能多帧功能;可灵2.1首尾帧升级;钉钉推语音识别大模型Fun-ASR

    AI日报栏目汇总近期AI领域重要进展:腾讯元宝接入DeepSeek V3.1提升智能助手能力;即梦AI推出多帧功能简化视频制作;可灵AI首尾帧功能升级效果提升235%;钉钉与通义实验室联合发布Fun-ASR语音识别大模型;腾讯CodeBuddy IDE国内版公测;Vercel发布AI Gateway简化模型调用;Anthropic整合Claude Code强化企业开发;阿里发布Mobile-Agent-v3突破GUI自动化;Qoder平台革新编程模式;清华团队GUAVA框架实现0.1秒3D化身生成;谷歌搜索新增AI Agent功能;VAST推出Tripo 3.0推动3D内容创作。

  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

  • AI日报:腾讯推音效生成工具AudioGenie;阿里推智能体WebWatcher;我国首个法律垂直大模型“小包公”发布

    本文介绍了AI领域最新动态:1)腾讯推出电影级音频生成工具AudioGenie,展现中国AI技术实力;2)阿里开源多模态智能体WebWatcher,突破现有系统局限;3)港大等高校联合推出3D建模技术OmniPart,实现模型组件独立性和清晰度;4)Meta发布无需标注数据的通用图像处理模型DINOv3;5)国内首个法律大模型"小包公"发布;6)ChatGPT移动端收入突破20亿美元;7)安卓厂商借鉴灵动岛设计,新芯片推动AI功能普及;8)欧洲AI公司推出仅94MB的超小模型;9)Claude Code新增编程教学模式;10)AI技术被滥用于电商恶意退款;11)IDC报告显示2024年中国AI公有云服务市场将快速增长。

  • 如何用3分钟精准计算AI大模型成本?避免生成一篇万字文章就超支?

    AI大模型成本控制指南:实测三步预算法+企业级避坑方案。文章揭露行业痛点:1)价格迷雾:各厂商计费规则差异大,长文本/多模态存在隐藏溢价;2)团队实测GPT-4生成20篇行业分析(50万字)实际账单超预算4倍。解决方案:通过AIbase计算器实现精准预测:①场景化选择自动加载计费规则;②输入需求实时生成动态成本矩阵;③智能规避四大隐性成本(长文本衰减补偿/区域差价预警等)。跨境电商案例显示,使用工具后成本降低60%。核心观点:在AI时代,成本控制能力已成为企业核心竞争力。

今日大家都在搜的词: