首页 > 原创 > 关键词  > AI视频生成最新资讯  > 正文

AI日报:百度发布文心5.0;可灵2.5Turbo模型上线“首尾帧”功能;微博推出 VibeThinker-1.5B

2025-11-13 15:50 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、视频生成可控性再升级!可灵2.5Turbo模型上线“首尾帧”功能

可灵2.5Turbo模型的推出,显著提升了AI视频生成的可控性、稳定性与一致性,为专业创意内容生产提供了更优质的解决方案。其在动态效果、文本响应精度、风格保持能力以及整体美学效果方面均有明显提升,并引入了全新的首尾帧功能,使创作者能够更精准地控制视频的起点和终点状态。

【AiBase提要:】

🚀 可灵2.5Turbo模型显著提升了AI视频生成的可控性和稳定性。

🎨 在动态效果、文本响应精度和风格保持能力上实现突破。

📽️ 新增首尾帧功能,帮助创作者精准控制视频的起点和终点状态。

2、百度发布全新原生全模态大模型文心5.0

百度在2025年11月13日的百度世界大会上正式推出了最新原生全模态大模型——文心5.0。该模型拥有2.4万亿参数量,并采用了原生全模态统一建模技术,能够同时理解和生成文本、图像、音频和视频等多种信息,展现出强大的多模态能力。文心5.0在多个领域表现出色,其语言与多模态理解能力与国际顶尖模型相当,而图像和视频生成能力在全球领先。用户可以通过文心App体验功能,开发者和企业用户也可以通过百度千帆平台调用API服务。

image.png

【AiBase提要:】

🚀 文心5.0采用原生全模态技术,支持文本、图像、音频和视频等多种信息的理解与生成。

📈 在权威基准测试中,文心5.0的多模态理解能力与全球顶尖模型相当,显示出其强大潜力。

🌐 用户可通过文心 App 体验新模型,开发者可调用 API 服务,推动智能应用的发展。

3、微博推出 VibeThinker-1.5B,低成本 AI 模型挑战大型语言模型

微博推出 VibeThinker-1.5B,这是一个拥有15亿参数的大型语言模型(LLM),基于阿里巴巴的 Qwen2.5-Math-1.5B 进行了精细调整,并在 Hugging Face、GitHub 和 ModelScope 上免费提供。尽管体积较小,但在数学和代码任务上表现出色,甚至超越了6710亿参数的 DeepSeek 的 R1 模型。其后期训练成本仅7800美元,远低于同类模型。VibeThinker-1.5B 采用了名为“谱 - 信号原则”的训练框架,使得小模型也能实现高效的推理能力。

image.png

【AiBase提要:】

🧠 VibeThinker-1.5B 是微博推出的15亿参数开源 AI 模型,表现出色,甚至超越大型模型。

💰 该模型后期训练成本仅为7800美元,远低于同类模型数十万的费用。

🔍 采用 “谱 - 信号原则” 训练框架,使小模型能够高效推理,提升了小型模型的竞争力。

详情链接:https://huggingface.co/WeiboAI/VibeThinker-1.5B

4、OpenAI重磅推出GPT-5.1:更快、更准、更具“人情味”的个性化AI助理

OpenAI推出了GPT-5.1,旨在提升ChatGPT的灵活性、响应速度和个性化体验。新模型在语言表达、对话风格适应性以及情绪感知方面有显著改进,同时引入了自适应推理功能,以满足不同任务的需求。

image.png

【AiBase提要:】

🚀 GPT-5.1提升了响应速度和语言清晰度,使对话更加自然。

🧠 新增自适应推理功能,能根据问题复杂度调整处理时间。

🎨 提供多种沟通风格选择,增强用户个性化体验。

5、李飞飞的 World Labs 发布首款商用 3D 世界模型 Marble,支持多种输入生成

李飞飞的World Labs发布了首款商用3D世界模型Marble,支持多种输入方式生成可编辑的3D环境,并具备AI编辑功能,兼容主流VR设备,适用于游戏开发、影视特效等多个领域。

image.png

【AiBase提要:】

🌟 Marble 是首款商用的3D世界模型,支持多种输入生成可编辑环境。

🎮 该产品内置AI编辑工具,让用户更便捷地设计和定制3D场景。

🕶️ Marble 兼容主流VR设备,用户可立即体验生成的3D世界。

详情链接:https://marble.worldlabs.ai/

6、东北大学开源多语言翻译“核弹”!NiuTrans.LMT支持60语种234方向,低资源语言翻译重大突破

东北大学开源的NiuTrans.LMT大模型在多语言翻译领域取得重大突破,支持60种语言、234个翻译方向,尤其在低资源语言上实现显著进展。其双中心架构避免了二次失真,提升了跨文化交互的效率和准确性。

【AiBase提要:】

🧠 双中心架构打破英语霸权,支持中英双核心翻译

🌐 三层语言覆盖兼顾效率与公平,提升低资源语言翻译能力

🚀 两阶段训练登顶FLORES-200,性能卓越

详情链接:https://github.com/NiuTrans/LMT

7、谷歌Gemini Live语音大升级!语速随心调、口音任你选,ChatGPT语音模式遭遇最强挑战

谷歌Gemini Live语音功能的升级,通过五大核心能力将AI对话推向新高度,为用户带来更自然、个性化的交互体验。

image.png

【AiBase提要:】

🗣️语速随口令实时变化,支持个性化语言训练。

😊情绪感知,语气自适应,提升对话体验。

🎭口音个性注入,让对话更有趣。

8、阿里“千问”项目秘密启动:基于Qwen模型,全面对标ChatGPT发起C端AI未来之战

阿里巴巴启动代号为“千问”的重大项目,旨在打造同名个人AI助手,全面对标ChatGPT。此举标志着阿里正式加入全球AI应用的顶级竞赛,并将C端AI应用推向战略核心。

【AiBase提要:】

🚀 阿里巴巴启动“千问”项目,打造个人AI助手,全面对标ChatGPT。

💡 基于Qwen模型的优秀性能和国际影响力,阿里希望赢得AI竞争。

📈 阿里将C端AI应用推向战略核心,布局面向消费者市场。

举报

  • 相关推荐
  • AI日报:可灵AI全量上线O1视频大模型;千问APP接入万相Wan2.5

    本文汇总了AI领域的最新动态:可灵AI发布O1视频大模型,支持多模态输入一键生成视频;千问APP接入万相Wan2.5,提升视频创作能力;PixVerse V5.5实现音画同步,简化视频制作;深度求索推出DeepSeek-V3.2,引入稀疏注意力机制降低成本;Runway发布Gen-4.5模型,增强视觉质量;谷歌优化AI搜索体验,Gemini 3 Pro扩展国际市场;Lovart推出Touch Edit功能,实现零门槛图像编辑;蚂蚁数科Agentar入选中国智能体开发赛道第一梯队,展现技术实力。

  • AI日报:Medeo AI新版视频Agent上线:OpenAI正式发布GPT-5.2;钉钉AI功能大升级

    本期AI日报聚焦多款AI产品更新:Medeo AI新版视频Agent支持自然语言一键改剧本,降低创作门槛;钉钉8.1.10将AI融入职场沟通,提升效率;OpenAI低调上线GPT-5.2,延迟显著降低,逻辑一致性提升,并推出支持私有化部署的成人模式;迪士尼投资100亿美元与OpenAI合作,推动IP在生成式AI中的创新应用;谷歌Gemini Deep Research开放API,供开发者构建研究应用;Cohere推出Rerank 4,上下文窗口扩展至32K,提升企业搜索精度;拓竹科技推出3D手办生成器“印你”,依托腾讯混元3D模型,简化3D建模流程;谷歌NotebookLM升级,为Ultra会员提供更高权限,优化智能笔记体验。

  • 可灵2.6模型上线!语音、音效与画面一键直出 重构AI视频创作工作流

    可灵视频生成2.6模型推出“音画同出”功能,彻底改变了传统AI视频“先无声画面、后人工配音”的工作流程。它能在单次生成中,输出包含自然语言、动作音效及环境氛围的完整视频,重构了AI视频创作工作流,极大提升创作效率。该模型在中文语音生成效果上保持全球领先,支持生成最长10秒的视频,可广泛应用于广告营销、自媒体、电商等内容创作场景。

  • 可灵AI O1正式上线:号称全球首个统一多模态视频大模型

    可灵AI正式发布全新O1视频大模型,被誉为全球首个统一多模态视频大模型。该模型基于创新的多模态视觉语言交互架构,用户可在单一输入框内无缝融合文字、图像、视频等多种指令,实现跨模态内容的高效创作。其技术突破解决了传统视频生成工具功能割裂、操作复杂的痛点,并攻克了视频中主体特征漂移的行业难题,支持长达310秒的自由生成时长。目前用户可通过可灵App及官网体验。

  • AI日报:阿里Qwen3-TTS上线;可灵 AI上线主体库

    本期AI日报汇总了多项AI领域新进展:可灵AI推出“主体库”解决视频角色变脸问题;阿里Qwen3-TTS支持多语言多音色;腾讯混元2.0大模型开启内测;美团开源图像生成模型LongCat-Image;京东云支持千卡训练推动具身智能;英伟达小模型NVARC成本优势显著;微博CEO回应AI手机自主发博功能;微软推出轻量级实时TTS模型VibeVoice。

  • 全球首个大一统多模态视频模型可灵O1发布 让P视频像P图一样简单

    全球首个大一统多模态视频创作工具“可灵O1”正式上线。它基于全新视频图像模型,以自然语言为语义骨架,融合视频、图片、主体等多模态描述,将生成和编辑任务整合于一个全能引擎中,为用户提供从灵感到成品的闭环创作体验。该模型打破传统单一视频生成任务边界,支持参考生视频、文生视频、首尾帧生视频、视频内容增删、风格重绘等多种任务,用户无需在多个工具间跳转即可一站式完成全流程创作。

  • 想让AI成为新引擎,快手不能只靠可灵

    从12月1日开始,快手开启了「可灵全能灵感周」,要连续5天,每天都发布一项新产品。目前,快手已经发布了统一多模态视频大模型可灵视频O1和全能图像模型可灵图片O1,展现了要一站式满足AI视频、图像创作需求的野心。 这种密集的发布,也是快手在向外界进一步展示自身的AI技术积累。而保持AI技术的领先是快手新故事的重要组成部分。从财报来看,快手已经把AI视作为�

  • 领千帧新局,AGON爱攻双模千帧电竞显示器AGP277QK全球首发

    12月4日,TCL华星主办的“电竞市场赋能+高分电竞显示器需求趋势研讨会”在北京召开。会议汇聚行业多方代表,聚焦电竞显示器发展痛点与未来方向。TCL华星与冠捷科技联合发布全球首款双模千帧电竞显示器AGP277QK,搭载HFS+Shoot技术,实现原生千帧与双模适配双突破,标志着电竞显示迈入新纪元。现场还启动了“电竞显示生态共建”战略,旨在构建技术-场景-用户闭环生态,推

  • REDMI Turbo 5 Pro最快春节前亮相:首次搭载天玑9系芯片

    从今年开始,Redmi K系列升档为 冠军旗舰”,Turbo系列接棒K系列成为REDMI 2000-3000元价位的主力机型。 至此,Redmi构建起以Turbo系列(性能旗舰)、K系列(全能旗舰)、Note系列、数字系列为核心的四大产品线矩阵,实现对全价位段的全面覆盖。 目前K90系列已经上市,接下来要登场的就是Turbo系列REDMI Turbo 5,这次REDMI将会同时推出Turbo 5和Turbo 5 Pro两款机型。 该系列已经获得3C认�

  • AI日报:AI动画神器Seko 2.0上线;超强语音模型Qwen3-TTS发布;2025 年度字词候选公布

    本文介绍了近期AI领域多项重要进展:阿里发布Qwen3-TTS语音合成模型,支持49种音色和10种语言;推出全模态大模型Qwen3-Omni-Flash,支持实时流式交互。谷歌上线Gemini TTS 2.5,具备情绪化表达和多语言支持。商汤科技推出Seko 2.0,可一句话生成百集连贯动画。此外,DeepSeek入选年度汉字候选,Adobe与ChatGPT合作推出图像与PDF编辑功能,腾讯元宝AI推出QQ群消息总结功能,以及ChatGPT登顶美国苹果应用商店免费榜。这些进展展示了AI技术在语音、多模态、内容生成及日常应用方面的快速发展与普及。

今日大家都在搜的词: