首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:OpenAI推出史上最贵o1-pro API;腾讯混元全新推理模型T1将发布;阶跃星辰Step-Video-TI2V视频模型开源

2025-03-20 15:34 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用

新鲜AI产品点击了解https://top.aibase.com/

1、最贵!OpenAI重磅推出升级版AI模型o1-pro,生成价格是o1的十倍

OpenAI最近推出了新一代AI模型o1-pro,旨在提供更优质的推理能力,然而其高昂的定价引发了广泛关注。o1-pro的输入和生成价格分别是GPT-4.5和普通o1的两倍与十倍,尽管如此,OpenAI对其性能寄予厚望,认为其能够满足开发者对复杂任务的需求。

【AiBase提要:】

💡 OpenAI推出新AI模型o1-pro,旨在提升推理能力。

💰 o1-pro的定价极高,输入费用是GPT-4.5的两倍,生成费用是普通o1的十倍。

🤔 早期用户反馈对o1-pro褒贬不一,但在编码和数学问题上表现更可靠。

2、运动可控!阶跃星辰 Step-Video-TI2V 图生视频模型开源

上海阶跃星辰智能科技有限公司推出的Step-Video-TI2V模型在图生视频领域具有显著的创新性。该模型基于30B参数的Step-Video-T2V,能够生成高质量的视频,并具备运动幅度和镜头运动的可控性,特别适合动画创作和短视频制作。通过优化生成一致性和动态性,该模型为创作者提供了更灵活的选择,能够满足多种尺寸和效果的需求。

image.png

【AiBase提要:】

🚀 Step-Video-TI2V模型基于30B参数,能够生成5秒、540P分辨率的视频,具有运动幅度和镜头运动可控的特点。

🎨 该模型在动漫效果方面表现优异,适合动画创作和短视频制作,支持多种尺寸生成。

🔧 通过引入图像条件和AdaLN模块,提升了生成视频与原图的一致性和动态控制能力。

详情链接:https://yuewen.cn/videos

3、腾讯混元再出新动作!全新推理模型T1将于3月21日晚发布

腾讯混元宣布全新推理模型T1将于3月21日正式发布,这标志着其在人工智能大模型领域的技术迭代与产品升级。同时,腾讯混元大模型首次跻身Chatbot Arena全球Top15排行榜,显示出其技术实力已达到国际领先水平。外界期待T1模型在推理能力上的提升,进一步巩固腾讯在全球大模型竞争中的地位。

image.png

【AiBase提要:】

🚀 腾讯混元将于3月21日发布全新推理模型T1,标志着技术升级。

🏆 腾讯混元大模型首次进入Chatbot Arena全球Top15排行榜,显示其技术实力。

🌍 外界期待T1模型在推理能力上的提升,巩固腾讯在全球竞争中的地位。

4、成本仅为十分之一!Open-Sora 2.0 开源视频 AI 实现商业级画质

HPC-AI Tech最近推出的Open-Sora2.0是一款革命性的视频AI系统,其训练成本仅为传统系统的十分之一,且输出质量媲美商业级产品。该系统通过三阶段训练过程和高效的自动编码器实现了显著的训练速度提升,尽管在分辨率和视频时长上存在一定限制。Open-Sora2.0的推出可能会对视频AI领域的成本结构产生深远影响,推动开源和商业系统之间的竞争。

image.png

【AiBase提要:】

💡 Open-Sora2.0的训练成本仅为20万美元,远低于现有高质量视频生成系统的数百万美元成本。

⚙️ 该系统采用三阶段训练过程和视频DC-AE自动编码器,提供了5.2倍更快的训练速度和超过十倍的视频生成速度。

📈 Open-Sora2.0的VBench得分与OpenAI的Sora仅相差0.69%,在视觉质量和提示准确性等方面表现出色。

5、波士顿动力Atlas机器人再突破:动作能力逼近人类水平

波士顿动力公司近期展示了其人形机器人Atlas的最新动作能力,结合强化学习与动作捕捉技术,使Atlas能够自我学习并展现出更自然、更灵活的类人动作。这一技术突破被认为将推动人形机器人更贴近现实应用场景,尤其在工业、医疗和救援等领域的潜在应用。

【AiBase提要:】

🤖 Atlas通过强化学习和动作捕捉技术,实现了更自然的类人动作。

🚀 这一技术突破提升了机器人在复杂环境中的适应性和协调性。

🌐 波士顿动力与RAI Institute的合作为人形机器人技术的商业化增添了更多可能性。

6、炸裂!人形机器人秀出“人类天花板”动作,宇树G1首个完成侧空翻,还敢叫板真人挑战!

宇树科技的G1人形机器人成功完成了高难度的侧空翻,并稳稳落地,标志着其在机器人运动能力方面的重大突破。这一成就不仅展示了G1的高可靠性和成功率,还引发了全球科技爱好者的广泛关注。为了进一步验证其能力,宇树科技还发起了“机器人侧空翻真人挑战赛”,鼓励人类挑战这一高难度动作,胜者将获得G1机器人或等值礼物。

【AiBase提要:】

🤸‍♂️ 宇树科技的G1机器人成功完成侧空翻,成为全球首款实现此动作的人形机器人。

🏆 宇树科技发起“机器人侧空翻真人挑战赛”,鼓励人类挑战这一高难度动作。

🌍 比赛吸引了全球科技爱好者的关注,期待首位成功复刻机器人侧空翻的真人。

7、Adobe推“Project Slide Wow”项目,数据一键变身吸睛PPT

在Adobe的年度数字创新大会上,推出的“Project Slide Wow”项目引起了市场的广泛关注。这款生成式AI驱动的工具旨在将原始客户数据快速转化为引人入胜的PowerPoint演示文稿,极大地简化了数据分析师和市场营销人员的工作。通过自动生成高质量的幻灯片和内置智能助手,用户可以实时更新和调整演示内容,确保信息的准确性和时效性。

【AiBase提要:】

✨ 生成式AI工具能将原始数据快速转化为高质量PPT,极大简化了制作过程。

🤖 内置智能助手可实时响应用户需求,提供额外可视化和动态幻灯片生成。

📊 具备实时数据更新能力,确保演示信息始终保持最新,提升企业决策效率。

8、Orpheus TTS:情感表达贴近人类的新一代TTS模型

Orpheus TTS是一款新推出的开源文本转语音模型,以其超低延迟和高情感表达能力引起了广泛关注。该模型在实时对话场景中表现出色,能够提供自然流畅的语音输出,极大提升了智能语音交互的体验。其开源特性也为开发者提供了更多的定制化可能性,未来有望在多个领域中成为标杆。

【AiBase提要:】

⚡ **超低延迟**: 默认延迟约200毫秒,通过优化可压缩至25-50毫秒,满足实时对话需求。

🎭 **情感表达**: 语音输出自然流畅,支持丰富的语调变化,提升交互体验。

🎙️ **实时输出流**: 支持流式音频生成,确保语音生成与输入同步,适用于多种场景。

详情链接:https://github.com/canopyai/Orpheus-TTS

9、LG开源EXAONE Deep模型,号称韩国首个自研推理AI模型

LG AI Research最近开源了EXAONE Deep推理AI模型,标志着AI进入了主动式AI的新纪元。该模型以320亿参数展现出卓越的推理能力,尤其在逻辑推理和数学领域表现出色,获得94.5分的高考数学成绩,堪比学霸。

image.png

【AiBase提要:】

🧠 EXAONE Deep是韩国首个自研推理AI模型,具有独立制定假设和推理验证的能力。

📊 320亿参数的EXAONE Deep在逻辑推理和数学领域表现卓越,特别是在韩国高考中获得94.5分。

📱 LG还开源了轻量级和端侧模型,分别保持95%和86%的性能,适用于智能手机、汽车等多个行业。

详情链接:https://top.aibase.com/tool/exaone-deep

10、谷歌Chrome浏览器即将整合Gemini AI助手,操作更便捷!

在互联网科技迅速发展的背景下,谷歌Chrome浏览器即将推出Gemini AI助手的深度整合。这一功能将极大提升用户的在线体验,使得操作更加便捷。用户可以通过窗口前端的图标直接调用Gemini助手,享受自定义快捷键和系统托盘图标的支持,尽管目前不支持侧边栏固定模式。

【AiBase提要:】

✨ Gemini AI助手将深度整合进Chrome浏览器,提升用户在线体验。

🔧 用户可通过窗口前端的图标快速调用Gemini助手,支持自定义快捷键。

🗣️ Gemini助手支持语音搜索等功能,但目前不支持侧边栏固定模式。

举报

  • 相关推荐
  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • AI日报:谷歌推最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

    本文汇总了近期AI领域的重要动态:1)谷歌推出249.99美元/月的AI Ultra订阅计划,提供最强AI模型和高级功能;2)腾讯混元模型升级,新增视觉推理T1-Vision和语音对话模型;3)美图获阿里2.5亿美元投资,将在电商和AI领域合作;4)豆包推出语音播客模型,实现文本快速转音频;5)百度文心X1 Turbo获信通院最高评级;6)谷歌发布Flow AI剪辑工具,集成Veo3等三大模型;7)谷歌Veo3支持4K视频生成;8)Imagen4图像模型发布;9)Gemini2.5 Pro新增并行推理功能;10)谷歌推出虚拟试衣工具;11)公测AI编程助手Jules;12)苹果计划在iOS19开放AI模型;13)京东云推五大免费AI营销工具;14)字节开源多模态模型BAGEL;15)英伟达发布物理推理模型Cosmos-Reason1。

  • AI日报:昆仑万维天工超级智能体发布;OpenAI核心API支持MCP;百度飞桨PaddleOCR 3.0开源

    【AI日报】汇总了近期AI领域重要动态:1)百度飞桨发布PaddleOCR3.0,提升文字识别精度13%;2)昆仑万维发布天工超级智能体,AI办公成本仅为OpenAI的40%;3)OpenAI API新增MCP支持简化开发流程;4)xAI推出实时网页搜索API;5)谷歌Sparkify可将问题秒变动画;6)Mistral发布高效代码模型Devstral;7)Video Ocean推出4K视频生成工具;8)谷歌推出AI内容识别工具SynthID;9)谷歌NotebookLM使用量半年增长56%;10)硅基流动升级128K长文本模型;11)DeepMind发布音乐生成模型Lyria2;12)多模态大模型MMaDA实现跨模态推理;13)微软发布网页智能体Magentic-UI;14)Framer推出AI建站套件。

  • AI日报:QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • 超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!

    超越OpenAI! 国产大模型突袭,AI语音生成天花板被重新定义了。 MiniMax最新发布Speech-02,同时拿下Artificial Analysis Speech Arena和Hugging Face TTS Arena两项全球权威语音基准测评第一!

  • DeepSeek更新R1推理AI模型,已发布Hugging Face

    更新后的 R1 拥有 6850 亿个参数,体量庞大。由于模型规模极大,普通消费者级别的硬件很可能无法直接运行。

  • AI日报:腾讯混元图像2.0毫秒级生图;Windsurf重磅发布SWE-1系列;MiniMax Speech-02登顶全球TTS榜首

    本期AI日报重点报道了多项AI领域最新进展:1)腾讯发布混元图像2.0模型,实现毫秒级图像生成;2)Windsurf推出全流程软件工程AI模型SWE-1系列;3)DeepSeek发布V3模型论文,揭示低成本训练大模型方法;4)Manus推出图像生成Agent,支持多工具协同完成任务;5)ElevenLabs发布可定制音效控制面板工具;6)MiniMax语音模型Speech-02超越OpenAI和ElevenLabs;7)DeepL升级翻译服务并推出写作助手;8)OpenAI占据AI工具市场80%份额;9)Llamafile 0.9.3支持Qwen3模型;10)Hugging Face推出WebGPU驱动的实时摄像头AI SmolVLM;11)Hugging Face上线免费MCP教程;12)复旦与腾讯联合推出视频生成工具DICE-Talk。

  • AI日报:美团AI编程工具NoCode将上线;火山引擎发布MCP Servers;腾讯混元上线游戏视觉生成平台

    本文汇总了近期AI领域的重要动态:1)美团将推出对话式编程工具"NoCode";2)火山引擎发布大模型生态平台MCP Servers;3)B站开源动画视频生成模型Index-AniSora;4)字节跳动升级AI耳机Ola Friend的英语学习功能;5)GitHub推出AI编程助手自动修复代码漏洞;6)腾讯混元上线游戏视觉生成平台;7)微软将VS Code转型为开源AI编辑器;8)Windows 11原生支持MCP协议;9)Anthropic发布AI代理开发指南;10)谷歌推出编程AI代理Jules;11)NotebookLM推出iOS版;12)Genspark创3600万美元ARR纪录;13)Bright Data发布开源MCP服务器;14)马斯克宣布Grok模型将登陆Azure平台。这些进展展示了AI技术在编程、内容生成、操作系统等领域的快速发展和应用创新。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。