首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:阿里视觉推理模型QVQ-Max;可灵AI上新AI音效功能;GPT-4o升级后性能飙升;Midjourney V7将于下周发布

2025-03-28 15:50 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里巴巴发布最新视觉推理模型 QVQ-Max

阿里巴巴旗下的AI研究团队Qwen发布了其最新的视觉推理模型QVQ-Max。该模型能够理解图片和视频,并进行深入分析与推理,应用场景广泛,涵盖教育、编程和艺术创作等多个领域。用户可以通过Qwen Chat平台体验这一模型,初步反馈显示其推理速度和准确性受到好评。

【AiBase提要:】

🖼️ QVQ-Max是阿里巴巴Qwen团队推出的新视觉推理模型,具备强大的多模态信息处理能力。

🚀 该模型的发布时间在凌晨三点,展现了团队的研发热情与不懈努力。

🌍 QVQ-Max的推出标志着阿里巴巴在AI领域的进一步布局,推动了全球AI技术的发展。

2、快手可灵AI全面焕新升级 上新“AI音效”、“资产管理”等新功能

快手旗下的可灵AI平台进行了全面的升级,以“可灵AI,灵感成真”为核心理念,优化了视觉设计和交互体验。新设计采用极简主义风格,提升了创作者的创意表现。新增的“AI音效”功能和“资产管理”功能,极大地提高了创作者的工作效率和创意表达的丰富性。

image.png

【AiBase提要:】

🎨 视觉设计采用极简主义风格,全新Logo简洁现代,减少视觉干扰,突出创意表现。

🎵 新增“AI音效”功能,为作品注入更多灵魂,丰富音频表达,使视频内容生动有趣。

📂 “资产管理”功能提升文件管理效率,优化创作流程,让创作者更专注于创意。

3、ChatGPT迎来重大升级:GPT-4o性能飙升,推出全新记忆功能Moonshine Nux V2

OpenAI于3月27日对其ChatGPT进行了重大升级,推出了新版GPT-4o模型及全新的记忆功能“Moonshine Nux V2”。新版模型在理解和执行用户指令方面显著提升,竞技场排名跃升至第二,尤其在多任务处理和创造性输出上表现出色。记忆功能的革新使得ChatGPT能够跨越对话保持记忆,极大提高了用户体验。

image.png

【AiBase提要:】

🌟 新版GPT-4o模型在多个维度上显著提升,尤其是在多任务处理和创造性输出方面表现优异。

🧠 新增的记忆功能“Moonshine Nux V2”使ChatGPT能够跨窗口保持记忆,提高了交互的连贯性和智能性。

💰 GPT-4o以低成本高性能的特性挑战市场,超越了竞争对手,巩固了OpenAI的技术领先地位。

4、Cline现已支持Gemini2.5Pro:AI开发迎来新助力

随着人工智能技术的发展,Cline宣布支持Google DeepMind推出的Gemini2.5Pro模型,为开发者提供了一个强大的免费工具,提升了编码和调试的效率。Gemini2.5Pro以其卓越的多模态能力和长上下文窗口受到广泛关注,尤其在处理复杂任务时展现出巨大的潜力。

image.png

【AiBase提要:】

🚀 Cline与Gemini2.5Pro的结合,为开发者提供了高效的编码和调试工具,降低了使用门槛。

🧠 Gemini2.5Pro具备长达100万token的上下文窗口和多模态输入能力,适用于复杂项目的处理。

🌍 开发者社区对Gemini2.5Pro的反馈积极,期待其在实际应用中的潜力,尽管速度问题仍需优化。

5、豆包推出新版深度思考功能 支持边想边搜

字节跳动旗下的AI助手豆包于3月28日推出新版深度思考功能,开启测试阶段。这一更新显著提升了AI助手的信息处理和推理能力,用户能够享受更全面和准确的智能服务。新版功能结合了推理过程的思维链与搜索深度,支持‘边想边搜’,并在多个场景中展现出更大的应用潜力,尤其在方案制定和专业写作方面,豆包的表现令人期待。

【AiBase提要:】

🔍 新版深度思考功能支持边想边搜,结合推理与搜索,提升信息处理能力。

📝 在方案制定中,豆包可推理缺失信息并定向搜索,提供完善的结果。

📚 在写作辅助方面,豆包通过深层检索提升思考深度,为专业文章提供参考思路。

6、OpenAI升级 GPT-4o:付费用户即刻体验,免费用户需再等数周

OpenAI最近在社交媒体上宣布了其旗舰模型GPT-4o的升级,付费用户将立即体验到新功能,而免费用户则需等待数周。此次升级显著提升了模型处理复杂指令的能力、技术与编程能力,以及直觉与创造力。此外,模型在对话中减少了表情符号的使用,以提高交流的自然性。

【AiBase提要:】

✨ 更擅长处理复杂指令,提升用户需求响应能力。

💻 技术与编程能力显著增强,支持开发者和技术爱好者。

🎨 直觉与创造力再升级,为内容创作和教育带来新可能。

7、Midjourney V7将于3月31日发布:重新定义AI生成艺术的疆界

Midjourney V7的发布标志着AI图像生成技术的重大进步,尤其是在自然语言理解和视觉表现方面。新版本不仅提升了图像生成的细节和美学质量,还降低了艺术创作的门槛,使得用户能够通过简单的文字描述创造复杂的艺术作品。

image.png

【AiBase提要:】

🖼️ Midjourney V7将于2025年3月31日发布,距离上一个版本已有22个月,标志着技术的重大更新。

🌟 新版本在视觉连贯性、细节渲染和自然语言理解方面取得显著进步,拓展了创意表达的可能性。

🤖 Midjourney V7旨在降低艺术创作门槛,使用户通过简单文字生成复杂艺术作品,强化其在AI图像生成市场的竞争力。

8、更智能!OpenAI 推新功能:ChatGPT可直接连接企业内部知识库

OpenAI最近推出了一项新功能,允许ChatGPT Team用户将内部知识直接与平台连接。这一功能旨在提升企业用户的信息响应效率和决策质量。通过连接内部知识库,用户能够进行语义搜索,确保回答与企业环境相符,同时系统会学习组织内部的特定语言和术语。

image.png

【AiBase提要:】

🔗 连接内部知识库,提升信息响应的精准度和上下文相关性。

📊 支持语义搜索和内部资料引用,确保回答符合最新企业语境。

🔒 严格管理用户权限,保护内部数据的安全性和隐私。

9、PIKA新功能发布:AI视频技术“让您遇见更年轻的自己”

随着人工智能技术的快速发展,iPIKA推出了新功能“您可以遇见更年轻的自己”,允许用户通过上传童年照片和自拍视频生成互动视频。这一创新结合了科技与情感,用户可以自定义“年轻版自己”的动作和表情,生成真实感十足的视频,受到用户的高度评价。

image.png

【AiBase提要:】

📸 用户可以通过上传童年照片与自拍视频生成与“年轻版自己”互动的视频。

🎭 该功能支持将网络热门迷因角色融入视频,增强娱乐性与个性化体验。

🚀 iPIKA展示了其技术实力,未来可能优化功能,支持多人互动和提升视频质量。

详情链接:https://pika.art/login

10、Nvidia 推出 G-Assist:本地运行的 AI 助手为玩家提供全方位支持

Nvidia 最近推出了实验性 AI 助手 G-Assist,专为 GeForce RTX 显卡设计,能够在本地运行,提升玩家的游戏体验。该助手具备系统诊断、游戏优化、GPU 超频等多种功能,并支持控制兼容外设。与云端 AI 助手不同,G-Assist 完全依赖用户的 GPU 资源,使用基于 Llama 的模型。

image.png

【AiBase提要:】

🖥️ G-Assist 是一个本地运行的 AI 助手,专为 GeForce RTX 显卡设计。

🎮 该工具具备系统诊断、游戏优化、GPU 超频等多种功能,提升玩家体验。

🔧 Nvidia 为 G-Assist 提供了开发者平台,鼓励用户反馈以不断改进该助手。

11、开源版Suno来了!AI音乐生成模型YuE可生成专业级的歌声和伴奏

YuE是由香港科技大学与DeepSeek合作开发的开源音乐生成模型,能够生成多种风格的音乐并模拟人声。其双LLaMA语言模型架构使其在音乐生成质量上达到了前所未有的高度,甚至与著名的闭源工具相抗衡。

image.png

【AiBase提要:】

🎵 YuE能够生成多种风格的音乐,并模拟人声,提供全新的音乐体验。

🎤 采用双轨版下一token预测策略,确保音乐创作的细腻度和一致性,提升音质。

🔍 引入独特的音乐上下文学习技术,避免抄袭,增强创作的独特性。

详情链接:https://github.com/multimodal-art-projection/YuE

12、中国初创公司蝴蝶效应谋求5亿美元融资,Manus AI智能体备受瞩目

蝴蝶效应是一家中国初创公司,正在与美国投资者洽谈新一轮融资,目标估值达到5亿美元。其AI智能体Manus能够执行多种任务,受到市场关注。尽管中美科技竞争加剧,该公司仍在寻求美国风投支持,因其专注于应用程序开发而不受投资禁令限制。

【AiBase提要:】

💰 蝴蝶效应正在与美国风投洽谈融资,目标估值5亿美元,较之前增长五倍。

🌍 Manus AI智能体在社交媒体上引起关注,主要目标市场为美国,也开始在中国提供服务。

🚀 蝴蝶效应计划在东京开设办公室,旨在拓展日本市场,同时扩大全球用户规模。

举报

  • 相关推荐
  • AI日报阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报:ChatGPT支持MCP和会议记录功能;Cursor 1.0 版本重磅发布Midjourney视频功能将在本月上线

    本期AI日报聚焦多项AI领域突破:1)OpenAI为ChatGPT新增企业数据连接和会议记录功能;2)Cursor 1.0发布集成BugBot等开发工具;3)Midjourney即将推出视频生成功能;4)秘塔AI搜索新增PPT导出功能;5)Manus推出文本生成视频工具挑战Sora;6)法国Mistral发布企业级编程助手;7)英伟达推出文档处理专用AI模型;8)腾讯公益引入大模型提升互动体验;9)Firecrawl推出网页抓取API工具;10)Bland AI实现超真实语音克隆;11)报告显示AI训练成本逼近百亿美元;12)开源设计工具Jaaz支持批量图像生成;13)《逆水寒》手游接入AI实现图片动效玩法。

  • 苹果炮轰AI推理模型:全是假思考!所谓思考只是一种假象

    有人总结到:苹果刚刚当了一回马库斯,否定了所有大模型的推理能力。 苹果团队认为,现有评估主要集中在既定的数学和编码基准上,看模型最终答案是否正确,但可能存在模型训练时见过类似题目。 并且,这些评估大都缺乏对思考过程质量”的分析,比如中间步骤是否逻辑一致、是否绕弯路等。 为了更客观测试推理模型的推理能力,他们设计了4类谜题环境:汉诺塔、�

  • AI日报GPT-4.1正式上线ChatGPT阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • 可灵AI离营收单月破亿,还有多远?

    虽然嘴上没明说,但快手显然也不想在AI时代仍甘当短视频老二。 因此,如今快手的财报会议上,AI占据了越来越多的篇幅,当然关键还是可灵AI的确争气。 根据快手2025年一季度财报显示,可灵AI营收超过1.5亿元人民币。从2024年9月的单月千万流水,到2025年第一季度的季度1.5亿营收,换言之,7个月时间里可灵AI实现15倍的营收增长。

  • AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • AI日报:谷歌推最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

    本文汇总了近期AI领域的重要动态:1)谷歌推出249.99美元/月的AI Ultra订阅计划,提供最强AI模型和高级功能;2)腾讯混元模型升级,新增视觉推理T1-Vision和语音对话模型;3)美图获阿里2.5亿美元投资,将在电商和AI领域合作;4)豆包推出语音播客模型,实现文本快速转音频;5)百度文心X1 Turbo获信通院最高评级;6)谷歌发布Flow AI剪辑工具,集成Veo3等三大模型;7)谷歌Veo3支持4K视频生成;8)Imagen4图像模型发布;9)Gemini2.5 Pro新增并行推理功能;10)谷歌推出虚拟试衣工具;11)公测AI编程助手Jules;12)苹果计划在iOS19开放AI模型;13)京东云推五大免费AI营销工具;14)字节开源多模态模型BAGEL;15)英伟达发布物理推理模型Cosmos-Reason1。

  • AI日报阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • AI日报:美团No Code平台免费开放;豆包App升级“一句话P图”功能;苹果Xcode 26内置ChatGPTAI功能

    本文介绍了AI领域多项重要进展:1)美团推出No Code平台和1680个AI应用;2)豆包App升级"一句话P图"功能;3)苹果发布内置ChatGPT的Xcode26开发工具;4)iOS26新增视觉智能功能;5)讯飞星火X1升级版即将发布;6)比亚迪接入阿里通义大模型;7)DeepSeek支持本地工具调用;8)开源框架Rowboat支持快速构建智能助手;9)X平台整合Grok AI优化内容推荐;10)港科大开发进化搜索技术提升小模型图像生成能力;11)硅基流动完成数亿元融资;12)港大与英伟达合作开发新型视觉注意力机制。这些创新展示了AI技术在各领域的快速发展和应用突破。