11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力
AI日报栏目聚焦人工智能领域最新动态:1)阿里发布Qwen3-4B轻量级模型,手机端可运行;2)小红书开源多模态大模型dots.vlm1,在图表推理方面表现突出;3)MiniMax推出语音生成模型Speech2.5,多语种表现提升;4)Midjourney推出HD视频模式,提升专业影像质量;5)Cursor1.4版本增强异步任务处理能力;6)谷歌否认AI搜索影响网站流量,但数据显示用户行为改变;7)MiniCPM-V4.0开源发布,号称"手机上的GPT-4V";8)AMD与高通宣布支持OpenAI的gpt-oss系列模型;9)腾讯开源WeKnora文档智能解析工具;11)疑似GPT-5信息在GitHub泄露;12)FlowSpeech实现书面语转口语的TTS技术突破。
本期AI日报聚焦多项AI领域重要进展:1) Midjourney推出首款视频生成模型V1,支持21秒视频生成;2) OpenAI CEO确认GPT-5将于今夏发布;3) Google上线语音对话搜索功能Search Live;4) OpenAI开源客户服务代理框架;5) MiniMax发布智能代理Agent;6) 恶意工具WormGPT出现新变种;7) OpenAI推出企业版ChatGPT折扣;8) DeepSite V2支持3D网页动画生成;9) AI工具可秒变PPT;10) 比亚迪与字节跳动合作开发动力电池技术;11) 马斯克否认xAI巨额亏损传闻。
5月20日,火山引擎推出豆包·语音播客模型,实现文本秒转专业播客内容。该模型三大优势:1)自然流畅的双人对话效果,语音拟真度高;2)支持热点话题即时生成,5秒产出最新资讯播客;3)提供端到端创作链路,支持超长文本/网页链接转播客。相比传统AI播客,解决了内容重复、机械感强等问题。模型即将登陆豆包APP及PC端,6月11日将在火山引擎大会上展示更多功能。
复旦大学与美团研究者提出UniToken框架,首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码,有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略(视觉语义对齐、多任务联合训练、指令强化微调),UniToken在多个基准测试中性能超越专用模型。其创新性体现在:1)统一的双边视觉编码
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、抖音打通豆包AI,字节跳动开启超级AI生态战略抖音App正在测试接入豆包AI,标志着字节跳动加速推进AI生态布局。此次融资将用于加速研发和引进人才,致力于打造领先的AI视频生成大模型及应用。
下面的两个有声书演播片段,你能分辨是真人还是AI合成的吗?实际上这两个小说片段都是AI合成的,方案来自于豆包语音模型团队。为了逼近一流真人主播的演播效果,豆包语音模型基于原有Seed-TTS框架进一步加入上下文理解,最终实现了高表现力、高自然度、高语义理解的小说演播效果。未来豆包语音模型会继续探索前沿科技与业务场景的结合,追求更极致的“听”体验。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、月之暗面Kimi多模态图片理解模型API发布2025年1月15日,北京月之暗面科技有限公司正式发布了全新多模态图片理解模型moonshot-v1-vision-preview,该模型在原有moonshot-v1系列的基础上进一步增强了多模态能力,旨在帮助Kimi更好地理解世界。通过模块化设计,MiniCPM-o2.6集成了多种强大组件,支持实时处理和多语言功能。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。9、英伟达发布生成式AI超级电脑:仅249美元性能提升1.7倍英伟达推出的JetsonOrinNanoSuper是一款面向开发者的生成式人工智能超级电脑,定价249美元,性能提升显著,适用于多种AI应用场景。此次股票出售不仅激励了员工,也加强了公司与投资者之间的信任关系,显示出OpenAI作为创新型公司的潜力与价值。
出门问问多模态大模型又添新备案!出门问问语音大模型「序列猴子」成功通过上海市生成式人工智能服务备案,这是出门问问继「序列猴子」大模型完成相应备案后的又一次成就。出门问问将继续AIGC应用场景中深耕,借助公司的领先及先发优势,持续探索AIGC的技术与应用边界,为推动我国生成式人工智能的建设与发展贡献力量。