11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
腾讯云
12-20
4月14日,魔搭社区在2026世界互联网大会亚太峰会上发布《AI开源生态的全球价值与实践探索》报告。该报告基于超万名真实用户调研,系统梳理了开源技术如何重塑全球创新路径、深化国际治理协作,并剖析其在社会公益与智能生活场景中的最新产业实践。报告指出,AI开源正从少数机构的技术共享,全面演进为全社会可参与的公共创新基础设施。
本期AI日报聚焦多领域AI进展:CapCut上线AI视频制作功能,提升创作效率;快手财报显示AIGC营销素材消耗显著,AI重塑商业链路;字节跳动开源超级智能体编排框架DeerFlow2.0;谷歌DeepMind发布Lyria 3 Pro,可独立编曲;OpenAI内测新模型“Spud”,整合Sora算力并计划推出桌面级超级应用;蚂蚁集团发布多语言嵌入模型F2LLM-v2,性能卓越;钉钉发布企业级AI“数字员工”,简化办公流程;苹果联合发布RubiCap框架,提升图像描述精度。
2025年11月21日至22日,北京亦庄将举办2025开放原子开发者大会,主题为“AI共治,开源共享”。大会汇聚全球开源项目、技术专家与开发者,探讨开源技术与AI融合的未来路径,覆盖操作系统、人工智能、数据库、量子计算等前沿领域。通过主题论坛、技术分论坛及项目展示,为开发者提供技术交流、生态共建及职业成长平台,助力开源社区发展。
本期AI日报聚焦多项技术突破:月之暗面开源AI代理框架Kosong,支持异步编排与插件化设计;Replit推出AI集成功能,可一键调用300+模型;商汤发布空间智能模型SenseNova-SI,性能超越GPT-5;百度推出多模态模型ERNIE-4.5-VL,新增图像思考能力;谷歌地图全面AI化,集成Gemini实现智能交互;ChatTutor上线可视化教学系统,覆盖多学科实时推演;新版Google Finance引入AI深度搜索与财报追踪;OpenAI低调上线Polaris Alpha模型,支持256K上下文并更新知识库至2024年10月。
腾讯跨端开发框架Kuikly基于Kotlin Multiplatform技术,适配苹果iOS26系统新增的“液态玻璃”设计语言。该框架采用原生渲染架构,能快速集成系统级创新,提供简洁API支持开发者低成本适配新特性,同时确保跨平台一致性和兼容性。Kuikly已实现对液态玻璃的首阶段适配并开源,帮助业务在保持代码统一性的同时获得原生级体验。
本文介绍了AI日报栏目,聚焦人工智能领域最新动态。主要内容包括:腾讯开源具备3D重建能力的HunyuanWorld-Voyager模型、通义实验室推出的多智能体开发框架AgentScope 1.0、即梦AI开放图像与视频生成API、腾讯翻译模型Hunyuan-MT-7B在WMT2025斩获佳绩、苹果推出图像生成技术STARFlow和视觉语言模型FastVLM、新模型CoMPaSS-FLUX.1提升空间理解能力、Cherry Studio免费提供Qwen38B模型、谷歌Gemini API新增网页内容解析功能,以及腾讯优图开源智能体框架Youtu-Agent。这些进展展现了AI技术在多个领域的创新与应用。
本期AI日报聚焦多项技术突破:字节跳动发布OmniHuman-1.5实现图像音频秒变超真视频;爱诗科技PixVerse V5全球上线支持多场景创作;腾讯开源Youtu-agent框架提升AI开发效率;百度智能云发布百舸AI计算平台5.0;OpenAI将推出家长监控功能应对安全风险。同时涵盖硬件创新、市场预测及中国团队在全球AI应用领域的突出表现,展现人工智能领域快速发展的技术迭代与生态建设。
AI日报栏目汇总了近期AI领域的重要进展:1)字节跳动开源EX-4D框架,可将单目视频转换为多视角4D视频;2)B站开源动漫视频生成模型AniSora V3,支持多种风格;3)DeepSWE+开源基于Qwen3-32B的AI Agent系统;4)字节开源3亿参数图像编辑模型VINCIE-3B;5)Stability AI推出移动端音频生成模型Stable Audio Open Small;6)谷歌发布免费教育AI工具套件Gemini for Education;7)Topview推出革命性AI数字人带货技术Avatar
今天凌晨1点,OpenAI开源了一个全新的AIAgent评测基准——PaperBench。这个基准主要考核智能体的搜索、整合、执行等能力,需要对2024年国际机器学习大会上顶尖论文的复现,包括对论文内容的理解、代码编写以及实验执行等方面的能力。目前智能体的能力还无法超越人类。
搭建VoiceAgent就像是把大象装进冰箱,看上去只有三步很简单:1)选择LLM/STT/TTS大模型2)接入WebRTC或WebSockets进行实时传输3)调整参数封装但在实际使用过程中,却困难重重:“😫回声太大、噪音太多”、“人声太杂听不清👂”“人工智能如智障,说话都不能打断🤐”“延迟太高反应慢🐢”、“又有新模型了又要重新接😞”“三段式看着简单实现的工程太难💻”“多模态数据�