11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
腾讯云
12-20
小红书科技与Red++ Academy在1024程序员节举办直播,技术副总裁凯奇、语音模型负责人风龙与Hugging Face联合创始人Thomas Wolf围绕三大核心观点展开AMA对话:AI编程正成为基础能力;开源是技术发展的核心引擎;实现有"人味"的AGI路径清晰但仍需攻克创造力、复杂环境感知等难题。讨论覆盖开源价值、AGI发展瓶颈、AI人味化实践,强调技术人需提升问题定义与框架性解决能力,并分享了AI编码提效、学习新技术的方法。直播展现小红书从文本模型到语音模型的开源布局,旨在降低技术使用门槛,推动社区共进。
SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。
蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0,在多项基准测试中表现优异;阿里通义7款模型登顶Hugging Face榜单,Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限,可自动完成视觉任务;特斯拉推进人形机器人量产,马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密,苹果内部测试聊天机器人Veritas优化Siri,YouTube推出AI音乐主播增强互动,LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。
百度发布超轻量级文字识别模型PP-OCRv5,仅0.07B参数却实现媲美700亿参数大模型的OCR精度。在多项测试中超越GPT-4o等通用视觉大模型,尤其在文本定位和边界框精度上表现优异。该模型支持5种文字类型识别,适用于教育、医疗、法律等多行业数字化需求,累计下载量超900万,是GitHub上唯一Star数超5万的中国OCR项目。
AI日报今日聚焦七大热点:小红书发布FireRedTTS-2语音合成模型,显著提升自然度;百度文心ERNIE-4.5登顶Hugging Face榜单;谷歌Gemini应用登顶美国免费榜;马斯克xAI裁员500人并战略转型;OpenAI拟大幅降低与微软分成比例;DeepMCPAgent开源框架提升AI代理生产力;蚂蚁发布AI开源全景图2.0;北京1400多所中小学推行人工智能通识课程。
本期AI日报聚焦多项AI领域创新:1)阿里开源Qwen-Image-Edit图像编辑模型,支持中文渲染与精准文本编辑;2)淘宝测试"AI万能搜"功能,重构电商搜索体验;3)小红书发布DynamicFace人脸生成技术,实现高质量图像视频换脸;4)Gemini API新增URL Context功能,简化网页内容获取流程;5)Nvidia推出小型开放模型Nemotron-Nano-9B-v2,支持智能推理开关;6)马斯克发布Grok Imagine 0.1测试版,进军AI图像生成领域;7)Vercel推出iOS版AI开发工具v0;8)理想汽车发布MindGPT 3.1模型,处理速度提升5倍;9)ToonComposer工具简化动画制作流程;10)ElevenLabs推出视频到音乐生成流程。
更新后的 R1 拥有 6850 亿个参数,体量庞大。由于模型规模极大,普通消费者级别的硬件很可能无法直接运行。
要实现真全面屏,苹果面临的首要任务便是将Face ID置于屏幕下方。最新曝光的专利显示,苹果通过创新技术提高了红外光的透光率,使得红外光能够顺利穿过OLED面板,从而实现屏下人脸识别功能。 然而,实现真全面屏的另一大难题在于屏下前摄技术
5月15日,折叠屏iPhone工程机曝光。内屏尺寸较此前爆料略小,采用14.1:10比例和屏下摄像头技术;外屏为14.6:10挖孔屏,支持侧边指纹识别。苹果为保持机身轻薄砍掉Face ID,折叠态厚度约9mm,展开仅4.5mm。首次采用全新in-cell触控技术,实现触控面板与显示面板一体化,使屏幕更轻薄。展开后屏幕几乎无折痕或铰链缝隙,显示效果接近普通iPhone。该产品预计2026年下半年发布。
从最新爆料来看,iPhone 18 Pro系列将会升级到全新的单挖孔屏,这是目前安卓阵营的主流屏幕形态。区别在于安卓阵营普遍都是以屏幕指纹为主,而iPhone 18 Pro系列仍然是3D人脸识别。