11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
腾讯云
12-20
微算法科技(NASDAQ MLGO)推出基于AI的动态权重学习模型,解决区块链账户关联分析中传统静态模型难以适应业务快速变化的问题。该模型采用分层架构,结合注意力机制LSTM、联邦学习等技术,实时捕捉交易模式演变,动态调整账户关联权重。在分片效率、风险控制、资源分配等领域应用效果显著,提升交易处理速度与欺诈识别率。未来计划融合多模态数据,探索量子机器�
SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。
Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。
AI圈虽然天天卷,但是很多的模型,真的越来越无聊了。 每天就是跑分又多了几个点。 直到昨天,DeepSeek久违的发了一个新模型。 DeepSeek-OCR。 这玩意,是真的有点酷。
DeepSeek在GitHub开源新一代OCR模型,采用创新光学二维映射压缩技术,在长文本识别场景实现97%准确率。模型通过动态压缩生成最优视觉特征令牌,较传统方法减少60%计算冗余。实验显示在1:20压缩率下仍保持60%以上准确率,显著优于同类模型。该技术路径为OCR系统小型化提供解决方案,其动态压缩策略对大型语言模型的记忆管理机制具有重要启示。
微软发布首款自研图像生成模型MAI-Image-1,跻身LMArena前十,注重实用性与光影效果;百度世界2025大会将聚焦大模型与AI全球化战略;Meta新技术使RAG推理速度提升30倍;开源项目nanochat实现低成本构建聊天AI;谷歌NotebookLM新增动漫视频生成功能;中国农大发布神农大模型3.0助力智慧农业;腾讯启动"青云奖学金"培养AI人才;苹果FS-DFM模型长文本生成效率提升128倍;谷歌Lens整合AI图像编辑功能;港大与美团提出CodePlot-CoT方法,通过代码绘图解决数学难题,性能提升21%。
快手开源72B代码模型KAT-Dev在SWE-Bench测试中准确率达74.6%,创国产AI编程里程碑;杭州云深处推出全球首款IP66防护全候作业机器人DR02;谷歌Chrome将集成Gemini引发隐私担忧;学者指控苹果使用盗版书籍训练AI,版权争议再起;Liquid AI发布高效稀疏激活模型LFM2-8B-A1B;苹果拟收购Prompt AI布局智能家居视觉技术;AI伴侣应用泄露4300万条用户隐私对话;西湖大学DeepScientist显著提升科研效率。
9月28日,在成都举行的“2025天府人工智能产业生态大会”上,考拉悠然宣布其自主研发的“悠然无界大模型BLM-1.0”完成迭代升级并全面开源,同时发布基于该模型的UU Holo Glass O1 AR工业眼镜。此举标志着公司以“技术开源+场景落地”双轮驱动策略,推动空间智能产业生态共建。BLM-1.0突破传统模型局限,具备跨空间、跨任务、跨本体的“三跨”统一能力,在空间理解、推理与执行三大核心能力上刷新行业纪录。配套AR眼镜深度融合空间感知与多模态交互,实现工业运维、安装巡检等场景的全程自动化与智能辅助,显著提升效率并降低成本。
蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0,在多项基准测试中表现优异;阿里通义7款模型登顶Hugging Face榜单,Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限,可自动完成视觉任务;特斯拉推进人形机器人量产,马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密,苹果内部测试聊天机器人Veritas优化Siri,YouTube推出AI音乐主播增强互动,LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。
本文汇总了近期AI领域多项重要进展:生数科技推出Vidu Q2模型,显著提升视频生成中细微表情的真实感;火山引擎发布炉米Lumi平台,支持视觉模型LoRA微调以定制独特风格;阿里云通义千问开源超300个模型,下载量突破6亿次;百度开源多模态视觉理解模型Qianfan-VL,适配不同场景需求;微软在Copilot中引入Anthropic模型,拓展AI助手功能;OpenAI计划在美国新建五个数据中心以加速Stargate项目;英伟达开源Audio2Face模型,提升实时面部动画生成效果;Meta发布具备沙箱推演能力的32B代码世界模型CWM,优化代码调试效率。这些动态展示了AI技术在视觉、多模态、开源生态及硬件支持等方面的快速迭代与创新突破。