11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
腾讯云
12-20
人工智能成为资本市场热点,随之而来的是鱼龙混杂的乱象。简单包装、打着AI旗号卖高价的“套壳”现象层出不穷。科大讯飞董事长刘庆峰强调,发展人工智能要有长期主义精神,告别“虚火”,把根扎在国产算力的土壤里。下半场比拼的不再是概念堆砌,而是全栈自主可控的硬实力与赋能千行百业的真本事。可靠与安全才是基石,算力是最大瓶颈。企业需构建安全底座并解决真实痛点,才能穿越周期。科大讯飞坚持“顶天立地”战略,既要在源头技术上领先,又要在产业应用上解决民生刚需,展示了AI技术“落地”的正确姿态。
可灵视频生成2.6模型推出“音画同出”功能,彻底改变了传统AI视频“先无声画面、后人工配音”的工作流程。它能在单次生成中,输出包含自然语言、动作音效及环境氛围的完整视频,重构了AI视频创作工作流,极大提升创作效率。该模型在中文语音生成效果上保持全球领先,支持生成最长10秒的视频,可广泛应用于广告营销、自媒体、电商等内容创作场景。
今日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),依托Seed混合专家大语言模型架构构建。 据介绍,2.0版本模型推理能力提升,可以通过深度理解上下文完成精准识别,上下文整体关键词召回率提升20%。 同时支持多模态视觉识别,不仅听懂字”还能看懂图”,通过单图和多图等视觉信息输入让文字识别更精准。
数字时代,企业80%以上数据隐藏于各类非结构化文档中,成为AI落地的“堵点”。大语言模型虽能处理此类数据,但常因输入数据质量低导致“幻觉”问题。司马阅DocMind-V3.0通过多模型协同的完整处理链路,将非结构化数据转化为可用于分析、AI应用的结构化数据,从根源降低AI幻觉,提升商业落地价值。
当前大模型虽能力惊人,却普遍存在“记忆缺失”问题,制约了AI应用的深度与用户体验。红熊AI推出的开源记忆系统“记忆熊”,旨在突破这一瓶颈。它基于认知科学原理,构建了包含存储层、编排层和应用层的三层架构,模拟人类记忆的感知、提炼、关联与遗忘全周期,为智能体提供长期记忆框架。该系统不仅显著提升了任务性能与效率,降低了幻觉生成,更标志着AI设计从“即时响应”向“持续认知”的关键转变。记忆系统的完善,将驱动AI在医疗、教育、企业服务等领域实现更深度的智能化升级,开启人机协作的新时代。
本文汇总了AI领域最新动态:快手可灵2.6上线,实现“音画同出”生成视频;字节跳动发布Seedream4.5,提升多图一致性生成;豆包助手回应权限争议并下线微信操作功能;智源研究院推出多模态世界模型Emu3.5,可预测真实世界状态;研究揭示AI模型能发现并利用智能合约漏洞;小米公布AI战略,押注“AI+物理世界”融合;谷歌发布Workspace Studio,助力企业构建AI代理;DeepSeek同步上线V3.2与Speciale两款新模型,展示开源实力。
本期AI日报聚焦多领域AI进展:Kling 2.6发布,支持音频同步生成,AI视频进入有声时代;千问APP推出学习大模型,提升拍照答疑与作业批改能力;阿里通义实验室开源图像生成模型,实现精准控制;豆包手机助手遭遇微信登录异常,凸显生态兼容挑战;米哈游推出带猫语特色的AI聊天模型AnuNeko;亚马逊云科技发布三款新型AI智能体,其中Kiro可自主编程数日;IDC报告预测具身智能�
全球首个大一统多模态视频创作工具“可灵O1”正式上线。它基于全新视频图像模型,以自然语言为语义骨架,融合视频、图片、主体等多模态描述,将生成和编辑任务整合于一个全能引擎中,为用户提供从灵感到成品的闭环创作体验。该模型打破传统单一视频生成任务边界,支持参考生视频、文生视频、首尾帧生视频、视频内容增删、风格重绘等多种任务,用户无需在多个工具间跳转即可一站式完成全流程创作。
易鑫集团(02858.HK)宣布开源其自主研发的Agentic大模型YiXin-Agentic-Qwen3-14B,成为汽车金融行业首个开源此类模型的企业。该模型基于通义千问Qwen3-14B深度优化,具备卓越推理、复杂任务处理及多方协作的智能体能力,在多项性能测试中位列榜首,推理成本较行业平均水平降低三分之一。模型搭载金融领域专属知识体系与工具集,覆盖语音交互、车辆评估、风控、欺诈识别等功能,形成全链路智能支撑体系。易鑫提出“底座开放-社区共建-能力迭代-企业部署-生态繁荣”的开源共建模式,通过提供低代码私有化模板,帮助企业快速落地AI应用。此次开源与之前发布的行业首个开源推理大模型YiXin-Distill-Qwen-72B形成“垂直底座+Agentic大脑”双轮技术矩阵,填补了汽车金融领域专业开源AI工具链的空白。
本文汇总了AI领域的最新动态:可灵AI发布O1视频大模型,支持多模态输入一键生成视频;千问APP接入万相Wan2.5,提升视频创作能力;PixVerse V5.5实现音画同步,简化视频制作;深度求索推出DeepSeek-V3.2,引入稀疏注意力机制降低成本;Runway发布Gen-4.5模型,增强视觉质量;谷歌优化AI搜索体验,Gemini 3 Pro扩展国际市场;Lovart推出Touch Edit功能,实现零门槛图像编辑;蚂蚁数科Agentar入选中国智能体开发赛道第一梯队,展现技术实力。