AI日报：Kimi发布多模态图片理解模型API；周鸿祎参演AI短剧开拍；MiniMax-01系列模型开源；星火同传语音大模型发布

2025-01-15 15:38 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、月之暗面Kimi多模态图片理解模型 API 发布

2025年1月15日，北京月之暗面科技有限公司正式发布了全新多模态图片理解模型moonshot-v1-vision-preview，该模型在原有moonshot-v1系列的基础上进一步增强了多模态能力，旨在帮助Kimi更好地理解世界。该Vision模型具备卓越的图像识别能力，能够识别复杂细节并区分相似对象，表现出色，尤其在OCR文字识别和图像理解方面，超越传统软件的准确性。

【AiBase提要:】
🖼️ Vision模型具备强大的图像识别能力，能够准确区分复杂细节和相似对象。
📄 在OCR文字识别和图像理解方面表现优异，识别潦草手写内容的能力超越普通软件。
💬 模型支持多轮对话和工具调用等特性，使用灵活，但不支持联网搜索。

2、MiniMax开源MiniMax-01全新系列模型

MiniMax于2025年1月15日发布了其全新开源系列模型MiniMax-01，包含基础语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01。该系列通过创新的线性注意力机制和超大参数量，实现了高效的长文本处理，性能与国际顶尖模型相当。

【AiBase提要:】
🧠 MiniMax-01系列模型采用创新的线性注意力机制，打破传统架构局限，支持长达400万token的上下文处理。
💡 该系列模型在多项任务上追平了GPT-4o和Claude-3.5-Sonnet，尤其在长文任务中表现优异。
💰 MiniMax以业内最低价格提供文本和多模态理解API服务，标准定价为输入token1元/百万token，输出token8元/百万token。
详情链接:https://github.com/MiniMax-AI

3、周鸿祎参演 AI 短剧开拍，AI做特效、AI硬件齐上阵

360集团创始人周鸿祎宣布参与拍摄国内首部AI短剧，该剧将在西安开机，计划于春节期间上线。短剧以穿越为主题，预计60集，旨在传递正能量并避免狗血剧情。周鸿祎希望通过短剧展示AI技术，促进其在日常生活中的普及，同时推动360的纳米AI搜索产品的发展。

【AiBase提要:】
🌟 短剧将在西安开机，计划春节上线，主题为穿越，预计60集。
🤖 特效画面由纳米AI搜索生成，降低拍摄成本，提升视觉效果。
📚 旨在普及AI知识，助力每个人掌握AI技术，消除数字鸿沟。

4、阿里巴巴达摩院推出电商场景多模态大模型Valley2

阿里巴巴达摩院推出的Valley2是一款多模态大型语言模型，专为电商场景设计，旨在提升各领域的性能并拓展应用边界。该模型结合了先进的视觉编码器和创新的处理模块，展现了在多个基准测试中的卓越表现，标志着多模态语言模型的重大进展。

【AiBase提要:】
🌟 Valley2基于电商场景设计，采用Qwen2.5作为主干，结合SigLIP-384视觉编码器，提升多模态处理能力。
📊 训练过程包括文本-视觉对齐和链式思维后训练，确保模型在复杂问题解决中的高效性。
🏆 在多个公开基准测试中，Valley2表现卓越，尤其在电商领域的应用中超越同规模模型。
详情链接:https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

5、ChatGPT智能体来了!上线“Tasks”功能:智能处理提醒和待办事项

OpenAI最近推出了ChatGPT的新功能“任务”，允许用户安排未来的操作和提醒，使其更像传统数字助理。该功能现已向Plus、Team和Pro订阅用户推送，用户可以简单地输入任务及时间，ChatGPT将处理这些需求。尽管目前仅限于付费用户。

【AiBase提要:】
✅ 新功能“任务”允许用户安排未来的操作和提醒，提升ChatGPT的实用性。
🔔 用户可通过简单输入告知ChatGPT所需任务及时间，轻松管理日常事务。
💼 当前仅向付费用户推出，尚不明确是否会面向免费用户，预计仍将是高级功能。

6、小型文本转语音模型Kokoro-TTS，曾拿下TTS排行榜第一

Kokoro是一款新发布的语音合成模型，具有8200万参数，迅速在TTS领域崭露头角。其在Hugging Face平台上发布后，凭借仅用不到100小时的音频数据，便在排行榜上夺得第一，展现了超高的性价比。尽管目前存在声音克隆的局限性，但其训练过程的合规性和高效性为未来的发展奠定了基础。

【AiBase提要:】
🌟 Kokoro-82M 是一款新发布的语音合成模型，具有8200万参数，支持多种语音包。
🎤 该模型在 TTS 领域表现卓越，曾在排行榜上排名第一，仅用不到100小时的音频数据进行训练。
📊 Kokoro 模型的训练采用了开放许可证的数据，确保合规性，但目前仍存在一些功能限制。
详情链接:https://huggingface.co/hexgrad/Kokoro-82M

7、Topview AI推全球首个支持生成手拿产品的数字人Product Avatar

Topview AI推出的“Product Avatar”数字人解决方案为电商行业带来了革命性的变化。商家只需上传产品图片，AI便能生成手持产品的数字人并进行口播讲解，极大地节省了拍摄时间和成本。该产品还支持多种语言和个性化定制，标志着电商营销进入AI驱动的新阶段。

【AiBase提要:】
🤖 AI数字人可快速生成，无需真人模特，节省时间和成本。
🌍 支持1000多种数字人模特和28种语言，满足全球市场需求。
🎥 灵活高效的产品展示模式，商家可随时更换产品，提升推广效率。
详情链接:https://www.topview.ai/ai-product-avatar

8、英伟达400万美投资 MetAI 几分钟将CAD文件转为3D世界

Nvidia最近对初创公司MetAI进行了400万美元的种子轮融资，旨在推动AI数字双胞胎技术的发展。MetAI专注于利用AI和3D技术迅速将CAD文件转换为功能性3D环境，大幅缩短数字双胞胎的创建时间。该公司计划在2025年将总部迁至美国，并扩大研发团队，以满足日益增长的市场需求。

【AiBase提要:】
🌟 Nvidia投资400万美元于初创公司MetAI，推动AI数字双胞胎技术发展。
🤖 MetAI利用AI和3D技术将CAD文件快速转换为功能性3D环境，缩短数字双胞胎创建时间。
🚀 MetAI计划在2025年将总部迁至美国，并扩大研发团队以应对日益增长的市场需求。

9、讯飞星火4.0Turbo七大核心能力升级:数学、代码能力超GPT-4o

讯飞星火4.0Turbo的全面升级标志着科大讯飞在人工智能领域的又一重大突破。此次升级不仅在文本生成、语言理解等七大核心能力上实现了显著提升，更在数学和代码能力方面超越了GPT-4o，尤其是在复杂数学问题的处理上展现出更强的能力。

【AiBase提要:】
🔢 数学能力显著提升，超越GPT-4o，能够处理复杂数学问题。
💻 新推出的星火深度推理模型X1，拥有1750亿参数，适用于深层次数据分析。
📈 科大讯飞自2020年以来累计研发投入125亿元，支持AI技术的持续发展。

10、Gemini AI 实现视觉处理新突破:实时视频与静态图像同步分析

谷歌的Gemini AI最近在视觉处理领域取得了重要突破，能够同时处理实时视频和静态图像。这项技术通过实验性应用AnyChat展示，标志着人工智能在多流处理方面的进步。开发者可以利用Gemini的架构创建自定义平台，应用于教育、艺术等多个领域，展现出广泛的应用潜力。

【AiBase提要:】
🌟 Gemini AI实现实时视频与静态图像的同步处理，打破以往限制。
🎨 AnyChat平台展示了AI在教育、艺术等领域的广泛应用潜力。
🚀 开发者可以轻松利用Gemini的技术构建自己的视觉AI应用。
详情链接:https://huggingface.co/spaces/akhaliq/anychat

11、科大讯飞星火同传语音大模型发布:达到人类专家译员水平

科大讯飞今日发布了星火同传语音大模型，标志着国内首个具备端到端语音同传能力的大模型的问世。这一技术的推出，显著提升了翻译的流畅性和准确性，尤其在国际交流场合中表现出色。该模型支持多种语言的即时翻译，响应时间缩短至5秒以内，达到人类专家的翻译水平，预示着未来国际交流的便捷与高效。

【AiBase提要:】
🚀 星火同传语音大模型是国内首个具备端到端语音同传能力的大模型，显著提升了翻译效果。
🌍 该模型在英译中方面几乎实现无延迟，适合国际展会和旅游等场景使用。
⚡ 支持流式翻译和自适应语速调节，翻译的自然度和流畅度大幅提升，超越了国际同类技术。

12、OpenBMB发布多模态模型MiniCPM-o2.6手机也能进行视觉和语音处理

OpenBMB推出的MiniCPM-o2.6是一款具有80亿参数的多模态模型，旨在解决高计算资源需求与边缘设备兼容性之间的挑战。该模型在视觉、语音和语言处理方面表现出色，能够高效运行于智能手机和平板电脑上。通过模块化设计，MiniCPM-o2.6集成了多种强大组件，支持实时处理和多语言功能。

【AiBase提要:】
🌟 MiniCPM-o2.6是一款具有80亿参数的多模态模型，能够在边缘设备上高效运行，支持视觉、语音和语言处理。
🚀 该模型在OpenCompass基准测试中表现优异，视觉任务成绩超过GPT-4V，并具备多语言处理能力。
🛠️ MiniCPM-o2.6具备实时处理、语音克隆和情感控制等功能，适用于教育、医疗等多个行业的创新应用。
详情链接:https://huggingface.co/openbmb/MiniCPM-o-2_6

（举报）

相关推荐

关键词：

共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

10月28日，AtomGit平台在北京国家会议中心举行升级发布会，正式推出"开源+AI"一体化平台及人工智能开源社区。工信部副部长熊继军出席并致辞，强调建设AI开源社区对汇聚创新资源、把握科技革命机遇的重要意义。平台将整合开源模型、数据集及算力资源，打造开放中立的基础设施，计划于11月21日正式上线。华为、百度等企业代表分享了开源实践，多所高校签署了共建AI生态倡议。此举标志着我国开源生态迈向智能化时代的重要一步。

开源社区人工智能 AtomGit
人工智能巨头OpenAI拟上市估值或高达1万亿美元

OpenAI正积极推进上市计划，据知情人士透露，该公司可能最早于2026年下半年向证券监管机构提交上市申请，目标在2027年正式上市。此次IPO的估值有望达到约1万亿美元，或将跻身全球规模最大的IPO之列。在初步讨论中，OpenAI曾考虑通过上市筹集至少600亿美元资金，实际融资规模可能进一步扩大。

OpenAI IPO 上市计划
厚植AI创新沃土！麒麟信安打造人工智能孵化器，赋能创业梦想

10月28日，麒麟信安人工智能孵化器在长沙启动，旨在汇聚AI领域人才、技术与资本，构建开放协同的创新生态。该项目获湖南省多部门支持，已吸引60余个项目入围，组建了首批30余位专家导师团，并与多家顶尖机构共建联合体，通过政策扶持、资本对接等多维度赋能，培育优质AI项目在湘落地发展，助力区域打造人工智能产业创新高地。

人工智能孵化器麒麟信安创新创业
卖家精灵加入中国人工智能产业发展联盟（AIIA），加速AI赋能跨境电商

卖家精灵凭借在跨境电商智能化运营与AI大数据应用领域的领先实力，近日正式加入中国人工智能产业发展联盟（AIIA），成为该国家级AI产业生态重要成员。此次加入标志着其AI技术实力获权威认可，未来将携手联盟推动AI技术研发与产业化，助力中国品牌全球化。依托八年积累的海量电商数据与算法体系，卖家精灵已构建覆盖选品决策、市场分析等全链路AI解决方案，服务超百万跨境卖家，显著提升运营效率与决策精准度。

人工智能跨境电商 AI大数据
人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

科杰科技董事善于洋在2025中国国际数字经济博览会发表演讲，强调高质量数据集是人工智能产业决胜关键。他指出，算力、算法和数据构成AI三大要素，而数据决定模型认知边界与输出可靠性。当前需构建Data&AI一体化平台作为核心基础设施，通过集中管理、分散赋能模式，打通数据采集、治理到AI训练全链路，推动产业智能化升级。该平台已在制造、金融等领域落地，助力企业释放数据要素价值，实现弯道超车。

人工智能数据基础设施数字经济
行业首个！海尔冰箱获ISO/IEC 42001人工智能管理体系认证

2025年10月，海尔冰箱成为全球首个通过ISO/IEC42001人工智能管理体系认证的家电企业，标志着其AI技术研发与管理达国际领先水平。该认证覆盖语音交互、视觉识别、健康保鲜等核心功能全流程，确保用户数据安全与隐私保护。目前AI系统已应用于博观、麦浪等高端产品，推动智能冰箱行业规范化发展。未来海尔将持续优化AI技术，为用户提供更安全、智能的健康饮食体验。

冰箱品牌人工智能技术海尔冰箱
荐AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；Canva免费放出Affinity专业设计套件

本期AI日报聚焦多项技术突破：OpenAI调整Sora免费额度并推出付费计划，标志视频生成进入商业化；Figma收购Weavy推出AI设计工具；OpenAI发布基于GPT-5的安全研究助手Aardvark；全球首款AI字体生成器Dr Fonts上线；中国信通院发布大模型一体机应用报告；月之暗面推出Kimi Linear架构实现推理速度6倍提升；Canva免费发布Affinity设计套件挑战Adobe；Chrome新增Gemini驱动的图像生成与深度搜索功能。

Sora OpenAI 视频生成
十方融海小智AI：以科技温度诠释“人工智能+”时代的人文关怀

近日，小女孩“小十三”与十方融海研发的小智AI机器人深情告别的视频走红网络。这段1分17秒的对话不仅让无数网友泪目，更展现了AI技术的情感温度。十方融海团队迅速响应，跨越600公里为女孩送上定制版机器人作为生日礼物，并推出儿童心理陪伴计划。该事件体现了“人工智能+教育”的深刻内涵，彰显科技企业的人文关怀与社会担当，成为“技术向善”的生动实践。
微算法科技（NASDAQ:MLGO）开发延迟和隐私感知卷积神经网络分布式推理，助力可靠人工智能系统技术

微算科技开发了延迟和隐私感知卷积神经网络分布式推理技术，通过创新队列机制和深度强化学习优化CNN推理过程，结合分布式计算与隐私保护机制，在降低边缘设备计算延迟的同时强化数据隐私。该技术将推理任务智能分配到不同节点，减少数据传输范围，实现高效推理与隐私安全的平衡，为智能医疗、交通等领域提供可靠解决方案。

人工智能深度学习隐私保护
荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

10月15日，荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力，支持图文、语音、视频输入及多样化内容输出，结合火山引擎的豆包大模型技术，提供联网问答、智能识图、创意修图、出行规划等场景服务，实现“有问必答、答则精准”的智慧体验，成为用户贴身的“万能管家”。

荣耀Magic8系列 MagicOS10 YOYO助理

今日大家都在搜的词：

热文

3 天
7天

AI日报：Kimi发布多模态图片理解模型API；周鸿祎参演AI短剧开拍；MiniMax-01系列模型开源；星火同传语音大模型发布

共建·共智·共享--新一代AtomGit平台暨人工智能开源社区发布

人工智能巨头OpenAI拟上市估值或高达1万亿美元

厚植AI创新沃土！麒麟信安打造人工智能孵化器，赋能创业梦想

卖家精灵加入中国人工智能产业发展联盟（AIIA），加速AI赋能跨境电商

人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

行业首个！海尔冰箱获ISO/IEC 42001人工智能管理体系认证

荐AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；Canva免费放出Affinity专业设计套件

十方融海小智AI：以科技温度诠释“人工智能+”时代的人文关怀

微算法科技（NASDAQ:MLGO）开发延迟和隐私感知卷积神经网络分布式推理，助力可靠人工智能系统技术

荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

今日大家都在搜的词：

热文

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

鸿蒙智行：全新问界M7上市36天交付破20000台

小米17 Pro系列妙享背屏全新掌机游戏等新功能上线

美股4万亿美元市值上市公司已达3家苹果、微软、英伟达组成三巨

AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑

OPPO ColorOS 16正式版推送：首批适配11款机型

微信升级：支持一次撤回全部消息、删好友能保留聊天记录等功能

微信红包封面现已支持跳转「微信小店」

iPhone 18系列或将首发自研基带C2

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

鸿蒙智行：全新问界M7上市36天交付破20000台

余承东曝鸿蒙智行新款享界S9将于11月上市

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

华为余承东：鸿蒙智行全系交付突破100万台仅用43个月

站长商机