首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:Kimi发布多模态图片理解模型API;周鸿祎参演AI短剧开拍;MiniMax-01系列模型开源;星火同传语音大模型发布

2025-01-15 15:38 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、月之暗面Kimi多模态图片理解模型 API 发布

2025年1月15日,北京月之暗面科技有限公司正式发布了全新多模态图片理解模型moonshot-v1-vision-preview,该模型在原有moonshot-v1系列的基础上进一步增强了多模态能力,旨在帮助Kimi更好地理解世界。该Vision模型具备卓越的图像识别能力,能够识别复杂细节并区分相似对象,表现出色,尤其在OCR文字识别和图像理解方面,超越传统软件的准确性。

image.png

【AiBase提要:】

🖼️ Vision模型具备强大的图像识别能力,能够准确区分复杂细节和相似对象。

📄 在OCR文字识别和图像理解方面表现优异,识别潦草手写内容的能力超越普通软件。

💬 模型支持多轮对话和工具调用等特性,使用灵活,但不支持联网搜索。

2、MiniMax开源MiniMax-01全新系列模型

MiniMax于2025年1月15日发布了其全新开源系列模型MiniMax-01,包含基础语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01。该系列通过创新的线性注意力机制和超大参数量,实现了高效的长文本处理,性能与国际顶尖模型相当。

image.png

【AiBase提要:】

🧠 MiniMax-01系列模型采用创新的线性注意力机制,打破传统架构局限,支持长达400万token的上下文处理。

💡 该系列模型在多项任务上追平了GPT-4o和Claude-3.5-Sonnet,尤其在长文任务中表现优异。

💰 MiniMax以业内最低价格提供文本和多模态理解API服务,标准定价为输入token1元/百万token,输出token8元/百万token。

详情链接:https://github.com/MiniMax-AI

3、周鸿祎参演 AI 短剧开拍,AI做特效、AI硬件齐上阵

360集团创始人周鸿祎宣布参与拍摄国内首部AI短剧,该剧将在西安开机,计划于春节期间上线。短剧以穿越为主题,预计60集,旨在传递正能量并避免狗血剧情。周鸿祎希望通过短剧展示AI技术,促进其在日常生活中的普及,同时推动360的纳米AI搜索产品的发展。

image.png

【AiBase提要:】

🌟 短剧将在西安开机,计划春节上线,主题为穿越,预计60集。

🤖 特效画面由纳米AI搜索生成,降低拍摄成本,提升视觉效果。

📚 旨在普及AI知识,助力每个人掌握AI技术,消除数字鸿沟。

4、阿里巴巴达摩院推出电商场景多模态大模型Valley2

阿里巴巴达摩院推出的Valley2是一款多模态大型语言模型,专为电商场景设计,旨在提升各领域的性能并拓展应用边界。该模型结合了先进的视觉编码器和创新的处理模块,展现了在多个基准测试中的卓越表现,标志着多模态语言模型的重大进展。

image.png

【AiBase提要:】

🌟 Valley2基于电商场景设计,采用Qwen2.5作为主干,结合SigLIP-384视觉编码器,提升多模态处理能力。

📊 训练过程包括文本-视觉对齐和链式思维后训练,确保模型在复杂问题解决中的高效性。

🏆 在多个公开基准测试中,Valley2表现卓越,尤其在电商领域的应用中超越同规模模型。

详情链接:https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

5、ChatGPT智能体来了!上线“Tasks”功能:智能处理提醒和待办事项

OpenAI最近推出了ChatGPT的新功能“任务”,允许用户安排未来的操作和提醒,使其更像传统数字助理。该功能现已向Plus、Team和Pro订阅用户推送,用户可以简单地输入任务及时间,ChatGPT将处理这些需求。尽管目前仅限于付费用户。

image.png

【AiBase提要:】

✅ 新功能“任务”允许用户安排未来的操作和提醒,提升ChatGPT的实用性。

🔔 用户可通过简单输入告知ChatGPT所需任务及时间,轻松管理日常事务。

💼 当前仅向付费用户推出,尚不明确是否会面向免费用户,预计仍将是高级功能。

6、小型文本转语音模型Kokoro-TTS,曾拿下TTS排行榜第一

Kokoro是一款新发布的语音合成模型,具有8200万参数,迅速在TTS领域崭露头角。其在Hugging Face平台上发布后,凭借仅用不到100小时的音频数据,便在排行榜上夺得第一,展现了超高的性价比。尽管目前存在声音克隆的局限性,但其训练过程的合规性和高效性为未来的发展奠定了基础。

image.png

【AiBase提要:】

🌟 Kokoro-82M 是一款新发布的语音合成模型,具有8200万参数,支持多种语音包。

🎤 该模型在 TTS 领域表现卓越,曾在排行榜上排名 第一 ,仅用不到100小时的音频数据进行训练。

📊 Kokoro 模型的训练采用了开放许可证的数据,确保合规性,但目前仍存在一些功能限制。

详情链接:https://huggingface.co/hexgrad/Kokoro-82M

7、Topview AI推全球首个支持生成手拿产品的数字人Product Avatar

Topview AI推出的“Product Avatar”数字人解决方案为电商行业带来了革命性的变化。商家只需上传产品图片,AI便能生成手持产品的数字人并进行口播讲解,极大地节省了拍摄时间和成本。该产品还支持多种语言和个性化定制,标志着电商营销进入AI驱动的新阶段。

image.png

【AiBase提要:】

🤖 AI数字人可快速生成,无需真人模特,节省时间和成本。

🌍 支持1000多种数字人模特和28种语言,满足全球市场需求。

🎥 灵活高效的产品展示模式,商家可随时更换产品,提升推广效率。

详情链接:https://www.topview.ai/ai-product-avatar

8、英伟达400万美投资 MetAI 几分钟将CAD文件转为3D世界

Nvidia最近对初创公司MetAI进行了400万美元的种子轮融资,旨在推动AI数字双胞胎技术的发展。MetAI专注于利用AI和3D技术迅速将CAD文件转换为功能性3D环境,大幅缩短数字双胞胎的创建时间。该公司计划在2025年将总部迁至美国,并扩大研发团队,以满足日益增长的市场需求。

image.png

【AiBase提要:】

🌟 Nvidia投资400万美元于初创公司MetAI,推动AI数字双胞胎技术发展。

🤖 MetAI利用AI和3D技术将CAD文件快速转换为功能性3D环境,缩短数字双胞胎创建时间。

🚀 MetAI计划在2025年将总部迁至美国,并扩大研发团队以应对日益增长的市场需求。

9、讯飞星火4.0Turbo七大核心能力升级:数学、代码能力超GPT-4o

讯飞星火4.0Turbo的全面升级标志着科大讯飞在人工智能领域的又一重大突破。此次升级不仅在文本生成、语言理解等七大核心能力上实现了显著提升,更在数学和代码能力方面超越了GPT-4o,尤其是在复杂数学问题的处理上展现出更强的能力。

image.png

【AiBase提要:】

🔢 数学能力显著提升,超越GPT-4o,能够处理复杂数学问题。

💻 新推出的星火深度推理模型X1,拥有1750亿参数,适用于深层次数据分析。

📈 科大讯飞自2020年以来累计研发投入125亿元,支持AI技术的持续发展。

10、Gemini AI 实现视觉处理新突破:实时视频与静态图像同步分析

谷歌的Gemini AI最近在视觉处理领域取得了重要突破,能够同时处理实时视频和静态图像。这项技术通过实验性应用AnyChat展示,标志着人工智能在多流处理方面的进步。开发者可以利用Gemini的架构创建自定义平台,应用于教育、艺术等多个领域,展现出广泛的应用潜力。

image.png

【AiBase提要:】

🌟 Gemini AI实现实时视频与静态图像的同步处理,打破以往限制。

🎨 AnyChat平台展示了AI在教育、艺术等领域的广泛应用潜力。

🚀 开发者可以轻松利用Gemini的技术构建自己的视觉AI应用。

详情链接:https://huggingface.co/spaces/akhaliq/anychat

11、科大讯飞星火同传语音大模型发布:达到人类专家译员水平

科大讯飞今日发布了星火同传语音大模型,标志着国内首个具备端到端语音同传能力的大模型的问世。这一技术的推出,显著提升了翻译的流畅性和准确性,尤其在国际交流场合中表现出色。该模型支持多种语言的即时翻译,响应时间缩短至5秒以内,达到人类专家的翻译水平,预示着未来国际交流的便捷与高效。

【AiBase提要:】

🚀 星火同传语音大模型是国内首个具备端到端语音同传能力的大模型,显著提升了翻译效果。

🌍 该模型在英译中方面几乎实现无延迟,适合国际展会和旅游等场景使用。

⚡ 支持流式翻译和自适应语速调节,翻译的自然度和流畅度大幅提升,超越了国际同类技术。

12、OpenBMB发布多模态模型MiniCPM-o2.6手机也能进行视觉和语音处理

OpenBMB推出的MiniCPM-o2.6是一款具有80亿参数的多模态模型,旨在解决高计算资源需求与边缘设备兼容性之间的挑战。该模型在视觉、语音和语言处理方面表现出色,能够高效运行于智能手机和平板电脑上。通过模块化设计,MiniCPM-o2.6集成了多种强大组件,支持实时处理和多语言功能。

image.png

【AiBase提要:】

🌟 MiniCPM-o2.6是一款具有80亿参数的多模态模型,能够在边缘设备上高效运行,支持视觉、语音和语言处理。

🚀 该模型在OpenCompass基准测试中表现优异,视觉任务成绩超过GPT-4V,并具备多语言处理能力。

🛠️ MiniCPM-o2.6具备实时处理、语音克隆和情感控制等功能,适用于教育、医疗等多个行业的创新应用。

详情链接:https://huggingface.co/openbmb/MiniCPM-o-2_6

举报

  • 相关推荐
  • 迎“人工智能+”政策东风!2025中国智能产业大会&吴文俊人工智能创新大会即将落地常州

    在全球AI竞争加剧背景下,国务院印发《关于深入实施“人工智能+”行动的意见》,推动AI与经济社会深度融合。中国人工智能学会主办的“2025第十四届中国智能产业大会暨吴文俊人工智能创新大会”将于8月30-31日在常州举行,聚焦破解AI产业“卡脖子”难题。大会设置15场专题会议和3场特色活动,覆盖基础技术突破、核心应用落地、交叉学科融合等领域,为产学研各界搭建高

  • 海尔冰箱唯一获批“制冷家电人工智能技术山东省工程研究中心”

    海尔冰箱在人工智能领域取得新突破,主导建设的"制冷家电人工智能技术山东省工程研究中心"成为2025年山东省工程研究中心认定名单中唯一入选的冰箱品牌。该中心聚焦人工智能、物联网、大数据等技术方向,开发了全空间智慧保鲜舱冰箱等140多项行业首创产品,近三年获授权发明专利803件。海尔冰箱还推出行业首款接入DeepSeek的AI全空间保鲜冰箱,具备方言识别、降噪技术等功能,显著提升用户体验。市场数据显示,2023年1-7月海尔冰箱以47%市场份额稳居行业第一。通过AI技术赋能,海尔冰箱正引领行业向精准、智能保鲜时代跨越。

  • 微算法科技(NASDAQ:MLGO)基于人工智能优化构建混合ARIMA模型,提高比特币价格预测准确性

    随着数字资产市场兴起,比特币等加密货币价格预测成为焦点。传统模型难以准确捕捉其非线性波动,微算法科技引入AI技术优化ARIMA模型,结合LSTM网络构建混合模型,提升预测准确性。通过AI算法自动处理数据缺失、异常值检测及参数优化,实现更可靠的比特币价格预测,为投资者提供决策支持。

  • 寒武纪智能芯片赋能多模态大模型应用

    大模型快速发展推动人工智能技术迈向新阶段,从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示,2024年中国大模型开发平台市场规模达16.9亿元,人工智能算力市场约190亿美元,预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发,推出多款处理器及加速卡产品,支持大模型训练推理及多模态任务,并与产业链合作共同推进人工智能产业发展。

  • 北电数智亮相世界人工智能大会,“四链融合”推动AI产业落地

    2025世界人工智能大会“人工智能+”战略领军人才与创新发展论坛圆满落幕。论坛聚焦“人才领航智启未来”主题,汇聚中科院、社科院专家及中国联通、腾讯云等机构代表,围绕“人工智能+”行动分享经验,为AI高质量发展筑牢人才根基、激发创新动能。北电数智CMO杨震出席并发表演讲,分享AI行业落地实践,强调紧跟国家战略,推进产业、创新、人才、资本四链融合,打造面向不同场景的AI解决方案,全方位助力AI产业发展。

  • 下一个爆款在哪儿?2025英特尔人工智能创新应用大赛获奖名单揭晓

    8月16日,2025英特尔人工智能创新应用大赛总决赛在深圳落幕。40支优秀团队从2817支队伍中脱颖而出,围绕工业、教育、心理健康、游戏等领域展开对决。大赛展示了AI从云端走向边缘的趋势,依托酷睿Ultra处理器和低代码开发工具,推动AI应用本地化落地。获奖作品包括动力电池机器人协作拆卸系统和AI生成PPT服务,体现AI与产业需求的深度融合。英特尔与联想、惠普等合作伙伴共同为开发者提供全栈支持,加速AI技术普及和商业化进程。

  • 良品铺子就“花生上树”致歉:系错误使用AI生成图片

    良品铺子近日因一张产品宣传海报引发广泛关注。 有网友发现,在其电商平台一款四粒红花生”的商品详情页中,所使用的海报图片出现了科学常识性错误。花生作为地上开花、地下结果”的作物,果实应在土壤中形成和成熟,而该海报却将花生描绘成悬挂于枝头的形象,与实际生长方式不符。

  • ISC.AI 2025 人工智能安全治理与创新实践论坛圆满召开

    ISC.AI2025人工智能安全论坛在北京召开,聚焦AI安全治理与创新实践。论坛汇集顶尖专家,探讨大模型安全评估与防护、智能体安全、AI治理等前沿议题。360集团张向征指出,随着Agent技术爆发式应用,AI安全已成为产业核心焦点。专家们强调需构建AI安全防护体系,应对大模型直接访问核心系统带来的全新挑战。中国电子院彭健提出企业合规建设需关注九大要素,清华大学苏航揭示智能体安全风险远超传统AI。华为云范建军倡导端到端大模型安全防护,中国信通院杨哲超呼吁构建协同治理框架。论坛为构建安全、普惠、负责任的人工智能未来贡献智慧。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

今日大家都在搜的词: