首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:Kimi发布多模态图片理解模型API;周鸿祎参演AI短剧开拍;MiniMax-01系列模型开源;星火同传语音大模型发布

2025-01-15 15:38 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、月之暗面Kimi多模态图片理解模型 API 发布

2025年1月15日,北京月之暗面科技有限公司正式发布了全新多模态图片理解模型moonshot-v1-vision-preview,该模型在原有moonshot-v1系列的基础上进一步增强了多模态能力,旨在帮助Kimi更好地理解世界。该Vision模型具备卓越的图像识别能力,能够识别复杂细节并区分相似对象,表现出色,尤其在OCR文字识别和图像理解方面,超越传统软件的准确性。

image.png

【AiBase提要:】

🖼️ Vision模型具备强大的图像识别能力,能够准确区分复杂细节和相似对象。

📄 在OCR文字识别和图像理解方面表现优异,识别潦草手写内容的能力超越普通软件。

💬 模型支持多轮对话和工具调用等特性,使用灵活,但不支持联网搜索。

2、MiniMax开源MiniMax-01全新系列模型

MiniMax于2025年1月15日发布了其全新开源系列模型MiniMax-01,包含基础语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01。该系列通过创新的线性注意力机制和超大参数量,实现了高效的长文本处理,性能与国际顶尖模型相当。

image.png

【AiBase提要:】

🧠 MiniMax-01系列模型采用创新的线性注意力机制,打破传统架构局限,支持长达400万token的上下文处理。

💡 该系列模型在多项任务上追平了GPT-4o和Claude-3.5-Sonnet,尤其在长文任务中表现优异。

💰 MiniMax以业内最低价格提供文本和多模态理解API服务,标准定价为输入token1元/百万token,输出token8元/百万token。

详情链接:https://github.com/MiniMax-AI

3、周鸿祎参演 AI 短剧开拍,AI做特效、AI硬件齐上阵

360集团创始人周鸿祎宣布参与拍摄国内首部AI短剧,该剧将在西安开机,计划于春节期间上线。短剧以穿越为主题,预计60集,旨在传递正能量并避免狗血剧情。周鸿祎希望通过短剧展示AI技术,促进其在日常生活中的普及,同时推动360的纳米AI搜索产品的发展。

image.png

【AiBase提要:】

🌟 短剧将在西安开机,计划春节上线,主题为穿越,预计60集。

🤖 特效画面由纳米AI搜索生成,降低拍摄成本,提升视觉效果。

📚 旨在普及AI知识,助力每个人掌握AI技术,消除数字鸿沟。

4、阿里巴巴达摩院推出电商场景多模态大模型Valley2

阿里巴巴达摩院推出的Valley2是一款多模态大型语言模型,专为电商场景设计,旨在提升各领域的性能并拓展应用边界。该模型结合了先进的视觉编码器和创新的处理模块,展现了在多个基准测试中的卓越表现,标志着多模态语言模型的重大进展。

image.png

【AiBase提要:】

🌟 Valley2基于电商场景设计,采用Qwen2.5作为主干,结合SigLIP-384视觉编码器,提升多模态处理能力。

📊 训练过程包括文本-视觉对齐和链式思维后训练,确保模型在复杂问题解决中的高效性。

🏆 在多个公开基准测试中,Valley2表现卓越,尤其在电商领域的应用中超越同规模模型。

详情链接:https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

5、ChatGPT智能体来了!上线“Tasks”功能:智能处理提醒和待办事项

OpenAI最近推出了ChatGPT的新功能“任务”,允许用户安排未来的操作和提醒,使其更像传统数字助理。该功能现已向Plus、Team和Pro订阅用户推送,用户可以简单地输入任务及时间,ChatGPT将处理这些需求。尽管目前仅限于付费用户。

image.png

【AiBase提要:】

✅ 新功能“任务”允许用户安排未来的操作和提醒,提升ChatGPT的实用性。

🔔 用户可通过简单输入告知ChatGPT所需任务及时间,轻松管理日常事务。

💼 当前仅向付费用户推出,尚不明确是否会面向免费用户,预计仍将是高级功能。

6、小型文本转语音模型Kokoro-TTS,曾拿下TTS排行榜第一

Kokoro是一款新发布的语音合成模型,具有8200万参数,迅速在TTS领域崭露头角。其在Hugging Face平台上发布后,凭借仅用不到100小时的音频数据,便在排行榜上夺得第一,展现了超高的性价比。尽管目前存在声音克隆的局限性,但其训练过程的合规性和高效性为未来的发展奠定了基础。

image.png

【AiBase提要:】

🌟 Kokoro-82M 是一款新发布的语音合成模型,具有8200万参数,支持多种语音包。

🎤 该模型在 TTS 领域表现卓越,曾在排行榜上排名 第一 ,仅用不到100小时的音频数据进行训练。

📊 Kokoro 模型的训练采用了开放许可证的数据,确保合规性,但目前仍存在一些功能限制。

详情链接:https://huggingface.co/hexgrad/Kokoro-82M

7、Topview AI推全球首个支持生成手拿产品的数字人Product Avatar

Topview AI推出的“Product Avatar”数字人解决方案为电商行业带来了革命性的变化。商家只需上传产品图片,AI便能生成手持产品的数字人并进行口播讲解,极大地节省了拍摄时间和成本。该产品还支持多种语言和个性化定制,标志着电商营销进入AI驱动的新阶段。

image.png

【AiBase提要:】

🤖 AI数字人可快速生成,无需真人模特,节省时间和成本。

🌍 支持1000多种数字人模特和28种语言,满足全球市场需求。

🎥 灵活高效的产品展示模式,商家可随时更换产品,提升推广效率。

详情链接:https://www.topview.ai/ai-product-avatar

8、英伟达400万美投资 MetAI 几分钟将CAD文件转为3D世界

Nvidia最近对初创公司MetAI进行了400万美元的种子轮融资,旨在推动AI数字双胞胎技术的发展。MetAI专注于利用AI和3D技术迅速将CAD文件转换为功能性3D环境,大幅缩短数字双胞胎的创建时间。该公司计划在2025年将总部迁至美国,并扩大研发团队,以满足日益增长的市场需求。

image.png

【AiBase提要:】

🌟 Nvidia投资400万美元于初创公司MetAI,推动AI数字双胞胎技术发展。

🤖 MetAI利用AI和3D技术将CAD文件快速转换为功能性3D环境,缩短数字双胞胎创建时间。

🚀 MetAI计划在2025年将总部迁至美国,并扩大研发团队以应对日益增长的市场需求。

9、讯飞星火4.0Turbo七大核心能力升级:数学、代码能力超GPT-4o

讯飞星火4.0Turbo的全面升级标志着科大讯飞在人工智能领域的又一重大突破。此次升级不仅在文本生成、语言理解等七大核心能力上实现了显著提升,更在数学和代码能力方面超越了GPT-4o,尤其是在复杂数学问题的处理上展现出更强的能力。

image.png

【AiBase提要:】

🔢 数学能力显著提升,超越GPT-4o,能够处理复杂数学问题。

💻 新推出的星火深度推理模型X1,拥有1750亿参数,适用于深层次数据分析。

📈 科大讯飞自2020年以来累计研发投入125亿元,支持AI技术的持续发展。

10、Gemini AI 实现视觉处理新突破:实时视频与静态图像同步分析

谷歌的Gemini AI最近在视觉处理领域取得了重要突破,能够同时处理实时视频和静态图像。这项技术通过实验性应用AnyChat展示,标志着人工智能在多流处理方面的进步。开发者可以利用Gemini的架构创建自定义平台,应用于教育、艺术等多个领域,展现出广泛的应用潜力。

image.png

【AiBase提要:】

🌟 Gemini AI实现实时视频与静态图像的同步处理,打破以往限制。

🎨 AnyChat平台展示了AI在教育、艺术等领域的广泛应用潜力。

🚀 开发者可以轻松利用Gemini的技术构建自己的视觉AI应用。

详情链接:https://huggingface.co/spaces/akhaliq/anychat

11、科大讯飞星火同传语音大模型发布:达到人类专家译员水平

科大讯飞今日发布了星火同传语音大模型,标志着国内首个具备端到端语音同传能力的大模型的问世。这一技术的推出,显著提升了翻译的流畅性和准确性,尤其在国际交流场合中表现出色。该模型支持多种语言的即时翻译,响应时间缩短至5秒以内,达到人类专家的翻译水平,预示着未来国际交流的便捷与高效。

【AiBase提要:】

🚀 星火同传语音大模型是国内首个具备端到端语音同传能力的大模型,显著提升了翻译效果。

🌍 该模型在英译中方面几乎实现无延迟,适合国际展会和旅游等场景使用。

⚡ 支持流式翻译和自适应语速调节,翻译的自然度和流畅度大幅提升,超越了国际同类技术。

12、OpenBMB发布多模态模型MiniCPM-o2.6手机也能进行视觉和语音处理

OpenBMB推出的MiniCPM-o2.6是一款具有80亿参数的多模态模型,旨在解决高计算资源需求与边缘设备兼容性之间的挑战。该模型在视觉、语音和语言处理方面表现出色,能够高效运行于智能手机和平板电脑上。通过模块化设计,MiniCPM-o2.6集成了多种强大组件,支持实时处理和多语言功能。

image.png

【AiBase提要:】

🌟 MiniCPM-o2.6是一款具有80亿参数的多模态模型,能够在边缘设备上高效运行,支持视觉、语音和语言处理。

🚀 该模型在OpenCompass基准测试中表现优异,视觉任务成绩超过GPT-4V,并具备多语言处理能力。

🛠️ MiniCPM-o2.6具备实时处理、语音克隆和情感控制等功能,适用于教育、医疗等多个行业的创新应用。

详情链接:https://huggingface.co/openbmb/MiniCPM-o-2_6

举报

  • 相关推荐
  • 周鸿祎参演AI短剧开拍 纳米AI搜索节约大量拍摄成本

    国内首部AI短剧在西安正式开机,该剧由360集团创始人周鸿祎参与拍摄并出演。据周鸿祎在其短视频平台透露,这部短剧共约60集,以穿越为题材,计划于春节期间上线,为观众带来一场科技与想象的盛宴。随着该剧的开机拍摄,相信在不久的将来,这部充满科技与想象力的AI短剧将成为观众热议的话题。

  • AI日报:赶超o1!国产大模型DeepSeek R1开源;Kimi多模态思考模型k1.5登场;清影2.0上线智谱清言

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、国产大模型再突破!DeepSeekR1开源,性能直逼OpenAI,开启AI平权新时代DeepSeek最近发布并开源了其最新研发的大型语言模型R1,标志着国产AI技术的一次重大突破。预计2024年第四季度出货量同比增长3.7%,企业IT系统升级需求增加,AI笔记本电脑将改变用户体验,推动市场发展。

  • •上海AI独角兽MiniMax发布新一代开源模型,创新突破受海内外好评

    日月开新元,万象启新篇。1月15日,MiniMax发布并开源新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。受益于LinearAttention层面的架构创新、算力层面的优化,以及集群上的训推一体的设计,MiniMax以业内极具性价比的价格提供文本模型和多模态理解模型的API服务,标准定价是输入token1元/百万token,输出token8元/百万token。

  • AI日报:对标Cursor!字节推AI编程工具Trae;MiniMax海螺语音全球上线;OpenAI将发布o3-mini

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、MiniMax海螺语音全球同步上线包含T2A-01-Turbo等模型2025年1月20日,上海稀宇科技有限公司旗下的MiniMax推出了全新升级的T2A-01系列语音模型,标志着其在语音合成技术上的又一重要进�

  • 讯飞星火大模型升级发布会:语音大模型开启AI翻译新纪元

    讯飞星火大模型升级发布会:语音同传大模型开启AI翻译新纪元 1 月 15 日,讯飞星火大模型升级发布会拉开帷幕。作为人工智能国家队,科大讯飞重磅发布了星火语音同传大模型等一系列重大技术成果,不仅彰显了讯飞在人工智能语音领域深厚的技术积淀,也预示着AI翻译技术正迈向全新的纪元。星火语音同传大模型通过先进的端到端语音同传技术,其优势为翻译字幕呈现更快

  • AI日报:字节豆包全新上线AI编程功能;腾讯大模型检测工具打假AI;FLUX Pro微调API可定制AI模型

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、字节跳动豆包全新上线AI编程功能,引入GitHub开源仓库字节跳动旗下的豆包推出了全新的AI编程功能,旨在提升开发者的编程效率与体验。微软还推出了新的AI积分系统,用户可获�

  • 讯飞同搭载星火语音模型,更快更准的AI翻译

    在人类社会不断发展演进的进程中,语言,这一独特的文化符号,既编织起了丰富多彩的文明锦缎,又在不经意间成为了人们相互理解与沟通的一道屏障。从古老的巴别塔传说所隐喻的语言隔阂,到如今全球互联互通时代下对高效交流的急切渴望,跨越语言的界限、实现无阻碍的沟通始终是人类不懈追求的目标。无论是在国际商务合作的广阔天地中助力企业拓展全球市场版图是在学术交流的知识海洋里促进前沿思想的广泛传播与共享,亦或是在文化交流的绚丽舞台上推动不同文化之间的相互欣赏与融合,讯飞同传凭借其不断精进的技术和服务,为构建一个更加紧密相连、沟通无碍的全球社会添砖加瓦,在人类跨越语言障碍、实现心灵相通的伟大征程中稳步迈进,书写出更加精彩的篇章。

  • 激进架构,400万上下文,彻底开源MiniMax-01有点“Transformer时刻”的味道了

    “MoE”加上“前所未有大规模投入生产环境的LightningAttention”,再加上“从框架到CUDA层面的如软件和工程重构”,会得到什么?一个追平了顶级模型能力、且把上下文长度提升到400万token级别的新模型。这显然是巨大的野心,但在如今人们都在关注大模型接下来往哪儿走的时候,非常需要这样的野心,非常需要一个或者更多个“Transformer时刻”——在一个自己相信的路线上做到极致,把看似所有人都知道的配方,最终兑现出来,展示给技术社区里的人们,让它变成某个决定性的时刻,给AI的前进再添把火。

  • AI日报:1秒出!英伟达开源文生图模型Sana;阿里妈妈推淘宝星辰视频生成大模型;OpenAI发布经济蓝

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、震撼登场!英伟达开源图像生成模型Sana,1秒生图、支持中英文和emoji英伟达近日开源了图像生成模型Sana,凭借仅0.6亿个参数和高达4096×4096分辨率的生成能力,极大降低了使用门槛

  • 周鸿祎首部AI短剧拍摄现场曝光:“如花”伴左右

    近日,有网友在社交平台发布了周鸿祎拍短剧现场的视频。视频显示,周鸿祎身穿古装坐在桌子旁,旁边还有几个男扮女装的如花”。还有短剧演员发布的视频中,有周鸿祎所参演短剧的花絮及开机仪式的镜头,该视频文案为我的第十部女帝和周总合作了。据视频显示,剧中植入了360的产品纳米搜索”。16日,中国网络视听协会发布《2024微短剧行业生态洞察报告》。报告称,2024年微短剧带动64.7万个就业机会,导演、编剧等岗位平均月薪过万,部分岗位超过2万元。据各大招聘网站11月统计,微短剧在招岗位数量接近9000个,承接大量艺术院校毕业生,使得

热文

  • 3 天
  • 7天