AI日报：谷歌Gemini 1.5升级；OpenAI推ChatGPT语音模式；阿里推图转视频神器MIMO

2024-09-25 15:09 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、OpenAI推ChatGPT高级语音模式，新增五种声音风格

OpenAI宣布推出全新的高级语音模式，为ChatGPT Plus和Team用户提供个性化交流体验。用户可选择五种声音风格和语速，支持多达50种语言，提升了语音交流的流畅度和个性化。新功能让ChatGPT在教育、法律、商务和医疗等领域的应用更加广泛，为用户带来更好的体验。

【AiBase提要:】
🎤 开放高级语音模式:支持多达50种语言，提供个性化交流体验。
🎶 自定义互动:用户可选择五种声音风格和语速，个性化交流更加灵活。
🌍 广泛应用场景:语音模式在教育、法律、商务和医疗领域有着广泛的应用，提升用户体验。

2、谷歌Gemini1.5升级:性能暴涨，价格腰斩

谷歌今日宣布推出全新升级的Gemini模型系列，包括Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。这次更新不仅大幅提升了性能，还带来了令人惊喜的价格优惠，无疑将在AI开发圈掀起一阵热潮。Gemini1.5升级为开发者带来了更高的性能和更低的成本，同时提供更多选择和灵活性。

【AiBase提要:】
✨ 价格大幅下调，性能显著提升，开发效率大幅提高
⚙️ 新版Gemini模型在数学、长文本处理和视觉任务上全面提升
💡 Gemini1.5Pro的长文本处理能力和多模态能力开启全新应用场景
详情链接:https://developers.googleblog.com/en/updated-production-ready-gemini-models-reduced-15-pro-pricing-increased-rate-limits-and-more/

3、阿里新技术MIMO:一张图片+视频纸片人瞬间变动漫男神

阿里巴巴集团智能计算研究院推出的MIMO技术彻底改变了动画角色创作方式。只需一张静态图片和简单动作指令，即可转化为可操控的虚拟角色，无论真人、卡通还是拟人化角色。MIMO操作简便高效，无需多角度拍摄或单独训练角色，融合2D视频信息和3D空间建模。应用范围广泛，能提取复杂动作并实现真实场景互动，降低动画制作门槛，增强动画真实感和沉浸感。

【AiBase提要:】
🎨 创新工具MIMO彻底改变动画角色创作方式，简单静态图片和动作指令即可转化为可操控虚拟角色。
🔄 MIMO操作简便高效，无需多角度拍摄或单独训练角色，融合2D视频信息和3D空间建模。
🌐 应用范围广泛，能提取复杂动作并实现真实场景互动，降低动画制作门槛，增强动画真实感和沉浸感。
详情链接:https://top.aibase.com/tool/mimo

4、讯飞星火API全新升级:Lite版永久免费 Max版可免费领1亿Tokens

科大讯飞讯飞开放平台宣布讯飞星火API平台实现重大升级，包括Spark Max模型和4.0Ultra模型，提升了生成速度、逻辑推理、创作能力和联网搜索等关键性能。升级后的模型在逻辑推理方面表现更快更准确，在创作方面生成具有逻辑性和实用性的文章，支持长文本任务处理，价格不变且提供免费Lite版本和优惠活动。性能全面升级，超越国际领先的GPT-4Turbo。

【AiBase提要:】
🚀 提升生成速度和关键性能，包括逻辑推理、创作能力和联网搜索。
💡 模型在逻辑推理方面表现更快更准确，能提供详细推理过程。
📝 新模型生成具有逻辑性和实用性的文章，支持处理长文本任务，价格不变且提供免费Lite版本和优惠活动。
详情链接:https://xinghuo.xfyun.cn/sparkapi

5、谷歌新语音克隆技术:仅需几秒钟音频样本，即可实现声音克隆

在科技迅猛发展的今天，谷歌研究人员提出了零样本语音转换技术，帮助失声人士找回声音记忆。该技术具有零样本能力，支持多语言声音转换，展示了强大的适应性和实用性。通过短时间音频样本，成功合成特殊发音者的语音，大大丰富了语音交流的可能性。

【AiBase提要:】
🎤 零本语音转换技术:无需大量样本，帮助失声人士找回声音。
🌍 语言能力:实现不同语言之间的声音转换，丰富了语音交流的可能性。
🗣️ 特殊发音者的应用:通过短时间的声音样本，成功合成特殊发音者的语音，展示了技术的适应性与灵活性。
详情链接:https://google.github.io/tacotron/publications/zero_shot_voice_transfer/

6、生数科技视频生成模型Vidu开放API

在百度云智大会上，生数科技宣布旗下视频大模型Vidu正式开放API并接入百度智能云千帆大模型平台，成为首个视频大模型。Vidu具备高动态性、多风格化和极致推理等领先优势，解决了视频模型一致性生成难题，预计加速影视、动画、广告等行业的视频创作。

【AiBase提要:】
🚀 Vidu开放API并接入百度智能云千帆大模型平台，成为首个视频大模型。
💡 Vidu具备高动态性、多风格化和极致推理等领先优势，解决了视频模型一致性生成难题。
💼 Vidu预计加速影视、动画、广告等行业的视频创作，降低成本、提升效率，激发创新思维。

7、大跨界!《泰坦尼克号》导演詹姆斯 · 卡梅隆加入 Stability AI 董事会

詹姆斯・卡梅隆加入 Stability AI 董事会引发影视行业轰动，将AI技术与电影艺术结合，开启创新故事讲述方式。卡梅隆和Stability AI团队合作，重塑视觉媒体未来，令人期待。

【AiBase提要:】
📽️ **卡梅隆加盟 Stability AI**: 好莱坞传奇导演加入人工智能公司董事会，为公司带来重大胜利。
🤖 **AI与CGI的结合**: 卡梅隆认为生成式AI与CGI结合将推动故事讲述方式创新。
🌟 **行业巨头的强强联合**: Stability AI引入前Facebook总裁，增强公司行业影响力。

8、报道称Anthropic今年收有望突破10亿美元，年增长率高达1000%!

Anthropic是一家人工智能初创公司，预计今年收入将达到10亿美元，增长率高达1000%，显示出AI技术强劲需求。公司收入中60%到75%来自第三方API使用，市场高度依赖其技术。竞争对手OpenAI计划融资65亿美元，估值达1500亿，AI竞争激烈。AI技术正不断重塑各行业未来。

【AiBase提要:】
🌟 Anthropic预计今年收入将突破10亿美元，年增长率高达1000%。
🤖 收入中60%到75%来自第三方API，市场对其技术高度依赖。
💰 OpenAI计划融资65亿美元，估值达1500亿，AI竞争愈发激烈。

9、HuggingFace推出HuggingChat原生macOS客户端

HuggingFace公司最新推出的HuggingChat原生macOS客户端为macOS用户带来了无缝且直观的高级AI对话体验，支持本地使用语言模型，并集成了Markdown、网页浏览、代码语法高亮等实用功能。用户可以通过简单的安装步骤快速启动应用，随时享受强大的AI聊天能力。

【AiBase提要:】
🚀 HuggingChatOS客户端为macOS用户提供无缝且直观的高级AI对话体验。
💻 用户可以轻松安装HuggingChat，只需访问GitHub仓库的Releases部分，下载最新的HuggingChat-macOS.zip文件，解压缩后即可使用。
🔑 用户可以通过程序文件夹或使用快捷键⌘ + Shift + Return快速启动应用。
详情链接:https://github.com/huggingface/chat-macOS

10、警惕!黑客利用 ChatGPT 漏洞植入虚假记忆，窃取用户信息

最近，安全研究员约翰・瑞贝格发现了关于ChatGPT的漏洞，可能让黑客在用户的长期记忆中植入虚假信息和恶意指令。尽管OpenAI发布了部分修复措施，但用户仍需警惕不受信任内容可能带来的提示注入攻击。

【AiBase提要:】
🛡️ ChatGPT漏洞可让黑客植入虚假信息至用户记忆中
💻 漏洞利用长期记忆功能永久窃取用户输入数据
🔍 用户需定期检查存储的记忆，防止虚假信息植入
详情链接:https://embracethered.com/blog/posts/2024/chatgpt-hacking-memories/

11、百度百舸4.0升级:秒级部署、95%训练效能、99.5%有效训练时长

百度百舸计算平台4.0升级，提升了多芯混合训练能力，有效训练时长超过99.5%，算力使用效率显著提升。升级后秒级部署，95%训练效能，99.5%有效训练时长，大幅提升部署效率，缩短业务上线周期。优化模型推理速度和成本，在长文本推理中效率提升超过一倍，满足市场需求。

【AiBase提要:】
✨ 多芯混合训练能力提升，有效训练时长超过99.5%
⚙️ 秒级部署，95%训练效能，99.5%有效训练时长，提升部署效率
💡 优化模型推理速度和成本，长文本推理效率提升超过一倍

12、百度AI代码助手文心快码升级:推出企业级代码架构解释等功能

百度在2024年9月25日举行的百度云智大会上宣布了针对企业AI应用的重大升级，包括百舸AI异构计算平台4.0和千帆大模型平台3.0，以及对代码助手、智能客服和数字人等AI原生应用产品的全面更新。其中，文心快码是本次升级的亮点，专注于提升编码开发效率和质量，已服务超过1万家企业客户，帮助数百万中国开发者提升了编码效率，整体研发效率提高了20%。

【AiBase提要:】
✨ 百度智能云宣布针对企业AI应用的重大升级，提高企业利用大模型的效率和经济性。
🚀 新升级的AI代码提效工具“文心快码”推出企业级代码架构解释和代码审查功能，提升编码开发效率和质量。
💡 文心快码推出企业级代码辅助能力，深度理解企业代码库，生成符合企业要求的代码。

（举报）

相关推荐

关键词：

Gemini1.5

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

本期AI日报聚焦多项技术突破：火山引擎发布豆包视频生成模型1.0pro+fast，速度提升3倍且价格下降72%；百度与上海体育大学推出“上体体育大模型2.0”，拓展AI在运动员训练等场景应用；谷歌Gemini新增一键生成PPT功能；美团发布LongCat-Video模型，支持5分钟连贯视频生成；xAI推出虚拟女友Mika引发热议；MiniMax开源高性能M2编码模型；OpenAI上线企业知识管理功能；另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万，展现年轻创业者的技术影响力。

AI 视频生成火山引擎
被AI引用才是真的流量：写出让GPT、Gemini主动引用的AI搜索友好型内容（实操清单 + 工具推荐）

本文系统介绍生成式引擎优化(GEO)的核心方法，帮助内容从“给人看”升级为“AI友好型”。关键策略包括：1.采用结构化写作框架，在开头设置可直接回答问题的“黄金段落”；2.运用分步清单、数据标注、FAQ等模块提升内容引用率；3.通过多平台同步分发增加曝光；4.使用AIBase等工具量化监测内容被AI引用的频率与场景，并给出5天落地执行表。

AI搜索友好型内容创作 GEO Generative
荐MiniMax让AI语音有了新基建

熟悉MiniMax的人都了解这家公司的调性——不鸣则已，一鸣惊人。要么选择低调，要么发动技术连招，其发展路径呈现出鲜明的“技术深潜”与“节点式爆发“的双重特征。十月的最后一周，再次进入MiniMax式技术迭代新周期。MiniMax模型“全家桶”全面向Agent方向进化，基础文本模型M1升级至M2，“专为Agent和代码而生”;视频模型升级至Hailuo2.3，Hailuo Video Agent迭代为“全模态全�

MiniMax 技术迭代 Agent
荐MiniMax M2：所有坑都踩过，才能做出所有人都能用上的Agent

最近一个月，基础模型似乎又有点多起来。但若仔细去看这些模型厂商的动作，大体还是走出了两条路。一种是在诸多难点里选择一个死磕，成为这个单点上的SOTA。这种路线可以快速在开发者群体留下一个明确的印象，但也可能限制住了一家模型公司的“基座”属性。另一种则是在各个模态上全面前进，在一个最全面的基础模型蓝图里不停交出一个个关键拼图。已经有了全

基础模型 MiniMax M2
荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

视觉中国与多家AI公司合作开发可商用视觉大模型，已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频，引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人，仅保留Meta AI。宇树科技推出仿人机器人Unitree H2，具备拟人化设计。谷歌为Gemini集成地图数据工具，可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器，但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能，可分析手机未分享照片。

AI 视觉大模型版权合规
iPad mini 8外观巨变：去掉扬声器开孔

iPad mini 8将采用全新设计，去掉扬声器开孔并提升防水性能，同时苹果也在为iPad mini 8研发一套新的扬声器系统。据悉，iPad mini 8可能采用屏幕激励器方案，通过驱动屏幕振动来发出声音，其原理是将振动机械能直接传输到屏幕，然后让屏幕代替传统扬声器振膜发声。具体来说，它是通过在机身内部的微驱动单元（激励器）来激励中框，从而带动屏幕振动发声。

iPad mini 8
苹果iPad mini将支持防水：看齐iPhone

苹果正研发新一代防水iPad mini，采用无扬声器开孔设计降低进水风险，防水性能接近iPhone。与iPhone采用粘合剂密封不同，iPad mini通过全新扬声器系统实现防水。现售款无官方防水认证，而新款预计2026年上市，可能搭载OLED屏幕并涨价约100美元（现起售价499美元）。

iPad mini 防水性能
未来iPad mini/iPad Air/MacBook都将升级OLED屏：LCD退场

苹果正在研发搭载OLED显示屏的iPad mini、iPad Air、MacBook Pro和MacBook Air机型，苹果已在iPad Pro中采用OLED屏，并计划在未来数月及数年内将OLED推广到更多设备上，从而淘汰LCD屏幕。具体来看，iPad mini最快会在2026年配备OLED屏，同时会提升防水性能，新款iPad mini也因此涨价100美元。至于iPad Air，其商用OLED的时间要晚于iPad mini，爆料称2026年春季亮相的iPad Air将继续使用LCD屏幕，但后续

OLED显示屏 iPad mini
REDMI Mini LED电视来了：85英寸到手价不足4000元

小米10月23日发布Redmi X 2026系列Mini LED电视，这是Redmi首款Mini LED产品。85英寸版本售价4799元，补贴后3839.2元，配备640分区背光、1200nits峰值亮度，支持4K/144Hz显示及288Hz超高频模式。搭载四核A73处理器、4+64GB存储，预装澎湃OS系统，视频启动速度提升42%。对比同尺寸小米电视S Mini LED（7399元），性价比突出。另有65/75英寸版本同步亮相。

小米电视 REDMI发布会 Mini
华为MatePad Mini典藏版今日开售：售价5999元起

10月27日，华为MatePad Mini典藏版正式开售，起售价5999元。作为华为首款8.8英寸小尺寸平板，该机在性能与功能上实现全面突破，堪称史上最强小平板。配备8.8英寸柔性OLED云晰柔光屏，支持P3广色域、1800nits峰值亮度及120Hz高刷，显示效果出色。通讯方面支持插卡通话、Wi-Fi7及北斗卫星消息，确保户外畅联。搭配M-Pencil Pro手写笔与智能皮套，支持专业绘画及会议语音实时转写功能，办公创作体验全面升级。

华为MatePad Mini 典藏版首销

今日大家都在搜的词：

热文

3 天
7天

AI日报：谷歌Gemini 1.5升级；OpenAI推ChatGPT语音模式；阿里推图转视频神器MIMO

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

被AI引用才是真的流量：写出让GPT、Gemini主动引用的AI搜索友好型内容（实操清单 + 工具推荐）

荐MiniMax让AI语音有了新基建

荐MiniMax M2：所有坑都踩过，才能做出所有人都能用上的Agent

荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

iPad mini 8外观巨变：去掉扬声器开孔

苹果iPad mini将支持防水：看齐iPhone

未来iPad mini/iPad Air/MacBook都将升级OLED屏：LCD退场

REDMI Mini LED电视来了：85英寸到手价不足4000元

华为MatePad Mini典藏版今日开售：售价5999元起

今日大家都在搜的词：

热文

OPPO ColorOS 16正式版推送：首批适配11款机型

微信升级：支持一次撤回全部消息、删好友能保留聊天记录等功能

AI日报：可复刻音色的MiniMax Speech 2.6发布；TikTok推AI剪辑

vivo OriginOS 6启动公测招募：支持10款机型

苹果客服回应iPhone或自动拨号：设置或其他问题

魅族22月白天青配色发布：2999元起

AI日报：Sora免费额度要缩水；月之暗面发布Kimi Linear架构；C

REDMI官方：REDMI K90超级像素新国屏比2K屏更强

iQOO Neo11开售2小时销量超前代全天

小米随身蓝牙音箱曜石黑配色版本开售：售价299元

iPhone锁屏滑动相机能关闭了苹果iOS 26.1 RC准正式版发布

一加15今晚发布定位全能水桶机

AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度

AI日报：豆包推全自动多人配音系统；Adobe Firefly Image 5重磅

AI日报：Hailuo 2.3发布；豆包AI编程史诗级升级；马斯克推出AI

红米REDMI K90全方位提升雷军：是不是越来越有旗舰气质

鸿蒙智行：全新问界M7上市36天交付破20000台

OPPO ColorOS 16正式版推送：首批适配11款机型

iPhone18发布或推迟苹果明年9月只发Pro系列和Fold折叠屏

余承东曝鸿蒙智行新款享界S9将于11月上市

站长商机