AI日报：推理更强！OpenAI新模型o1发布；Midjourney 7.0一次可生8张图；开源语音模型Fish Speech 1.4发布

2024-09-13 15:31 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、OpenAI推出全新的模型系列OpenAI o1

OpenAI推出了全新的模型系列OpenAI o1，这个新模型在推理能力上表现得更加出色，为解决复杂问题提供了更强的推理能力。用户需要调整提示方式以适应o1模型的工作方式，提示工程发生了重大变革，用户需要给出简单直接的提示，避免使用思路链提示，使用分隔符来明确模型解析的部分，并限制额外上下文以避免复杂回答。

【AiBase提要:】
🤖 OpenAI o1模型需要简单、直接的提示，而非复杂的指导。
🧠 避免使用思路链提示，因为o1模型已经具备内部推理能力。
📑 使用分隔符来明确模型解析的部分，并限制额外上下文以避免复杂回答。
详情链接:https://openai.com/index/introducing-openai-o1-preview/

2、谷歌Gemini Live语音聊天向安卓用户免费开放，随时随地与AI聊天!

谷歌宣布Gemini Live语音聊天模式现在免费向所有安卓用户开放，这意味着每个人都可以体验智能对话AI的乐趣。用户可以随时用声音提问，甚至在回答过程中打断，为用户带来流畅的语音交互体验。Gemini Live为用户提供了一种新的交互方式，无论在家中还是外出，都能随时与AI进行有趣的对话。

【AiBase提要:】
🌟 Gemini Live语音聊天功能现在免费向所有安卓用户开放!
🗣️ 用户可以直接用声音提问，甚至在回答时打断。
🌍 目前仅支持英文，未来将在iOS上推出并支持更多语言。

3、Midjourney 7. 0 版本或在 2 个月内发布一次性可生成 8 张图，正开发3D系统

Midjourney创始人David Holz在Discord上分享公司最新项目进展，强调技术创新以竞争AI图像生成领域。公司推迟发布7.0版本，但功能更丰富。重点在提高技术可访问性和工具专业使用价值。计划推出多图生成、图像编辑器、3D系统、个性化功能和视频生成。公司选择稳健发展道路，注重提升用户体验。

【AiBase提要:】
🚀7.0版本推迟但功能更丰富，重点在提高技术可访问性和工具专业使用价值。
🎨 新功能包括多图生成、图像编辑器、3D系统、个性化和视频生成，提升用户体验。
💡 Midjourney选择稳健发展道路，注重实用功能和用户体验，以保持竞争优势。
详情链接:https://top.aibase.com/tool/midjourneywangyeban

4、元象发布MoE开源大模型XVERSE-MoE-A36B

作为中国最大的Mixture of Experts（MoE）开源大模型，XVERSE-MoE-A36B的发布标志着中国在AI领域的重大进步，将国产开源技术提升至国际领先水平。该模型的性能和效率带来了训练时间的缩短、推理性能的提升，以及降低了AI应用的成本，为中小企业、研究者和开发者提供了更多选择机会。

【AiBase提要:】
🚀 XVERSE-MoE-A36B拥有255B总参数和36B激活参数，性能可与超过100B参数的大模型相媲美，实现了跨级的性能跃升。
💡 MoE架构通过组合多个细分领域的专家模型，打破了传统扩展定律的局限，保持了模型性能最大化，降低了计算成本。
📈 元象MoE在权威评测中超越了多个同类模型，包括国内千亿MoE模型Skywork-MoE、传统MoE霸主Mixtral-8x22B等。
详情链接:https://huggingface.co/xverse/XVERSE-MoE-A36B

5、Fish Speech1.4发布:开源TTS模型迎来多语言突破

Fish Speech1.4版本的发布标志着这款开源文本转语音（TTS）模型在多语言支持和性能方面取得了重大突破。更新展现了强大的技术实力和广阔的应用前景。

【AiBase提要:】
🌐 多语言支持大幅提升: 训练数据量翻倍至70万小时，支持8种主要语言，拓展了应用范围。
⚡ 性能与功能全面升级: 超快速度与低延迟，即时语音克隆功能，灵活部署选项和API服务。
🚀 应用前景广阔: 教育领域支持语言学习，娱乐产业即时语音克隆，辅助技术视障人士工具，智能客服和跨文化交流。
详情链接:https://fish.audio/zh-CN/auth/

6、告别幻觉!谷歌推新模型DataGemma，统计数据准确率暴涨58%

谷歌推出新的开源AI模型DataGemma，旨在解决大语言模型在处理统计数据时常出现的“幻觉”问题，标志着谷歌在AI领域的重要进展。DataGemma利用谷歌的数据共享平台，显著提升模型回答统计问题的准确性。初步测试显示，DataGemma在统计查询准确性方面有显著提升。

【AiBase提要:】
🌟 DataGemma模型旨在减少AI在统计查询中的错误，提高准确性。
📊 DataGemma利用Data Commons平台数据，增强模型回答的准确性。
🔍 DataGemma在初步测试中表现出显著的统计查询准确性提升。
详情链接:https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643

7、Jina AI推出Reader-LM小型语言模型

Jina AI推出的Reader-LM小型语言模型为将原始HTML内容转化为干净整洁的Markdown格式提供了便利，摆脱了繁琐的网页数据处理。该模型快速高效，自动剔除杂乱内容，展现出优异性能和高准确性。

【AiBase提要:】
✨ Reader-LM能快速高效转换网页内容为Markdown，无需复杂规则或正则表达式。
🔍 提供两个参数模型，优化HTML转Markdown任务，性能超越大型模型。
💡 具备强大长上下文处理能力，在资源受限环境中也能高效运行。
详情链接:https://jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown/

8、估值2000万美元!AI工具Shopsense AI 支持拍照就能买到明星同款

在MTV音乐录像带大奖（VMAs）上，观众们通过Shopsense AI技术可以即时购买明星造型相似的服装，展现出未来购物体验的可能性。虽然技术仍需提升准确性，但Shopsense正不断改进，以与其他媒体公司竞争。其商业模式多元，通过点击付费和销售分成获取收入，市场潜力巨大。

【AiBase提要:】
🌟 观众可通过上传照片获取与明星造型相似的商品推荐，包括高端和亲民选择。
🛍️ Shopsense AI计划扩展到旅游、运动等其他领域的商品推荐，实现内容与购物的无缝连接。
📈 Shopsense AI与Paramount合作，为观众提供即时购买明星造型相似服装的便利体验。

9、一场商标之战!谷歌因使用 “Gemini” 标名称被起诉侵权

最近，谷歌因其新推出的 AI 服务 “Gemini” 而被一家名为 Gemini Data 的公司起诉，指控其侵犯商标权。这起纠纷揭示了大型科技公司在商标使用上的挑战和法律风险，警示企业在命名新产品或服务时需谨慎考虑已有商标。

【AiBase提要:】
🌟 谷歌因使用 “Gemini” 商标被 Gemini Data 起诉，指控其侵犯商标权。
🔍 谷歌在申请商标时遭到拒绝，因该名称与其他商标相似。
🤖 谷歌的 Gemini 聊天机器人承认正在侵犯商标，反映出双方的法律纠纷。

10、阿联酋国有投资公司 MGX 考虑向 OpenAI 投资数十亿美元

阿联酋国有投资公司MGX考虑向OpenAI投资数十亿美元，这一举动将进一步推动OpenAI的融资计划，显示出OpenAI强劲的商业表现。同时，MGX的成立旨在加速人工智能和先进技术的发展，巩固阿联酋在全球科技领域的领先地位。

【AiBase提要:】
💰 MGX考虑向OpenAI投资数十亿美元，推动OpenAI融资计划。
🤖 OpenAI年化经常性收入达40亿美元，展现强劲商业表现。
🌍 MGX由穆巴达拉与G42共同创办，专注于人工智能和先进技术的发展。

11、强得可怕!有人测试用OpenAI o1解答高中数学期末考题，竟全对了

这篇文章介绍了一位Reddit网友使用OpenAI最新模型OpenAI o1解答高中数学题的惊人效果。他对人工智能的能力充满好奇，通过测试发现OpenAI o1在短时间内准确解答了中国高中数学考题，引起了网友的关注与讨论。结果显示了AI在处理复杂数学问题上的强大能力，引发了对AI未来应用前景的讨论。

【AiBase提要:】
🤖 AI能力惊人:OpenAI o1在短时间内准确解答高中数学考题，全对
💡 科技进步引发思考:网友对AI未来发展提出疑问，讨论教育领域的影响
🌐 智能化学习辅助:AI在教育领域有巨大潜力，为学生提供智能化学习辅助

（举报）

相关推荐

关键词：

OpenAI

OpenAI和微软的关系没那么糟，跟英伟达也没那么好

OpenAI的动作比所有人想象的都要快。上周二，OpenAI完成重组。其中一个重要变化是:彻底取消了与微软的排他性协议，结束了Azure长达六年的云服务独占模式。此前，OpenAI所有模型的训练、推理与部署都必须优先选择Azure，微软还享有优先购买权。宣布与Azure“分手”后不到一周，OpenAI便火速宣布了与AWS的战略合作——双方达成一项价值380亿美元的云计算协议，OpenAI将全面接入

OpenAI 云计算战略合作
荐OpenAI也来了，巨头为何决战AI浏览器？

AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas，这是OpenAI推出的首款人工智能驱动的网页浏览器。这也被外界认为OpenAI要向谷歌宣战，挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天，谷歌母公司Alphabet股价应声下挫，盘中最大跌幅接近5%，足见市场对这一新品的敏感度。近一年来，AI浏览器的战略价值成为行业共识，从业者更是将其与智能代理（Agent）、搜索引�

AI浏览器 ChatGPT Atlas
人工智能巨头OpenAI拟上市估值或高达1万亿美元

OpenAI正积极推进上市计划，据知情人士透露，该公司可能最早于2026年下半年向证券监管机构提交上市申请，目标在2027年正式上市。此次IPO的估值有望达到约1万亿美元，或将跻身全球规模最大的IPO之列。在初步讨论中，OpenAI曾考虑通过上市筹集至少600亿美元资金，实际融资规模可能进一步扩大。

OpenAI IPO 上市计划
荐OpenAI 推出浏览器：“让位吧，Chrome”

北京时间10月22日凌晨，没等来传闻中的Gemini3，等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。简单来说，这是一个把ChatGPT"塞进"浏览器的产品，你在任何网页上都能随时唤出ChatGPT侧边栏，让AI帮你总结内容、编辑文字、甚至代替你完成购物和预订任务。听起来有点像Chrome装了个ChatGPT插件?确实如此，但OpenAI的野心远不止于此。

OpenAI
OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

OpenAI于10月22日推出首款AI驱动浏览器ChatGPT Atlas，以个性化上网体验为核心。用户点击“Ask ChatGPT”即可在侧边栏实时互动，实现网页摘要生成、航班预订、文档编辑等多样化任务。目前仅支持macOS，未来将扩展至Windows和移动端。高级代理功能暂限付费用户使用，其特色包括自动捕捉页面上下文、分屏浏览及记忆用户操作历史，旨在通过自然对话提升网络使用效率。

ChatGPT Atlas 人工智能浏览器
AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

本文汇总AI领域最新动态：OpenAI推出集成ChatGPT的Atlas浏览器，实现多任务自主处理；阿里通义千问新增2B/32B视觉语言模型，手机可流畅运行；谷歌AI Studio升级Vibe Coding功能，简化应用开发流程；百川发布医疗大模型M2Plus，通过循证推理降低误诊率；奇瑞墨甲机器人实现L3级技术突破，计划多行业应用；YouTube推出AI肖像识别工具，打击虚假内容；三星宣布2026年推出AI眼镜，融合AR与语音助手；Claude客户端更新，支持截图分析和语音交互功能。

AI OpenAI ChatGPT
荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

视觉中国与多家AI公司合作开发可商用视觉大模型，已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频，引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人，仅保留Meta AI。宇树科技推出仿人机器人Unitree H2，具备拟人化设计。谷歌为Gemini集成地图数据工具，可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器，但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能，可分析手机未分享照片。

AI 视觉大模型版权合规
荐AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将推Nano Banana2

本期AI日报聚焦多领域突破：OpenAI视频应用Sora登陆安卓平台并引入付费角色功能；网易云音乐推出AI调音大师实现智能音效适配；字节跳动高薪布局人形机器人赛道；谷歌Gemini平台将升级图像生成技术；llama.cpp实现多模态革命；特斯拉秘密实验室通过行为数据训练机器人；上海首例AI著作权案宣判保护原创；微软推出自研图像生成器MAI-Image-1，在创意效率与质量间取得平衡。

OpenAI Sora Android
微算法科技（NASDAQ MLGO）：以隐私计算区块链筑牢多方安全计算（MPC）安全防线

微算科技开发的隐私计算区块链将区块链技术融入多方安全计算（MPC），构建安全可信的分布式计算平台。通过区块链共识机制、加密算法和智能合约，对MPC参与方身份验证、数据加密存储、任务执行及结果验证等环节进行保护，确保数据“可用不可见”。该技术显著提升数据隐私保护和计算可靠性，在金融、医疗、政务等领域实现跨主体数据安全协作，释放数据价值。

数据流通多方安全计算隐私计算
小鹏MONA M03累计交付破20万台

小鹏汽车MONA M03车型上市14个月累计交付20万台，连续12个月月交付破万。该车去年8月上市，定位年轻群体，价格区间11.98-15.58万元。动力搭载160千瓦电机，配备磷酸铁锂电池，CLTC续航最高620公里，支持快充功能，15分钟可补能200公里。市场表现亮眼，首月即实现交付破万，创下新势力纯电轿车首月交付纪录。

小鹏汽车 MONA M03

今日大家都在搜的词：

热文

3 天
7天

AI日报：推理更强！OpenAI新模型o1发布；Midjourney 7.0一次可生8张图；开源语音模型Fish Speech 1.4发布

OpenAI和微软的关系没那么糟，跟英伟达也没那么好

荐OpenAI也来了，巨头为何决战AI浏览器？

人工智能巨头OpenAI拟上市估值或高达1万亿美元

荐OpenAI 推出浏览器：“让位吧，Chrome”

OpenAI推出AI浏览器ChatGPT Atlas 开启个性化上网新体验

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

荐AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将推Nano Banana2

微算法科技（NASDAQ MLGO）：以隐私计算区块链筑牢多方安全计算（MPC）安全防线

小鹏MONA M03累计交付破20万台

今日大家都在搜的词：

热文

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

华为Mate70 Air官宣今日开启预售

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

何小鹏回应机器人IRON里是真人质疑：感谢认可

华为路由X3 Pro今日开启预售：售价1299元起

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

俞敏洪发文确认孙东旭离职：保持着良好的沟通

iPhone Air 2或新增1颗镜头：继续沿用6.5英寸高刷中屏

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

站长商机