首页 > 业界 > 关键词  > OpenAI最新资讯  > 正文

AI日报:推理更强!OpenAI新模型o1发布;Midjourney 7.0一次可生8张图;开源语音模型Fish Speech 1.4发布

2024-09-13 15:31 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、OpenAI推出全新的模型系列OpenAI o1

OpenAI推出了全新的模型系列OpenAI o1,这个新模型在推理能力上表现得更加出色,为解决复杂问题提供了更强的推理能力。用户需要调整提示方式以适应o1模型的工作方式,提示工程发生了重大变革,用户需要给出简单直接的提示,避免使用思路链提示,使用分隔符来明确模型解析的部分,并限制额外上下文以避免复杂回答。

【AiBase提要:】

🤖 OpenAI o1模型需要简单、直接的提示,而非复杂的指导。

🧠 避免使用思路链提示,因为o1模型已经具备内部推理能力。

📑 使用分隔符来明确模型解析的部分,并限制额外上下文以避免复杂回答。

详情链接:https://openai.com/index/introducing-openai-o1-preview/

2、谷歌Gemini Live语音聊天向安卓用户免费开放,随时随地与AI聊天!

谷歌宣布Gemini Live语音聊天模式现在免费向所有安卓用户开放,这意味着每个人都可以体验智能对话AI的乐趣。用户可以随时用声音提问,甚至在回答过程中打断,为用户带来流畅的语音交互体验。Gemini Live为用户提供了一种新的交互方式,无论在家中还是外出,都能随时与AI进行有趣的对话。

【AiBase提要:】

🌟 Gemini Live语音聊天功能现在免费向所有安卓用户开放!

🗣️ 用户可以直接用声音提问,甚至在回答时打断。

🌍 目前仅支持英文,未来将在iOS上推出并支持更多语言。

3、Midjourney 7. 0 版本或在 2 个月内发布 一次性可生成 8 张图,正开发3D系统

Midjourney创始人David Holz在Discord上分享公司最新项目进展,强调技术创新以竞争AI图像生成领域。公司推迟发布7.0版本,但功能更丰富。重点在提高技术可访问性和工具专业使用价值。计划推出多图生成、图像编辑器、3D系统、个性化功能和视频生成。公司选择稳健发展道路,注重提升用户体验。

【AiBase提要:】

🚀7.0版本推迟但功能更丰富,重点在提高技术可访问性和工具专业使用价值。

🎨 新功能包括多图生成、图像编辑器、3D系统、个性化和视频生成,提升用户体验。

💡 Midjourney选择稳健发展道路,注重实用功能和用户体验,以保持竞争优势。

详情链接:https://top.aibase.com/tool/midjourneywangyeban

4、元象发布MoE开源大模型XVERSE-MoE-A36B

作为中国最大的Mixture of Experts(MoE)开源大模型,XVERSE-MoE-A36B的发布标志着中国在AI领域的重大进步,将国产开源技术提升至国际领先水平。该模型的性能和效率带来了训练时间的缩短、推理性能的提升,以及降低了AI应用的成本,为中小企业、研究者和开发者提供了更多选择机会。

image.png

【AiBase提要:】

🚀 XVERSE-MoE-A36B拥有255B总参数和36B激活参数,性能可与超过100B参数的大模型相媲美,实现了跨级的性能跃升。

💡 MoE架构通过组合多个细分领域的专家模型,打破了传统扩展定律的局限,保持了模型性能最大化,降低了计算成本。

📈 元象MoE在权威评测中超越了多个同类模型,包括国内千亿MoE模型Skywork-MoE、传统MoE霸主Mixtral-8x22B等。

详情链接:https://huggingface.co/xverse/XVERSE-MoE-A36B

5、Fish Speech1.4发布:开源TTS模型迎来多语言突破

Fish Speech1.4版本的发布标志着这款开源文本转语音(TTS)模型在多语言支持和性能方面取得了重大突破。更新展现了强大的技术实力和广阔的应用前景。

【AiBase提要:】

🌐 多语言支持大幅提升: 训练数据量翻倍至70万小时,支持8种主要语言,拓展了应用范围。

⚡ 性能与功能全面升级: 超快速度与低延迟,即时语音克隆功能,灵活部署选项和API服务。

🚀 应用前景广阔: 教育领域支持语言学习,娱乐产业即时语音克隆,辅助技术视障人士工具,智能客服和跨文化交流。

详情链接:https://fish.audio/zh-CN/auth/

6、告别幻觉!谷歌推新模型DataGemma,统计数据准确率暴涨58%

谷歌推出新的开源AI模型DataGemma,旨在解决大语言模型在处理统计数据时常出现的“幻觉”问题,标志着谷歌在AI领域的重要进展。DataGemma利用谷歌的数据共享平台,显著提升模型回答统计问题的准确性。初步测试显示,DataGemma在统计查询准确性方面有显著提升。

【AiBase提要:】

🌟 DataGemma模型旨在减少AI在统计查询中的错误,提高准确性。

📊 DataGemma利用Data Commons平台数据,增强模型回答的准确性。

🔍 DataGemma在初步测试中表现出显著的统计查询准确性提升。

详情链接:https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643

7、Jina AI推出Reader-LM小型语言模型

Jina AI推出的Reader-LM小型语言模型为将原始HTML内容转化为干净整洁的Markdown格式提供了便利,摆脱了繁琐的网页数据处理。该模型快速高效,自动剔除杂乱内容,展现出优异性能和高准确性。

image.png

【AiBase提要:】

✨ Reader-LM能快速高效转换网页内容为Markdown,无需复杂规则或正则表达式。

🔍 提供两个参数模型,优化HTML转Markdown任务,性能超越大型模型。

💡 具备强大长上下文处理能力,在资源受限环境中也能高效运行。

详情链接:https://jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown/

8、估值2000万美元!AI工具Shopsense AI 支持拍照就能买到明星同款

在MTV音乐录像带大奖(VMAs)上,观众们通过Shopsense AI技术可以即时购买明星造型相似的服装,展现出未来购物体验的可能性。虽然技术仍需提升准确性,但Shopsense正不断改进,以与其他媒体公司竞争。其商业模式多元,通过点击付费和销售分成获取收入,市场潜力巨大。

image.png

【AiBase提要:】

🌟 观众可通过上传照片获取与明星造型相似的商品推荐,包括高端和亲民选择。

🛍️ Shopsense AI计划扩展到旅游、运动等其他领域的商品推荐,实现内容与购物的无缝连接。

📈 Shopsense AI与Paramount合作,为观众提供即时购买明星造型相似服装的便利体验。

9、一场商标之战!谷歌因使用 “Gemini” 标名称被起诉侵权

最近,谷歌因其新推出的 AI 服务 “Gemini” 而被一家名为 Gemini Data 的公司起诉,指控其侵犯商标权。这起纠纷揭示了大型科技公司在商标使用上的挑战和法律风险,警示企业在命名新产品或服务时需谨慎考虑已有商标。

【AiBase提要:】

🌟 谷歌因使用 “Gemini” 商标被 Gemini Data 起诉,指控其侵犯商标权。

🔍 谷歌在申请商标时遭到拒绝,因该名称与其他商标相似。

🤖 谷歌的 Gemini 聊天机器人承认正在侵犯商标,反映出双方的法律纠纷。

10、阿联酋国有投资公司 MGX 考虑向 OpenAI 投资数十亿美元

阿联酋国有投资公司MGX考虑向OpenAI投资数十亿美元,这一举动将进一步推动OpenAI的融资计划,显示出OpenAI强劲的商业表现。同时,MGX的成立旨在加速人工智能和先进技术的发展,巩固阿联酋在全球科技领域的领先地位。

【AiBase提要:】

💰 MGX考虑向OpenAI投资数十亿美元,推动OpenAI融资计划。

🤖 OpenAI年化经常性收入达40亿美元,展现强劲商业表现。

🌍 MGX由穆巴达拉与G42共同创办,专注于人工智能和先进技术的发展。

11、强得可怕!有人测试用OpenAI o1解答高中数学期末考题,竟全对了

这篇文章介绍了一位Reddit网友使用OpenAI最新模型OpenAI o1解答高中数学题的惊人效果。他对人工智能的能力充满好奇,通过测试发现OpenAI o1在短时间内准确解答了中国高中数学考题,引起了网友的关注与讨论。结果显示了AI在处理复杂数学问题上的强大能力,引发了对AI未来应用前景的讨论。

image.png

【AiBase提要:】

🤖 AI能力惊人:OpenAI o1在短时间内准确解答高中数学考题,全对

💡 科技进步引发思考:网友对AI未来发展提出疑问,讨论教育领域的影响

🌐 智能化学习辅助:AI在教育领域有巨大潜力,为学生提供智能化学习辅助

举报

  • 相关推荐
  • 全球优质AI语音大模型盘点:Whisper、Gemini Speech

    本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括:OpenAI Whisper(多语言识别与翻译)、Google Gemini(情感化语音生成)、Meta AudioCraft(音乐创作与风格转换)。国内讯飞星火(方言识别)、阿里通义(电商客服)、百度文心(车载场景)表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • AI日报:xAI 震撼发布Grok4;微软开源全新Phi-4-mini版本;上海累计82款大模型通过备案

    AI日报栏目聚焦人工智能领域最新动态:1)xAI发布旗舰模型Grok4,在数学推理和代码生成表现突出,同时推出开发者专用Grok4Code;2)微软开源Phi-4-mini模型,推理效率提升10倍,适合边缘设备;3)上海82款大模型完成备案,垂直领域应用取得突破;4)Hugging Face推出开源桌面机器人Reachy Mini,支持Python编程;5)Perplexity发布AI浏览器Comet挑战Chrome;6)OpenAI将首次发布开放权重模型,打破闭源惯例;7)谷歌医疗AI模型MedGemma系列上新,单个GPU即可运行;8)OpenAI以约65亿美元收购AI硬件公司io Products,正式进军硬件市场。

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • OpenAI核心模型采用物理隔离:为防窃密 上网需明确许可

    据媒体报道,OpenAI近期全面升级其安全体系,以应对企业间谍活动风险。此次升级的核心举措之一是推出信息隔离”政策,旨在严格限制员工对敏感算法和新产品的访问权限。 例如,在开发o1模型期间,OpenAI规定只有经过严格审查并获得相应权限的团队成员,才可在公共办公区域讨论相关细节。 同时,公司还采取了多项物理与网络安全强化措施:将核心专有技术存储在隔离�

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • 剑指谷歌Chrome!OpenAI即将推出AI浏览器

    据媒体报道,OpenAI即将推出的AI浏览器,利用人工智能技术彻底重塑用户的网络浏览体验,直接向占据市场主导地位的谷歌 Chrome 发起挑战。 凭借庞大的每周4亿活跃ChatGPT用户基础,OpenAI的浏览器若被广泛接纳,将对谷歌的广告生态系统、网络数据流和搜索流量构成实质性威胁。谷歌Chrome长期以来是Alphabet广告业务的基石,为其精准广告投放和将流量导向自家搜索引擎提供了关�

  • AI日报:阿里通义推Qwen-TTS模型;Cursor已支持网页和手机端;字节发布图像合成技术XVerse

    【AI日报】今日AI领域7大突破:1)阿里通义Qwen-TTS实现方言语音合成重大突破;2)Cursor发布Web版AI编程工具;3)字节XVerse技术实现多对象精准图像生成;4)NoteGen跨平台AI笔记工具革新知识管理;5)ManimML动画库可视化Transformer架构;6)TEN+Agent开源语音交互技术降低延迟;7)Chai-2抗体设计模型将药物研发周期缩短至两周。淘宝同时上线RecGPT推荐模型提升购物体验。

  • 三星Galaxy Z Fold7丨Flip7发布,打造折叠屏AI新范式

    2025年7月9日,三星电子发布新一代折叠屏旗舰Galaxy Z Fold7和Galaxy Z Flip7,以及Galaxy Watch8系列智能手表。Fold7采用纤薄设计,展开厚度仅4.2毫米,搭载定制处理器和2亿像素广角镜头,AI功能支持实时翻译和生成式编辑。Flip7配备超大外屏,重量188克,电池容量为系列最大。Watch8系列采用"天圆地方"设计,集成度提升30%,配备BioActive传感器。新品7月9日开启预约,7月25日正式发售,预约用户可享存储升级等优惠。

  • 可灵AI推出可图2.1模型 多维能力跃升、会员限时7天免费

    可灵AI于7月10日上线可图2.1模型,图片生成能力全面升级:1)指令遵循能力显著提升,可精准捕捉复杂提示细节;2)新增180多种风格响应,支持特殊材质、数字艺术等创作需求;3)人像美感大幅优化,肌肤纹理与光影效果更自然;4)增强电影质感生成,能呈现大片级层次氛围;5)文字生成效果提升,支持中英文营销海报等设计。即日起面向会员免费开放7天,实测显示该模型在复杂场景还原和细节表现上达到新高度,累计已生成超3亿张图片。