AI日报：OpenAI发布GPT-4o mini；腾讯华为联合推AI换衣技术IMAGDressing-v1；豆包浏览器插件上线播客和视频总结功能

2024-07-19 15:07 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、OpenAI发布GPT-4o mini，API降价60%！

OpenAI推出GPT-4o mini，号称是智能领域的“经济适用男”，降价60%，性能卓越。该模型在成本和性能上均有突出表现，为智能革命铺平道路。

【AiBase提要:】
💡 GPT-4o mini降价60%，每百万输入令牌15美分，输出令牌60美分，性价比极高。
💡 支持文本和视觉API，未来将扩展至图像、视频和音频输入输出，功能强大多样化。
💡 在学术测试中表现出色，超越GPT-3.5Turbo，支持多模态推理，具备128K令牌上下文窗口。

2、腾讯华为联合推AI换衣技术IMAGDressing-v1：兼容ControlNet、文字提示词生成场景背景

IMAGDressing-v1 是一款创新性的AI换衣工具，为用户提供更灵活、更真实的虚拟穿衣体验。其简单架构和高效定制能力使虚拟试衣变得直观便捷。同时，兼容多种插件扩展功能，支持局部服装更换实验功能，展示了未来虚拟试衣技术的潜力。

【AiBase提要:】
🌟 简单架构，快速定制：IMAGDressing-v1 无需额外训练，快速生成逼真穿着效果。
🛠️ 灵活插件兼容：支持与IP-Adapter和ControlNet等插件结合，提升工具功能和适用性。
🔄 局部服装更换：实验性功能允许对服装指定区域进行更换，增加虚拟试衣的灵活性。
详情链接:https://top.aibase.com/tool/imagdressing

3、长视频也不怕！Goldfish：可理解任意长度视频

Goldfish是一种革命性的技术，解决了传统AI模型在处理长视频时的困难。通过高效的检索机制和描述生成技术，Goldfish能够处理任意长度的视频内容，不仅在长视频领域表现出色，也在短视频理解方面取得显著突破。

【AiBase提要:】
🔍 Goldfish采用高效的检索机制，能提取出长视频中与指令相关的视频片段，从而解决长视频处理难题。
🚀 Goldfish团队开发了MiniGPT4-Video，可以为视频片段生成详细描述，提升了处理长视频的能力。
💡 Goldfish在TVQA-long基准测试中准确率达到41.78%，在短视频基准测试中也表现优异，展示了其强大的处理能力。
详情链接:https://top.aibase.com/tool/goldfish

4、科大讯飞星火推出Spark Pro-128K大模型

科大讯飞推出的Spark Pro-128K大模型具备超长文本处理能力，能显著提升AI大模型在实际应用中的价值。该模型不仅能处理超长文本，还具备内容溯源功能，提高回答的可信度。开发者可免费领取500万tokens体验和利用这一大模型的能力。

【AiBase提要:】
🚀 讯飞星火大模型 V4.0 整体超越 GPT-4 Turbo，七大核心能力全面提升。
🔍 模型支持超长文本处理，可指出答案来源，提高回答可信度。
💡 开发者可免费领取 500 万 tokens 体验 Spark Pro-128k 版本

5、DeepL推出新一代翻译AI，翻译表现超越GPT-4

DeepL公司最新推出的新一代语言模型在翻译准确度上超越了Google翻译和GPT-4，为用户提供更优质的翻译体验。用户可通过DeepL Pro计划轻松切换到新模型，费用从1150日元/月起。

【AiBase提要:】
📈 新一代语言模型在翻译精度上超越了Google翻译和GPT-4，提升翻译质量
🔍 新模型在日英互译、简中英互译、德英互译中表现更佳，编辑工作量显著减少
💵 DeepL Pro计划已支持新模型，用户可通过按钮切换，月费从1150日元/月起

6、B站长视频总结神器！豆包浏览器插件上线播客和视频总结功能

在这个信息爆炸的时代，豆包浏览器插件为我们带来了全新的解决方案，让我们能够高效吸收和整理海量知识。它提供了视频内容总结、目录生成、脑图绘制、笔记功能等，极大地提升了处理信息的效率。同时，插件还支持播客总结、文章总结和翻译功能，为用户提供了多种学习工具。用户友好的设计和多功能性使得豆包浏览器插件成为我们日常学习和工作中的得力助手。

QQ截图20240719104954.jpg

【AiBase提要:】
🔍 豆包浏览器插件提供视频内容总结、目录生成、脑图绘制和笔记功能，轻松帮助用户快速了解和消化超长视频内容。
🎧 豆包浏览器插件支持播客总结功能，能听完播客并转文字总结，提高用户处理信息的效率。
📚 豆包浏览器插件还具备文章总结和翻译功能，交互设计舒适，适合不同类型用户使用。
详情链接:
https://chromewebstore.google.com/detail/%E8%B1%86%E5%8C%85%EF%BC%8C%E6%B5%8F%E8%A7%88%E5%99%A8-ai-%E5%8A%A9%E6%89%8B/dbjibobgilijgolhjdcbdebjhejelffo

7、Groq开源的Llama AI模型登顶排行榜，函数调用方面优于GPT-4o和Claude

Groq发布的开源AI模型在特定任务中表现优异，挑战了科技巨头的专有模型，通过合成数据训练解决了常见的数据隐私和过拟合问题，可能改变AI领域的发展路径，促进更广泛的AI可访问性和创新生态系统的培育。

【AiBase提要:】
⭐ Groq发布的开源AI模型在特定任务中胜过了科技巨头的专有模型。
⭐ 通过使用合成数据训练，Groq挑战了AI模型开发中常见的数据隐私和过拟合问题。
⭐ 开源模型的推出可能改变AI领域的发展路径，促进更广泛的AI可访问性和创新生态系统的培育。

8、全球首部完全AI翻译配音电影即将上映，配音工种面临失业危机！

全球首部由AI完全翻译配音的电影《Watch The Skies》即将登陆美国各大院线。Flawless公司的TrueSync技术实现了人工智能的翻译和配音，让观众享受更真实的观影体验。

【AiBase提要:】
🎬 电影《Watch The Skies》通过Flawless的TrueSync技术实现AI完全翻译配音，让观众感受仿佛是用英语拍摄的效果。
🤖 Flawless的AI配音技术将影片中所有角色的口型与英语完全同步，消除了观众在观看配音版本时的不适感。
🌐 Flawless希望通过TrueSync技术让观众在流媒体上观看热门节目时，不再受到口型不匹配和残酷场景剪辑的困扰。
详情链接:
https://variety.com/2024/film/news/flawless-ai-lip-dubbing-movies-tv-1236068071/

9、英文视频翻译神器EasyVideoTrans 极速转换，可灵活修改

在全球化时代，跨语言沟通至关重要。EasyVideoTrans利用GPU加速技术，实现极速视频转换，节省翻译时间。操作简便，灵活定制，支持多平台使用。

【AiBase提要:】
高效快速转换: 利用GPU加速技术，视频转换极速完成。
个性化定制: 支持字幕编辑、翻译引擎选择，用户可灵活调整参数。
操作简便: 直观的WEB界面设计，轻松上手，无需复杂操作。
详情链接:https://top.aibase.com/tool/easyvideotrans

10、谷歌成 “美国官方AI赞助商”

谷歌成为美国队官方AI赞助商，将在2024年巴黎奥运会直播中展示其Gemini AI等人工智能功能。合作伙伴NBCUniversal将突出展示谷歌地图的3D视图和活动场馆细节，解说员将利用谷歌搜索AI总览回答奥运会问题，演员和运动员也将使用Gemini等AI工具参与各种活动。喜剧演员莱斯利·琼斯将与Gemini合作学习新运动，共同探索巴黎。

【AiBase提要:】
🏅 谷歌Gemini AI将在2024年巴黎奥运会直播中大放异彩
🌍 直播中将展示谷歌地图的3D视图和活动场馆细节
🔍 解说员将利用谷歌搜索AI总览回答奥运会问题，演员和运动员也将利用Gemini等AI工具参与各种活动。

11、AI“越狱”新招！“过去式”提示词瞬间攻破GPT-4o等六大模型

经过多次迭代，大型语言模型（LLMs）在处理自然语言方面表现出色，但也带来了风险。研究人员发现简单将有害请求转换成过去时态可绕过拒绝训练，导致先进LLMs“越狱”。研究揭示了AI对齐技术的局限性，引发了对AI泛化能力的讨论。

【AiBase提要:】
🔍 大型语言模型在处理自然语言表现出色，但存在风险，如生成有毒内容、传播错误信息。
🚫 通过简单转换有害请求为过去时态，许多先进LLMs“越狱”，绕过拒绝训练。
🔗 解决方案是在训练数据中包含过去时态例子，提高模型对过去时态请求的拒绝能力。
详情链接:https://arxiv.org/pdf/2407.11969

12、OpenAI与博通等公司商讨开发新一代AI服务器芯片

OpenAI与博通等公司商讨开发新一代AI服务器芯片，旨在提升公司在AI开发中的计算能力，减少对Nvidia GPU的依赖，增强市场竞争力。

【AiBase提要:】
🗣️ OpenAI首席执行官山姆·奥特曼（Sam Altman）正在主导计划，提高公司AI开发计算能力。
🤝 OpenAI招募曾参与Google TPU开发的前员工，助力芯片设计工作。
🚀 OpenAI的芯片开发计划旨在减少对Nvidia GPU的依赖，增加在AI芯片市场的竞争力。

13、Meta暂停其在巴西的生成式AI工具训练

在巴西，Meta的AI助手突然被按下了暂停键，原因是巴西国家数据保护局（ANPD）的一纸禁令。这一决定给Meta在巴西市场扩展AI产品的计划泼了一盆冷水，同时也可能影响其全球AI战略。

【AiBase提要:】
🚫 ANPD禁止Meta使用巴西人个人数据训练AI模型，设定每天5万雷亚尔罚款。
💬 Meta暂停在巴西上线的genAI功能，与ANPD接触解决问题。
🔒 数据保护法规对全球科技公司提出挑战，Meta需重视合规性与数据隐私保护。

（举报）

相关推荐

关键词：

OpenAI

OpenAI的开源模型现已在IBM watsonx.ai上提供

OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B，允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台，采用专家混合架构，支持本地或云端部署，不受商业用途限制。模型具备高透明度，输出完整推理链，在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态，IBM强调其开放战略，为企业提供灵活、安全的AI开发选择。

OpenAI模型 IBM watsonx.ai
奥尔特曼称自己不适合担任CEO OpenAI上市后或卸任

OpenAI首席执行官Sam Altman近日接受采访时透露，虽然公司正推进数万亿美元级的计算基础设施投资计划，但他对上市后继续担任CEO持保留态度。 Altman坦言，尽管主导着OpenAI多项战略级项目，但自认缺乏上市公司CEO所需的核心管理素质与市场敏感度。他特别强调，上市企业领导者需具备应对复杂投资者关系与监管环境的综合能力，而自己可能并非最优人选。

OpenAI Sam Altman
OpenAI CEO：GPT-6将具备个性化记忆记住用户偏好习惯

OpenAI的首席执行官萨姆奥尔特曼（Sam Altman）在近日的一次专访中，透露了下一代大模GPT-6的最新进展。他表示，GPT-6 的开发正在积极推进中，其发布节奏将比从GPT-4到GPT-5的周期更快。奥尔特曼特别强调，GPT-6将不再局限于单纯回答问题，而是朝着与用户深度适配”的方向演进。他举例描述

GPT-6 OpenAI 萨姆奥尔特曼
荐AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

AI日报栏目每日提供人工智能领域热点内容，聚焦开发者，帮助洞悉技术趋势、了解创新AI产品应用。最新动态包括：MiniMax海螺AI首尾帧功能上线；元石科技发布问小白5挑战GPT-5；OpenAI推出语音模型GPT-Realtime；谷歌Gemini AI优化表格处理；腾讯黑科技实现AI配音；百度计划培养千万AI人才；MathGPT.ai反作弊功能推广；苹果Xcode集成Claude Sonnet4；微软发布自研AI模型MAI系列；xAI推出高效编码模型Grok Code Fast1；SuperCLUE多模态评测Gemini-2.5-Pro居首；9月1日起AI内容标识新规实施，违规将承担法律风险。

AI 人工智能技术趋势
OpenAI和科大讯飞，瞄准了同一件事

OpenAI正式发布GPT-5大模型，距离GPT-4推出已29个月。GPT-5虽仍是当前最全面的模型，但性能提升未与主流模型拉开显著差距，部分场景甚至被Grok4和Claude+Opus4.1超越。OpenAI强调此次升级重点在于减少幻觉、提升指令遵循能力和降低模型谄媚性，而非单纯追求性能突破。与此同时，国产大模型代表星火X1也在7月25日升级，同样聚焦解决幻觉问题，在事实性幻觉和忠诚性幻觉治理上取得突破。全球顶尖大模型正从"能用"向"好用"转变，OpenAI和科大讯飞都通过多目标奖励机制和思维链监控等技术手段改善模型可靠性。星火X1已全面赋能教育、医疗、企业应用等行业，在复杂场景任务上满足用户核心需求。大模型产业已进入规模化落地关键期，中国人工智能产业正从追赶走向领先阶段。

GPT-5发布大模型行业 OpenAI
博士水平的GPT-5依然翻车 OpenAI奥特曼：AGI已失去意义

上周末OpenAI公司发布了传闻已久的GPT-5大模型，号称迄今为止最先进的人工智能模型，具备博士级别的智能水平。 GPT-5发布之后在多个榜单上确实刷榜了，包括编程、数学等，总计拿到了25个榜单的第一，评分表现很震撼。然而上线之后，GPT-5的实际表现引发质疑，跑分第一不代表实际体验第一，甚至被不少用户认为表现倒退了，反应也变慢，这可能是OpenAI翻车最快的旗舰大�

GPT-5发布人工智能模型 OpenAI整改
健合旗下Swisse PLUS携手TEDx举办抗衰沙龙，发布NAD+新生瓶系列

《全球抗衰老市场研究报告》显示，2024年全球抗衰老产品市场规模达2662亿美元。高端消费群体需求从粗放式营养补充转向精准干预，推动行业向细胞级解决方案升级。Swisse PLUS与TEDx合作举办主题沙龙，发布NAD+新生瓶系列，汇聚专家学者探讨细胞抗衰科学路径，倡导建立个人健康管理系统，实现精准抗衰与主动健康管理。

抗衰老市场细胞级营养 NAD+新生瓶
GPT-5有望明天发布 OpenAI：免费无限使用

OpenAI宣布将于太平洋时间7月4日上午10点（北京时间7月5日凌晨1点）举办重要直播活动。官方预告中"LIVESTREAM"误写为"LIVE5TREAM"，引发网友猜测可能暗示GPT-5即将发布。消息称免费版ChatGPT将在标准设置下开放GPT-5对话功能，但会设置防滥用阈值；Plus和Pro用户则可享受更智能的GPT-5服务，包括语音交互、绘图创作等高级功能。此前CEO奥特曼曾透露GPT-5将整合多项前沿技术。若属实，这将是AI爱好者的重大福利，也将进一步提升ChatGPT的实用性和用户体验。

OpenAI GPT-5 直播活动
OpenAI正式发布GPT-5模型网友：写作像诗人

OpenAI在直播活动中正式推出新一代人工智能模型GPT-5，宣称其覆盖编程、数学、写作、健康咨询、视觉感知等核心领域，实现"公司迄今为止最重大的模型升级"。OpenAI首席执行官萨姆·奥尔特曼（Sam Altman）形容，与GPT-5交互如同与各领域专家对话，其多维度能力突破将重塑人机协作模式。分层开放策略满足多元需求 GPT-5将于本周四启动全球用户分批推送，免费用户与付�
微算法科技（NASDAQ:MLGO）突破性FPGA仿真算法技术助力Grover搜索，显著提升量子计算仿真效率

量子计算迅猛发展，量子算法在搜索和加密领域潜力巨大。然而，量子计算机实现复杂，当前研究重点是在经典平台上高效仿真量子算法。微算科技提出基于FPGA的高效仿真技术，通过硬件仿真而非传统软件方法，显著提升Grover搜索算法仿真速度，实现百倍提速。该技术结合软硬件仿真，优化架构与数据路径，提高效率与资源利用率，为量子算法实际应用提供支持，推动量子计算发展。

量子计算量子算法 Grover搜索算法

今日大家都在搜的词：

热文

3 天
7天

AI日报：OpenAI发布GPT-4o mini；腾讯华为联合推AI换衣技术IMAGDressing-v1；豆包浏览器插件上线播客和视频总结功能

OpenAI的开源模型现已在IBM watsonx.ai上提供

奥尔特曼称自己不适合担任CEO OpenAI上市后或卸任

OpenAI CEO：GPT-6将具备个性化记忆记住用户偏好习惯

荐AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发布全新语音模型GPT-Realtime

OpenAI和科大讯飞，瞄准了同一件事

博士水平的GPT-5依然翻车 OpenAI奥特曼：AGI已失去意义

健合旗下Swisse PLUS携手TEDx举办抗衰沙龙，发布NAD+新生瓶系列

GPT-5有望明天发布 OpenAI：免费无限使用

OpenAI正式发布GPT-5模型网友：写作像诗人

微算法科技（NASDAQ:MLGO）突破性FPGA仿真算法技术助力Grover搜索，显著提升量子计算仿真效率

今日大家都在搜的词：

热文

华为MatePad Mini官宣9月4日发布

今日七夕节微信 520 元大额红包限时上线

史上最大Mate！华为智慧屏MateTV将于9月4日发布

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

华为上半年营收4270亿元同比增长3.95%：净利润371.95亿元

AI日报：海螺AI首尾帧功能上线；元石科技发布问小白5；OpenAI发

小米回应升级Beta后手机很烫：系统编译致短期功耗增加

迷你LABUBU开售后卖爆多平台已售罄：电商平台销量破百万

华为MatePad Mini官宣9月4日发布

2025民营企业500强揭晓：京东第一

SpaceX第10次试飞成功马斯克：星舰这次没有空中爆炸

小米澎湃OS3发布会官宣首批Beta版招募机型公布

今日七夕节微信 520 元大额红包限时上线

AI日报：字节视频模型Waver 1.0发布；百度AI搜索APP“梯子AI”

罗永浩播客节目爆火：24小时播放量超2000万晒成绩单求合作

AI日报：字节OmniHuman-1.5发布；PixVerse V5模型上线；腾讯

AI日报：Wan 2.2-S2V模型即将发布；字节跳动内测3D Model Ge

realme真我15000mAh电池容量手机亮相

站长商机