AI日报：谷歌Gemini将发五个新功能；百度推文小言AI数字人社交APP；OpenAI草莓计划揭秘；亚马逊上线Rufus AI购物助手

2024-07-15 15:10 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、谷歌Gemini即将发布五个新功能：Imagen3、定制GPT等

谷歌即将推出Gemini产品系列的新功能，包括Imagen3、Gemini定制GPT等，备受期待。这些新功能将为用户带来更加个性化和便捷的体验，展示了谷歌在人工智能领域的持续创新和发展。

【AiBase提要:】
🔍 谷歌Gemini即将发布新功能，包括Imagen3、Gemini定制GPT等，为用户带来更加个性化和便捷的体验。
🔍 预计Gemini还将推出个性化回应、预定提示、录音和Google Photos集成等功能，进一步丰富用户体验。
🔍 谷歌正在加紧招募iOS版Gemini的Beta测试人员，iOS更新或将很快面世，展示了Gemini持续发展的势头。

2、百度推出文小言AI数字人社交APP

百度最近推出了名为"文小言"的AI数字人社交APP，利用先进的文心大模型技术，用户可以与仿真的数字人进行实时沟通、互动，建立情感联系，带来更真实、自然的交互体验。用户可以在应用中找到喜欢的数字人聊天对象，了解其信息并进行多种方式的互动。

【AiBase提要:】
🤖 用户可以与AI虚拟角色实时沟通、互动，建立情感联系，提升交互体验。
📱 每个AI数字人提供独特的聊天服务，可成为用户的百科全书、生活小助手，甚至心灵导师。
💬 数字人在回复时展示语音、文字，并通过肢体语言增强真实感。

3、OpenAI草莓计划揭秘：Q*推理能力大爆发，未来触手可及！

我对OpenAI草莓计划感到兴奋和好奇。这个项目以草莓的身份重新登场，据说能让AI提前规划任务、自主上网搜集信息，甚至进行深入研究。草莓模型的设计理念颇具创新，让AI具备前所未有的推理能力。OpenAI的秘密研发过程和高度保密让人更加期待未来的成果。

【AiBase提要:】
🍓 草莓计划能让AI提前规划任务、自主上网搜集信息，进行深入研究。
🔍 STaR技术通过迭代使用少量推理示例和大量无推理数据，让AI自我提升。
🚀 OpenAI希望草莓能够执行长时间任务，提升AI模型的推理能力。
论文地址:https://arxiv.org/pdf/2203.14465

4、Magic Insert：一键拖放即可让人物完美融入新背景

在数字创作的神奇世界里，Magic Insert技术的魅力在于可以轻松将主题从一张图片拖放到另一张风格迥异的背景图中，实现完美融合。这项技术结合了风格感知个性化和对象插入，展现出灵活性和多样性，为图像生成领域带来新挑战。

【AiBase提要:】
🔮 Magic Insert技术结合了风格感知个性化和对象插入，实现主题在不同背景中的完美融合。
🌟 技术亮点包括使用LoRA和文本标记微调模型、Bootstrapped Domain Adaptation技术实现真实对象插入，以及灵活性选择风格化程度和主题细节忠实度。
💡 研究人员展示了Magic Insert在多种风格主题和背景上的实验结果，证明其有效性和用户偏好。
详情链接:https://magicinsert.github.io/demo.html

5、快看漫画：正在训练二次元领域垂直大模型

快看漫画正致力于探索基于开源大模型进行微调，训练二次元领域的垂直大模型，以提升作品搜索转化率和活力，推动漫画行业的创新发展。通过应用大语言模型（LLM）和检索增强生成技术(RAG)，快看漫画构建了内部知识库，采用微调大模型+RAG增强策略，提高了搜索回答响应速度和排序指标。

【AiBase提要:】
🔍 利用大模型进行微调，提升作品搜索转化率和活力
🤖 应用大语言模型（LLM）和检索增强生成技术(RAG)，构建内部知识库
🎨 推动漫画行业创新发展，提升用户体验和内容产能

6、个性化服务升级！亚马逊悄悄上线Rufus AI购物助手

亚马逊最新推出的Rufus AI购物助手为用户带来个性化购物体验，通过智能问答服务帮助用户节省时间、做出明智选择，展现出色的购物问题解决能力。

【AiBase提要:】
🛒 Rufus AI购物助手上线，提供个性化购物体验，节省用户时间。
🤖 智能问答服务，详尽回答用户关于产品的各种问题，包括推荐、比较、订单追踪。
🌟 Rufus展现潜力，有望成为亚马逊智能购物领域的王牌，引领零售创新。

7、谷歌 Eureka AI模型提前曝光卓越的文本写作能力引关注

谷歌即将推出名为“Eureka”的新型AI模型，备受关注。Eureka在自然语言生成方面表现出色，被认为是谷歌在AI领域的重大突破。预计在7月15日将发布初步公告，7月18日有望正式发布。除了Eureka，谷歌还在开发其他新工具，如Google Gemini，引起行业极大兴趣。

【AiBase提要:】
✨ Eureka模型在自然语言生成方面表现出色，超越其他模型。
🔑 Eureka展示了改进的指令遵循能力，对用户定义参数遵守异常。
💡 Eureka在广泛的AI驱动任务中具有提高性能的潜力。

8、3D视觉重建技术DUSt3R:轻松基于2D图片生成3D模型

DUSt3R是一项创新技术，能在没有相机信息的情况下创建3D模型，极大地简化了从2D图片到3D模型的转换过程。它采用智能的处理方式，提供高效的重建任务处理，表现卓越，在多种视觉任务中取得最佳成绩。

【AiBase提要:】
🌟 创新技术: DUSt3R能在没有相机信息的情况下创建3D模型，简化了复杂的相机参数需求。
📷 高效处理: DUSt3R统一处理多张图片的重建任务，智能高效。
🚀 卓越表现: DUSt3R在多种视觉任务中表现出色，取得最佳成绩。
详情链接:https://top.aibase.com/tool/dust3r

9、OpenDiLoCo：分布式AI训练的开源解决方案，低通信成本，全球覆盖！

在AI大爆炸时代，OpenDiLoCo开源框架实现了DiLoCo训练方法，通过低通信成本实现全球分布式训练，保持高计算利用率。

【AiBase提要:】
🌐 全球分布式训练: OpenDiLoCo实现了全球范围内的模型训练，跨越两大洲、三个国家，保持高计算利用率。
⚙️ 动态资源管理: 训练过程中可动态调整计算资源，新设备可随时加入或退出训练。
🔗 容错与点对点通信: 使用Hivemind库实现容错训练，点对点通信方式进行训练，提高效率和稳定性。
详情链接:https://arxiv.org/pdf/2407.07852

10、微软MIT开创推理新纪元：6700万参数模型，与GPT-4一较高下

在这篇论文中，研究人员介绍了一种突破性的机器学习训练策略，通过改进逻辑推理能力和利用因果关系构建训练集，成功训练出了一个小型Transformer模型，与GPT-4相媲美。这项研究为AI学习因果推理打开了新的可能性，让AI能够更好地理解和解释世界。

【AiBase提要:】
🔍 独特的训练方法: 采用新颖训练方法，提升大型模型的逻辑推理能力。
🧠 逻辑推理的改进: 显著提升模型的逻辑推理能力，解决了先前挑战。
🔗 利用因果关系构建训练集: 利用因果关系模型构建训练数据集，帮助模型理解数据背后的因果逻辑。
详情链接:https://arxiv.org/pdf/2407.07612v1

11、美国金融监管机构敦促调查OpenAI的保密协议问题

本文报道了一群举报人揭露OpenAI公司的保密协议存在问题，要求美国金融监管机构展开调查。举报人指称OpenAI可能限制员工的举报权利，引发公众担忧。格拉斯利表示OpenAI的政策限制了举报人的权利，呼吁SEC对其不当行为进行调查。

【AiBase提要:】
⭐️ 举报人揭露OpenAI公司保密协议问题，要求SEC展开调查
⭐️ OpenAI被指违反SEC规定，剥夺员工举报权利
⭐️ 根据举报信，OpenAI被要求生产所有保密协议，避免侵犯员工权利，举报人要求SEC对OpenAI的不当行为进行调查

（举报）

相关推荐

关键词：

谷歌

荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

视觉中国与多家AI公司合作开发可商用视觉大模型，已获阿里、微软等订单。OpenAI因不当内容暂停Sora生成马丁·路德·金形象视频，引发AI伦理讨论。DeepSeek在加密货币交易实验中表现领先。WhatsApp将禁止第三方通用AI聊天机器人，仅保留Meta AI。宇树科技推出仿人机器人Unitree H2，具备拟人化设计。谷歌为Gemini集成地图数据工具，可访问25亿地点实时信息。Opera推出集成三款AI助手的Neon浏览器，但用户体验存在困惑。Facebook在美加推出AI照片编辑建议功能，可分析手机未分享照片。

AI 视觉大模型版权合规
荐AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；Sora2免费用户可生成15秒视频

本期AI日报聚焦多项技术更新：谷歌Veo 3.1视频模型新增音频生成与精细化编辑功能；通义千问推出记忆功能提升对话连贯性；Sora2免费用户可生成15秒视频，Pro版支持25秒；百度文心助手升级8种创作模式；谷歌Flow工具增强视频光影编辑与音频合成能力；Anthropic发布高性价比Claude Haiku 4.5；北京查处首例AI虚假广告案，涉伪造主持人带货；阿里推出响应仅200毫秒的编程工具Qoder CLI。

AI 视频生成谷歌
荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

谷歌Gemini 3.0 Pro开始小范围推送，强化推理与多模态能力；百度发布全球领先文档解析模型PaddleOCR-VL，重塑OCR技术格局；爱诗科技完成亿元B+轮融资，ARR突破4000万美元；Anthropic推出Claude“skills”功能，提升AI工作效率；Pinterest推出AI内容限制工具，用户可自定义减少生成式图像；开源多模态模型LLaVA-OneVision-1.5超越Qwen2.5-VL；OpenAI视频生成模型Sora 2上线微软Azure平台，进入公共预览阶段；旅行搜索引擎Kayak推出“AI模式”，简化旅行规划与预订流程。

谷歌Gemini AI日报 DeepMind
荐AI日报：快手KAT-Dev代码模型开源登顶；全球首款IP66防护人形机器人DR02发布；谷歌Chrome即将引入Gemini新功能

快手开源72B代码模型KAT-Dev在SWE-Bench测试中准确率达74.6%，创国产AI编程里程碑；杭州云深处推出全球首款IP66防护全候作业机器人DR02；谷歌Chrome将集成Gemini引发隐私担忧；学者指控苹果使用盗版书籍训练AI，版权争议再起；Liquid AI发布高效稀疏激活模型LFM2-8B-A1B；苹果拟收购Prompt AI布局智能家居视觉技术；AI伴侣应用泄露4300万条用户隐私对话；西湖大学DeepScientist显著提升科研效率。

AI日报快手72B代码模型 KAT-Dev
荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

本期AI日报聚焦多领域技术突破：阿里云推出全球首个全模态AI模型Qwen3-Omni，支持文本、图像、音频和视频统一处理；百度发布多尺寸视觉理解模型Qianfan-VL，优化企业级应用。苹果扩展Image Playground平台，引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议，推动AI支付安全创新。钉钉上线AI表格助手，支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型，性能显著提升。Kimi推出Agent会员服务，智元机器人开源全球首个通用具身智能模型GO-1，降低技术门槛促进行业创新。

AI模型全模态阿里云
谷歌计划将谷歌云作为单独的报告细分市场

Google首席执行官Sundar Pichai周四宣布，从下个季度开始，该公司将在其收益报告中将Google Cloud作为一个单独的报告部门进行细分,其中将包含有关Google Cloud投资，营业收入和2018、2019和2020年的年度数据。这表明，谷歌看到了云业务的一个重大机遇，将可以推动公司的总体增长。谷歌云被广泛认为是云计算领域的第三大玩家，仅次于领先的亚马逊网络服务和第二大微软Azure。从下个季度开始，谷歌母公司Alphabet计划将Google Cloud

谷歌
谷歌

谷歌公司(Google Inc.)成立于 1998 年 9 月 4 日，由拉里·佩奇和谢尔盖·布林共同创建，被公认为全球最大的搜索引擎公司。

谷歌搜索谷歌广告 Google搜索
谷歌将补贴员工

昨日，谷歌母公司Alphabet的CEO桑德尔-皮查伊宣布将为员工提供至多 1000 美元的补贴，帮助他们支付购买在家办公设备的费用。此外，皮查伊还表示，从 7 月 6 日开始允许员工轮换上班，并将到岗率控制在10%，到 9 月份提高至30%左右。

谷歌安卓皮查伊
谷歌6月前不复工谷歌为什么在6月前不复工？

美国科技公司谷歌的CEO桑达尔·皮查伊在本周接受媒体采访时谈到了员工复工计划，他透露已经通知员工在6月1日之前不会回到办公室上班，将继续保持居家办公的要求。

谷歌谷歌复工谷歌6月前不复工
谷歌的“野心”哪去了？

周三，一年一度的谷歌开发者大会拉开帷幕，谷歌表现出了更加低调的一面...谷歌曾经拥有一批“登月项目”，试图解决全球性重大问题，包括无人驾驶汽车、高空互联网气球、智慧城市、送货无人机等...周三的大会缺少“惊叹”时刻...谷歌在演示如何继续改进其搜索技术时展示了一个名为“多搜索”的功能，用户可以对一个装满巧克力的架子拍照，然后从照片中找到评价最好而且没有坚果的黑巧克力棒...在花费了一个小时宣布其他消息后，谷歌提出了广告话题，强调了一个名为“我的广告中心”的新功能...从这次开发者大会来看，谷歌也不像以前那么高调了......

平板电脑 Pixel智能手机智能手表

今日大家都在搜的词：

热文

3 天
7天

AI日报：谷歌Gemini将发五个新功能；百度推文小言AI数字人社交APP；OpenAI草莓计划揭秘；亚马逊上线Rufus AI购物助手

荐AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停Sora生成已故名人；谷歌推出Gemini地图数据集成工具

荐AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；Sora2免费用户可生成15秒视频

荐AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮融资；百度发布文档解析模型 PaddleOCR-VL

荐AI日报：快手KAT-Dev代码模型开源登顶；全球首款IP66防护人形机器人DR02发布；谷歌Chrome即将引入Gemini新功能

荐AI日报：阿里推多模态模型Qwen3-Omni；谷歌推出AP2协议；百度推出Qianfan-VL 模型

谷歌计划将谷歌云作为单独的报告细分市场

谷歌

谷歌将补贴员工

谷歌6月前不复工谷歌为什么在6月前不复工？

谷歌的“野心”哪去了？

今日大家都在搜的词：

热文

华为FreeClip 2耳夹耳机正式开售：售价1299元搭载NPU AI处理器

天猫双11今晚8点开卖品类券每人可领万元

REDMI K90 Pro Max本周四发布卢伟冰：给4K档一点小小的震撼

REDMI K90 Pro Max搭载小米17同款光影猎人950超大底主摄

火车免费坐？12306今起又上新功能：积分可兑换车票

AI日报：视觉中国与多家大模型公司达成合作；OpenAI紧急暂停So

苹果天猫双11今晚开卖 iPhone17pro天猫官旗首次降价

真我GT8官宣搭载Pro同款理光GR影像系统

REDMI K90 Pro Max搭载6.9英寸超级像素屏幕

REDMI K90 Pro Max搭载第五代骁龙8至尊版+独显芯片D2

微信回应人去世了朋友圈会消失吗：长时间不使用账号已不再回收

AI日报：阿里发布紧凑型Qwen3-VL模型；科大讯飞AI翻译耳机全球

AI日报：谷歌发布Veo 3.1；通义千问推Qwen Chat Memory功能；S

小米推出短剧App围观短剧：主打无广告免费看

AI日报：谷歌Gemini 3.0 Pro小范围推送；爱诗科技完成1亿元B+轮

王腾首次回应下一步计划：称在考虑些创业项目

REDMI K90 Pro Max外观公布：后置BOSE认证扬声器

卢伟冰官宣REDMI K90系列下周发布：不排斥和小米竞争

苹果华为OPPO将推出eSIM手机 OPPO Find X9系列已确认将支持

微信回应出朋友圈访客功能：可能会让用户产生焦虑重申不会推出

站长商机