首页 > 业界 > 关键词  > 谷歌最新资讯  > 正文

AI日报:谷歌Gemini将发五个新功能;百度推文小言AI数字人社交APP;OpenAI草莓计划揭秘;亚马逊上线Rufus AI购物助手

2024-07-15 15:10 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、谷歌Gemini即将发布五个新功能:Imagen3、定制GPT等

谷歌即将推出Gemini产品系列的新功能,包括Imagen3、Gemini定制GPT等,备受期待。这些新功能将为用户带来更加个性化和便捷的体验,展示了谷歌在人工智能领域的持续创新和发展。

image.png

【AiBase提要:】

🔍 谷歌Gemini即将发布新功能,包括Imagen3、Gemini定制GPT等,为用户带来更加个性化和便捷的体验。

🔍 预计Gemini还将推出个性化回应、预定提示、录音和Google Photos集成等功能,进一步丰富用户体验。

🔍 谷歌正在加紧招募iOS版Gemini的Beta测试人员,iOS更新或将很快面世,展示了Gemini持续发展的势头。

2、百度推出文小言AI数字人社交APP

百度最近推出了名为"文小言"的AI数字人社交APP,利用先进的文心大模型技术,用户可以与仿真的数字人进行实时沟通、互动,建立情感联系,带来更真实、自然的交互体验。用户可以在应用中找到喜欢的数字人聊天对象,了解其信息并进行多种方式的互动。

image.png

【AiBase提要:】

🤖 用户可以与AI虚拟角色实时沟通、互动,建立情感联系,提升交互体验。

📱 每个AI数字人提供独特的聊天服务,可成为用户的百科全书、生活小助手,甚至心灵导师。

💬 数字人在回复时展示语音、文字,并通过肢体语言增强真实感。

3、OpenAI草莓计划揭秘:Q*推理能力大爆发,未来触手可及!

我对OpenAI草莓计划感到兴奋和好奇。这个项目以草莓的身份重新登场,据说能让AI提前规划任务、自主上网搜集信息,甚至进行深入研究。草莓模型的设计理念颇具创新,让AI具备前所未有的推理能力。OpenAI的秘密研发过程和高度保密让人更加期待未来的成果。

image.png

【AiBase提要:】

🍓 草莓计划能让AI提前规划任务、自主上网搜集信息,进行深入研究。

🔍 STaR技术通过迭代使用少量推理示例和大量无推理数据,让AI自我提升。

🚀 OpenAI希望草莓能够执行长时间任务,提升AI模型的推理能力。

论文地址:https://arxiv.org/pdf/2203.14465

4、Magic Insert:一键拖放即可让人物完美融入新背景

在数字创作的神奇世界里,Magic Insert技术的魅力在于可以轻松将主题从一张图片拖放到另一张风格迥异的背景图中,实现完美融合。这项技术结合了风格感知个性化和对象插入,展现出灵活性和多样性,为图像生成领域带来新挑战。

【AiBase提要:】

🔮 Magic Insert技术结合了风格感知个性化和对象插入,实现主题在不同背景中的完美融合。

🌟 技术亮点包括使用LoRA和文本标记微调模型、Bootstrapped Domain Adaptation技术实现真实对象插入,以及灵活性选择风格化程度和主题细节忠实度。

💡 研究人员展示了Magic Insert在多种风格主题和背景上的实验结果,证明其有效性和用户偏好。

详情链接:https://magicinsert.github.io/demo.html

5、快看漫画:正在训练二次元领域垂直大模型

快看漫画正致力于探索基于开源大模型进行微调,训练二次元领域的垂直大模型,以提升作品搜索转化率和活力,推动漫画行业的创新发展。通过应用大语言模型(LLM)和检索增强生成技术(RAG),快看漫画构建了内部知识库,采用微调大模型+RAG增强策略,提高了搜索回答响应速度和排序指标。

【AiBase提要:】

🔍 利用大模型进行微调,提升作品搜索转化率和活力

🤖 应用大语言模型(LLM)和检索增强生成技术(RAG),构建内部知识库

🎨 推动漫画行业创新发展,提升用户体验和内容产能

6、个性化服务升级!亚马逊悄悄上线Rufus AI购物助手

亚马逊最新推出的Rufus AI购物助手为用户带来个性化购物体验,通过智能问答服务帮助用户节省时间、做出明智选择,展现出色的购物问题解决能力。

image.png

【AiBase提要:】

🛒 Rufus AI购物助手上线,提供个性化购物体验,节省用户时间。

🤖 智能问答服务,详尽回答用户关于产品的各种问题,包括推荐、比较、订单追踪。

🌟 Rufus展现潜力,有望成为亚马逊智能购物领域的王牌,引领零售创新。

7、谷歌 Eureka AI模型提前曝光 卓越的文本写作能力引关注

谷歌即将推出名为“Eureka”的新型AI模型,备受关注。Eureka在自然语言生成方面表现出色,被认为是谷歌在AI领域的重大突破。预计在7月15日将发布初步公告,7月18日有望正式发布。除了Eureka,谷歌还在开发其他新工具,如Google Gemini,引起行业极大兴趣。

【AiBase提要:】

✨ Eureka模型在自然语言生成方面表现出色,超越其他模型。

🔑 Eureka展示了改进的指令遵循能力,对用户定义参数遵守异常。

💡 Eureka在广泛的AI驱动任务中具有提高性能的潜力。

8、3D视觉重建技术DUSt3R:轻松基于2D图片生成3D模型

DUSt3R是一项创新技术,能在没有相机信息的情况下创建3D模型,极大地简化了从2D图片到3D模型的转换过程。它采用智能的处理方式,提供高效的重建任务处理,表现卓越,在多种视觉任务中取得最佳成绩。

image.png

【AiBase提要:】

🌟 创新技术: DUSt3R能在没有相机信息的情况下创建3D模型,简化了复杂的相机参数需求。

📷 高效处理: DUSt3R统一处理多张图片的重建任务,智能高效。

🚀 卓越表现: DUSt3R在多种视觉任务中表现出色,取得最佳成绩。

详情链接:https://top.aibase.com/tool/dust3r

9、OpenDiLoCo:分布式AI训练的开源解决方案,低通信成本,全球覆盖!

在AI大爆炸时代,OpenDiLoCo开源框架实现了DiLoCo训练方法,通过低通信成本实现全球分布式训练,保持高计算利用率。

image.png

【AiBase提要:】

🌐 全球分布式训练: OpenDiLoCo实现了全球范围内的模型训练,跨越两大洲、三个国家,保持高计算利用率。

⚙️ 动态资源管理: 训练过程中可动态调整计算资源,新设备可随时加入或退出训练。

🔗 容错与点对点通信: 使用Hivemind库实现容错训练,点对点通信方式进行训练,提高效率和稳定性。

详情链接:https://arxiv.org/pdf/2407.07852

10、微软MIT开创推理新纪元:6700万参数模型,与GPT-4一较高下

在这篇论文中,研究人员介绍了一种突破性的机器学习训练策略,通过改进逻辑推理能力和利用因果关系构建训练集,成功训练出了一个小型Transformer模型,与GPT-4相媲美。这项研究为AI学习因果推理打开了新的可能性,让AI能够更好地理解和解释世界。

image.png

【AiBase提要:】

🔍 独特的训练方法: 采用新颖训练方法,提升大型模型的逻辑推理能力。

🧠 逻辑推理的改进: 显著提升模型的逻辑推理能力,解决了先前挑战。

🔗 利用因果关系构建训练集: 利用因果关系模型构建训练数据集,帮助模型理解数据背后的因果逻辑。

详情链接:https://arxiv.org/pdf/2407.07612v1

11、美国金融监管机构敦促调查OpenAI的保密协议问题

本文报道了一群举报人揭露OpenAI公司的保密协议存在问题,要求美国金融监管机构展开调查。举报人指称OpenAI可能限制员工的举报权利,引发公众担忧。格拉斯利表示OpenAI的政策限制了举报人的权利,呼吁SEC对其不当行为进行调查。

【AiBase提要:】

⭐️ 举报人揭露OpenAI公司保密协议问题,要求SEC展开调查

⭐️ OpenAI被指违反SEC规定,剥夺员工举报权利

⭐️ 根据举报信,OpenAI被要求生产所有保密协议,避免侵犯员工权利,举报人要求SEC对OpenAI的不当行为进行调查

举报

  • 相关推荐
  • 「6月26日AI日报」可灵AI推全球首部AIGC单元剧;谷歌开源AI智能体Gemini CLI

    AI行业近期动态汇总:1)豆包AI编程升级为"应用创作1.0",支持可视化编辑和实时预览,降低开发门槛;2)谷歌开源Gemini CLI工具,集成Gemini 2.5 Pro模型,提供免费编程助手;3)Anthropic推出"Artifacts"功能,用户无需编程即可在Claude中创建AI应用;4)出门问问发布TicNote+硬件产品,内置Shadow AI技术;5)OpenAI将Codex CLI重构为Rust语言以提升性能;6)谷歌发布Imagen4文生图模型,突�

  • 性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent

    月之暗面(Moonshot AI)正式推出其首款Agent产品Kimi-Researcher(深度研究),并已启动小范围灰度测试。 该产品基于端到端自主强化学习(end-to-end agentic RL)技术打造,在HLE测试中表现优异,性能超越Claude 4 Opus、Gemini 2.5 Pro及OpenAI Deep Research,并与Gemini-Pro的Deep Research Agent持平。 Kimi-Researcher 是一款高度自主的智能研究助手,能够独立规划任务流程并交付完整结果。与其他Agent不�

  • AI日报:阿里开源3D数字人项目MNN TaoAvatar;MiniMax Agent上线;罗永浩数字人直播再探“AI+IP”带货模式

    本文汇总了AI领域最新动态:1)阿里开源MNN+TaoAvatar技术,实现手机端3D数字人实时交互;2)MiniMax升级AI工具Agent,新增智能图像搜索和多语言支持;3)罗永浩数字人将登陆百度电商直播;4)OpenAI员工套现近30亿美元,软银成最大接盘方;5)ChatGPT推出深度研究和语音模式升级;6)Meta发布V-JEPA2模型,提升机器人环境适应能力;7)AMD与OpenAI合作推出新一代AI芯片;8)Google Gemini集成Imagen4图像生成模型;9)谷歌AI实现10公里级精准天气预报;10)Gartner预测到2028年80%的AI应用开发时间将缩短50%。

  • 谷歌推出终端AI编程工具Gemini CLI Gemini CLI安装使用教程一览

    近日,谷歌在AI编程领域推出了一款备受瞩目的终端AI编程工具——Gemini CLI。这款免费开源的工具一经发布,便在开发者群体中引发了广泛关注,其强大的功能和免费开源的特性,使其在众多同类产品中脱颖而出,甚至让一些竞争对手如Claude Code相形见绌。 如果您对AI编程工具感兴趣,想要了解更多类似的产品,可以访问 [AIbase - 智能匹配最适合您的AI产品和网站](https://top.aiba

  • AI日报:MiniMax推视频生成模型Hailuo 02;Cursor Pro取消500次请求限制;谷歌发布AI模型 Gemini 2.5 Flash-Lite

    本文汇总了AI领域最新动态:1)Cursor Pro取消500次请求限制;2)稀宇科技推出视频生成模型Hailuo02;3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite;4)科大讯飞星火X1升级版7月上线;5)腾讯元宝推出AI编程模式;6)OpenAI将下架GPT-4.5 API;7)苹果Speech API转录速度超Whisper 55%;8)百度推出数字人互动直播间;9)Meta曾试图高薪挖角OpenAI人才;10)Krea1公测开放,解决"AI感"问题;11)特斯拉Grok车载AI助手即将上线;12)谷歌Gemini新增视频分析功能。

  • AI日报:美团No Code平台免费开放;豆包App升级“一句话P图”功能;苹果Xcode 26内置ChatGPT等AI功能

    本文介绍了AI领域多项重要进展:1)美团推出No Code平台和1680个AI应用;2)豆包App升级"一句话P图"功能;3)苹果发布内置ChatGPT的Xcode26开发工具;4)iOS26新增视觉智能功能;5)讯飞星火X1升级版即将发布;6)比亚迪接入阿里通义大模型;7)DeepSeek支持本地工具调用;8)开源框架Rowboat支持快速构建智能助手;9)X平台整合Grok AI优化内容推荐;10)港科大开发进化搜索技术提升小模型图像生成能力;11)硅基流动完成数亿元融资;12)港大与英伟达合作开发新型视觉注意力机制。这些创新展示了AI技术在各领域的快速发展和应用突破。

  • AI日报:Midjourney重磅推出视频生成模型V1;OpenAI将在今年夏季发布GPT-5;谷歌推Search Live语音搜索功能

    本期AI日报聚焦多项AI领域重要进展:1) Midjourney推出首款视频生成模型V1,支持21秒视频生成;2) OpenAI CEO确认GPT-5将于今夏发布;3) Google上线语音对话搜索功能Search Live;4) OpenAI开源客户服务代理框架;5) MiniMax发布智能代理Agent;6) 恶意工具WormGPT出现新变种;7) OpenAI推出企业版ChatGPT折扣;8) DeepSite V2支持3D网页动画生成;9) AI工具可秒变PPT;10) 比亚迪与字节跳动合作开发动力电池技术;11) 马斯克否认xAI巨额亏损传闻。

  • AI日报:豆包大模型1.6发布;OpenAI推o3-pro模型、o3价格暴降80%;Figma官方MCP重磅上线

    【AI日报】今日AI领域重要动态:1)火山引擎发布豆包大模型1.6和视频生成模型Seedance1.0pro,性能显著提升;2)OpenAI推出o3-pro模型,专注可靠性但响应较慢;3)Figma推出Dev Mode MCP服务,实现设计到代码一键转换;4)Krea AI发布图像生成模型Krea1,解决传统AI绘图问题;5)火山引擎豆包日调用量突破16.4万亿次;6)法国Mistral发布推理模型Magistral;7)苹果系统整合ChatGPT图像生成功能;8)OpenAI大幅下调o3价格80%并推出o3-pro;9)Hugging Face开源榜单显示中国团队Qwen与DeepSeek进入全球前15;10)阿里开源MaskSearch框架,提升AI解决复杂问题能力。

  • 腾讯AI数字人AvaMo落地商用,百度/微美全息加速虚拟人生态闭环构建

    腾讯与Offshore公司达成战略合作,推出面向日本市场的AI数字人视频生成服务"AvaMo"。该服务基于腾讯云智能数字人技术,仅需1-3分钟视频样本即可创建高保真数字人,支持实时交互,能将30秒视频制作时间从传统的12小时压缩至15分钟。同时,百度也在数字人领域发力,展示手语数字人、直播数字人等应用案例。我国数字人产业生态日益完善,相关企业已达114.4万家。微美全息等企业通过整合AI、计算机视觉等技术,显著降低商业化门槛,推动数字人在社交、娱乐等场景的个性化应用。随着生成式AI技术发展,数字人制作效率和多样性显著提升,用户可打造更具个性化的数字产品。

  • Soul App:以AI为驱动,构建多元社交生态

    Soul App是中国首个基于虚拟形象进行社交互动的平台,致力于打造温暖多元的社交空间。平台通过兴趣图谱建立关系,采用游戏化设计,主张不看脸的灵魂社交。近年来,Soul持续创新AI技术应用,推出自研语言大模型Soul X和语音生成模型,实现更真实的交互体验。2024年升级为多模态端到端大模型,支持文字对话、语音通话等功能。同时推出"数字分身"等创新功能,帮助用户高效社交。平台还通过主题群聊派对、瞬间广场等多元场景满足年轻人社交需求,并积极履行社会责任,打造健康文明的社交环境。