首页 > 业界 > 关键词  > Gemini最新资讯  > 正文

AI日报:谷歌Gemini 1.5 Flash可免费使用;哩布哩布完成数亿元融资;苹果AI新功能将推迟至iOS 18.1版本

2024-07-29 14:59 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、告别P图困扰!Diffree直接通过文字描述就可无痕添加物体

在这个AI技术飞速发展的时代,Diffree作为一项能让设计师和摄影师们欢呼雀跃的AI图像处理技术,通过文本引导实现在图片中无缝添加新物体,降低了图像编辑门槛,让每个人都能成为创造者。

【AiBase提要:】

🎨 Diffree利用文本引导功能,根据简单文字描述在图像中添加新物体,实现无缝融合。

🔍 基于"文本到图像"模型,Diffree通过训练学会生成图像内容,利用"Stable Diffusion"扩散模型预测新物体位置。

✨ Diffree不仅能单次添加物体,还能多次添加并保持背景一致性,在实验证明中表现优越,降低了图像编辑难度。

详情链接:https://top.aibase.com/tool/diffree

2、谷歌推Alchemist技术 实现图片材质精准编辑

谷歌研究团队最近推出了一项突破性技术Alchemist,使用户能够精确编辑图片中物品的材质属性,无需专业技能。这项技术基于经过微调的Text-to-Image生成模型,通过合成数据集和修改模型架构实现精细控制。实验结果显示技术有效改变物品外观,应用前景广阔。尽管存在局限性,但研究团队对其潜力充满信心,有望为图像编辑领域带来革命性变革。

image.png

【AiBase提要:】

✨ 突破性技术Alchemist实现精准编辑图片材质属性,无需专业技能。

🌟 实验结果显示技术有效改变物品外观,应用前景广阔。

💡 研究团队对Alchemist技术的潜力充满信心,有望为图像编辑领域带来革命性变革。

详情链接:https://prafullsharma.net/alchemist/

3、Google Gemini重大更新Gemini1.5Flash可免费使用

Google近日宣布了其AI助手Gemini的一系列重大更新,旨在提高用户体验并扩大其应用范围。更新涵盖了性能提升、新功能引入以及用户群体的扩展。Gemini1.5Flash版本带来了免费版Gemini的全面升级,提升了响应速度、推理能力和图像理解。

image.png

【AiBase提要:】

✨ Gemini1.5Flash版本全面升级,提升性能和功能。

🔗 文件上传功能即将推出,便于处理复杂任务。

🌐 Gemini功能将推广到更多平台和地区,支持更多语言。

4、苹果新AI功能或将推迟至iOS18.1版本发布

苹果公司备受期待的新AI功能 Apple Intelligence 可能无法赶上iOS18的首次发布。尽管用户对于新功能的推迟可能感到失望,但这也展现了苹果注重产品稳定性和完善度的态度。

image.png

【AiBase提要:】

📅 新AI功能可能推迟至iOS18.1版本发布,Beta测试将在本周开始。

📉 升级版Siri等其他AI更新或推迟至2025年才能与用户见面。

📈 苹果公司在整合AI技术到产品中时更注重稳定性和完善度,而非急于赶上发布日期。

5、Llama4启动训练 Meta科学家揭秘Llama3.1训练背后的故事

在播客节目Latent Space中,Meta的科学家Thomas Scialom揭开了Llama3.1的研发秘籍,透露了Llama4的神秘面纱。文章深入探讨了Llama3.1的诞生背后的平衡挑战与技术突破,展示了Meta在AI领域的领先地位和未来展望。

【AiBase提要:】

🔍 Llama3.1的诞生是参数规模、训练时间与硬件限制的完美平衡,挑战GPT-4o,展现了Meta的技术实力。

🔑 在研发过程中重视训练数据总量,选择增加训练token数,通过15T的token海洋实现知识深度与广度的飞跃。

💡 创新地选择合成数据进行后训练,尝试多种模型评估与改进方法,展示了Meta在AI技术上的探索与突破。

6、亚马逊云发布Amazon Q Apps:允许用户构建自己的生成式 AI 应用程序

在亚马逊云科技纽约峰会上,亚马逊云科技发布了Amazon Q Apps服务,为用户提供便捷的生成式AI应用程序构建方式。这项服务将AI技术应用变得更加简单易用,为用户提供了更多机会探索AI应用的可能性。

image.png

【AiBase提要:】

🚀 Amazon Q Apps服务让用户可以根据简单描述创建应用程序,无需技术背景也能使用。

💻 Amazon Q Developer集成到Amazon SageMaker Studio,为机器学习模型开发带来便捷。

🔒 Amazon Bedrock更新了功能,帮助用户轻松访问高性能大语言模型和构建安全、隐私的生成式AI应用程序。

7、AI离人类有多远?一个晾衣问题暴露GPT-4致命缺陷

在Quanta Magazine的播客中,华盛顿大学计算机教授Yejin Choi与主持人Steven Strogatz展开了关于人工智能的深刻对话,探讨AI是否需要具备身体和情感才能发展出与人类相似的常识。虽然大型语言模型(LLM)在语言能力上取得进展,但在理解基本常识方面仍存在挑战。Choi教授的实验室致力于教授AI常识,认为AI应该拥有情商和意识,以更人性化地与人类互动。

【AiBase提要:】

🧠 LLM表现接近人类智能,但训练方式与人类不同

🤖 AI在理解基本常识方面存在挑战,如ChatGPT回答问题出错

📚 Choi教授实验室研究教授AI常识,通过提供声明性知识帮助神经网络学习

详情链接:https://www.quantamagazine.org/will-ai-ever-have-common-sense-20240718/

8、AI图像生成平台LiblibAI完成数亿元融资 创国内行业新高

LiblibAI是国内领先的AI图像生成平台,最近完成了数亿元人民币的三轮融资,创下国内AI图像赛道的最大总融资纪录。公司快速发展得益于明确的产品战略和强大的社区生态,面临的挑战是平衡先进模型发展速度与用户需求。团队成员来自知名高校,具备丰富的互联网和设计行业背景,为公司的持续创新提供支持。

image.png

【AiBase提要:】

🚀 LiblibAI完成数亿元融资,创下国内AI图像赛道最大总融资纪录。

💡 公司快速发展得益于明确的产品战略和强大的社区生态,积累近1000万专业AI图像创作者。

⚖️ 面临的挑战是平衡先进模型发展速度与用户需求,团队强调用AI-native思维设计产品。

9、Hierarchical3D Gaussian:实时渲染大规模高质量3D场景

在虚拟现实和计算机图形学领域,Hierarchical3D Gaussian方法突破了传统瓶颈,实现了高质量3D场景的实时渲染,提升了视觉效果和处理效率。该方法采用分块训练和层级优化技术,具有广泛应用潜力。

image.png

【AiBase提要:】

🌟 突破传统瓶颈: Hierarchical3D Gaussian解决了超大数据集渲染的瓶颈问题,提升了视觉效果和处理效率。

🚀 高效训练与渲染: 采用分块训练和层级优化技术,使得超大规模场景的实时渲染成为现实。

📈 广泛应用潜力: Hierarchical3D Gaussian能处理数万张图像的复杂场景,并适应各种资源条件,展现了显著的实用性。

详情链接:https://top.aibase.com/tool/hierarchical-3d-gaussian

举报

  • 相关推荐
  • AI日报:MiniMax推视频生成模型Hailuo 02;Cursor Pro取消500次请求限制;谷歌发布AI模型 Gemini 2.5 Flash-Lite

    本文汇总了AI领域最新动态:1)Cursor Pro取消500次请求限制;2)稀宇科技推出视频生成模型Hailuo02;3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite;4)科大讯飞星火X1升级版7月上线;5)腾讯元宝推出AI编程模式;6)OpenAI将下架GPT-4.5 API;7)苹果Speech API转录速度超Whisper 55%;8)百度推出数字人互动直播间;9)Meta曾试图高薪挖角OpenAI人才;10)Krea1公测开放,解决"AI感"问题;11)特斯拉Grok车载AI助手即将上线;12)谷歌Gemini新增视频分析功能。

  • 谷歌推出终端AI编程工具Gemini CLI Gemini CLI安装使用教程一览

    近日,谷歌在AI编程领域推出了一款备受瞩目的终端AI编程工具——Gemini CLI。这款免费开源的工具一经发布,便在开发者群体中引发了广泛关注,其强大的功能和免费开源的特性,使其在众多同类产品中脱颖而出,甚至让一些竞争对手如Claude Code相形见绌。 如果您对AI编程工具感兴趣,想要了解更多类似的产品,可以访问 [AIbase - 智能匹配最适合您的AI产品和网站](https://top.aiba

  • 「6月26日AI日报」可灵AI推全球首部AIGC单元剧;谷歌开源AI智能体Gemini CLI

    AI行业近期动态汇总:1)豆包AI编程升级为"应用创作1.0",支持可视化编辑和实时预览,降低开发门槛;2)谷歌开源Gemini CLI工具,集成Gemini 2.5 Pro模型,提供免费编程助手;3)Anthropic推出"Artifacts"功能,用户无需编程即可在Claude中创建AI应用;4)出门问问发布TicNote+硬件产品,内置Shadow AI技术;5)OpenAI将Codex CLI重构为Rust语言以提升性能;6)谷歌发布Imagen4文生图模型,突�

  • AI日报:ChatGPT支持MCP和会议记录功能;Cursor 1.0 版本重磅发布;Midjourney视频功能将在本月上线

    本期AI日报聚焦多项AI领域突破:1)OpenAI为ChatGPT新增企业数据连接和会议记录功能;2)Cursor 1.0发布集成BugBot等开发工具;3)Midjourney即将推出视频生成功能;4)秘塔AI搜索新增PPT导出功能;5)Manus推出文本生成视频工具挑战Sora;6)法国Mistral发布企业级编程助手;7)英伟达推出文档处理专用AI模型;8)腾讯公益引入大模型提升互动体验;9)Firecrawl推出网页抓取API工具;10)Bland AI实现超真实语音克隆;11)报告显示AI训练成本逼近百亿美元;12)开源设计工具Jaaz支持批量图像生成;13)《逆水寒》手游接入AI实现图片动效玩法。

  • 性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent

    月之暗面(Moonshot AI)正式推出其首款Agent产品Kimi-Researcher(深度研究),并已启动小范围灰度测试。 该产品基于端到端自主强化学习(end-to-end agentic RL)技术打造,在HLE测试中表现优异,性能超越Claude 4 Opus、Gemini 2.5 Pro及OpenAI Deep Research,并与Gemini-Pro的Deep Research Agent持平。 Kimi-Researcher 是一款高度自主的智能研究助手,能够独立规划任务流程并交付完整结果。与其他Agent不�

  • AI日报:MiniMax-M1开源;阿里Qwen3升级版适配苹果MLX架构;月之暗面发布新模型Kimi-Dev-72B

    《AI日报》汇总了近期AI领域多项重要进展:1)月之暗面推出开源编程模型Kimi-Dev-72B,在软件工程任务测试中创下新纪录;2)MiniMax开源M1模型,支持超长上下文推理且训练成本低;3)腾讯发布AI音乐模型LeVo,支持音色克隆和分轨生成;4)阿里云Qwen3升级版适配苹果MLX架构;5)豆包推出"AI播客"功能,可将PDF转为对话播客;6)夸克App上线个性化AI家教"夸克老师";7)松下发布多模态大模型OmniFlow,实现文本/图像/音频自由切换;8)TikTok推出三款AI视频创作工具;9)极氪与火山引擎合作,将豆包大模型接入智能座舱系统;10)Meta的Llama3.1模型在文本记忆方面表现突出;11)Grok上线定时追踪X热门话题功能;12)Gemini2.5Pro即将更新Deep Think功能;13)谷歌地图引入AI技术升级导航和个性化推荐功能。

  • AI日报:月之暗面首款自主智能体Kimi-Researcher;MiniMax推音色设计功能;Jaaz发布Lovart AI本地化替代品

    【AI日报】今日AI领域重要动态:1)月之暗面发布Kimi-Researcher智能体,多轮搜索推理能力超越谷歌和OpenAI同类产品;2)MiniMax推出Voice Design功能,支持多语言/音色组合;3)火山引擎上线AI智能域名推荐功能;4)Anthropic强化VSCode集成;5)Google推出Gemini2.5Flash-Lite模型,可实时生成交互界面;6)苹果拟300亿美元收购AI公司Perplexity;7)月之暗面开源Kimi-2506多模态模型;8)Firecrawl将推出开源问答引擎Fireplexity;9)银河通用机器人获宁德时代10亿元融资;10)字节跳动发布DreamActor-H1视频生成系统;11)Google推出开源实时音乐生成模型Magenta RealTime;12)开源AI设计工具Jaaz发布。

  • AI日报:阿里开源3D数字人项目MNN TaoAvatar;MiniMax Agent上线;罗永浩数字人直播再探“AI+IP”带货模式

    本文汇总了AI领域最新动态:1)阿里开源MNN+TaoAvatar技术,实现手机端3D数字人实时交互;2)MiniMax升级AI工具Agent,新增智能图像搜索和多语言支持;3)罗永浩数字人将登陆百度电商直播;4)OpenAI员工套现近30亿美元,软银成最大接盘方;5)ChatGPT推出深度研究和语音模式升级;6)Meta发布V-JEPA2模型,提升机器人环境适应能力;7)AMD与OpenAI合作推出新一代AI芯片;8)Google Gemini集成Imagen4图像生成模型;9)谷歌AI实现10公里级精准天气预报;10)Gartner预测到2028年80%的AI应用开发时间将缩短50%。

  • 「6月25日AI日报」支付宝推 “AI 打赏” 服务;QQ浏览器上线高考志愿报告功能

    AI日报精选:1)Claudia开源图形界面工具发布,简化Claude Code编程体验;2)QQ浏览器推出"AI高考通"志愿填报功能;3)秘塔AI搜索新增"听讲解"语音功能;4)iOS26将升级图乐园AI图像生成功能;5)支付宝推出国内首个"AI打赏"服务;6)小米AI眼镜即将发布,支持物品识别和语音交互;7)奥比中光发布天工Pro机器人,搭载深度相机;8)DeepMind推出新一代机器人AI模型Gemini Robotics;9)字节跳动推出ProtoReasoning框架提升大模型逻辑推理能力;10)Clikka AI革新产品摄影,一键生成专业级效果图。

  • AI日报:MiniMax发布视频智能体Hailuo Agent;昆仑万维开源 Skywork-SWE-32B;B站接入Qwen 3等模型

    本期AI日报聚焦多项AI领域创新:1)MiniMax推出视频Agent工具,支持文本生成高清视频及人脸驱动;2)昆仑万维开源Skywork-SWE-32B模型,提升软件工程任务表现;3)B站接入通义千问模型,推出数据分析智能体InsightAgent;4)ChatGPT深度整合Gmail与日历功能;5)腾讯云发布全链路AI开发平台"AI Builder";6)HeyGen推出UGC广告数字人功能;7)研究显示过度依赖AI或削弱批判性思维。此外还涵盖AI音乐生成、内容检测工具停运等动态,展现AI技术快速发展的多元应用与潜在影响。