首页 > 业界 > 关键词  > Gemini最新资讯  > 正文

AI日报:谷歌Gemini 1.5 Flash可免费使用;哩布哩布完成数亿元融资;苹果AI新功能将推迟至iOS 18.1版本

2024-07-29 14:59 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、告别P图困扰!Diffree直接通过文字描述就可无痕添加物体

在这个AI技术飞速发展的时代,Diffree作为一项能让设计师和摄影师们欢呼雀跃的AI图像处理技术,通过文本引导实现在图片中无缝添加新物体,降低了图像编辑门槛,让每个人都能成为创造者。

【AiBase提要:】

🎨 Diffree利用文本引导功能,根据简单文字描述在图像中添加新物体,实现无缝融合。

🔍 基于"文本到图像"模型,Diffree通过训练学会生成图像内容,利用"Stable Diffusion"扩散模型预测新物体位置。

✨ Diffree不仅能单次添加物体,还能多次添加并保持背景一致性,在实验证明中表现优越,降低了图像编辑难度。

详情链接:https://top.aibase.com/tool/diffree

2、谷歌推Alchemist技术 实现图片材质精准编辑

谷歌研究团队最近推出了一项突破性技术Alchemist,使用户能够精确编辑图片中物品的材质属性,无需专业技能。这项技术基于经过微调的Text-to-Image生成模型,通过合成数据集和修改模型架构实现精细控制。实验结果显示技术有效改变物品外观,应用前景广阔。尽管存在局限性,但研究团队对其潜力充满信心,有望为图像编辑领域带来革命性变革。

image.png

【AiBase提要:】

✨ 突破性技术Alchemist实现精准编辑图片材质属性,无需专业技能。

🌟 实验结果显示技术有效改变物品外观,应用前景广阔。

💡 研究团队对Alchemist技术的潜力充满信心,有望为图像编辑领域带来革命性变革。

详情链接:https://prafullsharma.net/alchemist/

3、Google Gemini重大更新Gemini1.5Flash可免费使用

Google近日宣布了其AI助手Gemini的一系列重大更新,旨在提高用户体验并扩大其应用范围。更新涵盖了性能提升、新功能引入以及用户群体的扩展。Gemini1.5Flash版本带来了免费版Gemini的全面升级,提升了响应速度、推理能力和图像理解。

image.png

【AiBase提要:】

✨ Gemini1.5Flash版本全面升级,提升性能和功能。

🔗 文件上传功能即将推出,便于处理复杂任务。

🌐 Gemini功能将推广到更多平台和地区,支持更多语言。

4、苹果新AI功能或将推迟至iOS18.1版本发布

苹果公司备受期待的新AI功能 Apple Intelligence 可能无法赶上iOS18的首次发布。尽管用户对于新功能的推迟可能感到失望,但这也展现了苹果注重产品稳定性和完善度的态度。

image.png

【AiBase提要:】

📅 新AI功能可能推迟至iOS18.1版本发布,Beta测试将在本周开始。

📉 升级版Siri等其他AI更新或推迟至2025年才能与用户见面。

📈 苹果公司在整合AI技术到产品中时更注重稳定性和完善度,而非急于赶上发布日期。

5、Llama4启动训练 Meta科学家揭秘Llama3.1训练背后的故事

在播客节目Latent Space中,Meta的科学家Thomas Scialom揭开了Llama3.1的研发秘籍,透露了Llama4的神秘面纱。文章深入探讨了Llama3.1的诞生背后的平衡挑战与技术突破,展示了Meta在AI领域的领先地位和未来展望。

【AiBase提要:】

🔍 Llama3.1的诞生是参数规模、训练时间与硬件限制的完美平衡,挑战GPT-4o,展现了Meta的技术实力。

🔑 在研发过程中重视训练数据总量,选择增加训练token数,通过15T的token海洋实现知识深度与广度的飞跃。

💡 创新地选择合成数据进行后训练,尝试多种模型评估与改进方法,展示了Meta在AI技术上的探索与突破。

6、亚马逊云发布Amazon Q Apps:允许用户构建自己的生成式 AI 应用程序

在亚马逊云科技纽约峰会上,亚马逊云科技发布了Amazon Q Apps服务,为用户提供便捷的生成式AI应用程序构建方式。这项服务将AI技术应用变得更加简单易用,为用户提供了更多机会探索AI应用的可能性。

image.png

【AiBase提要:】

🚀 Amazon Q Apps服务让用户可以根据简单描述创建应用程序,无需技术背景也能使用。

💻 Amazon Q Developer集成到Amazon SageMaker Studio,为机器学习模型开发带来便捷。

🔒 Amazon Bedrock更新了功能,帮助用户轻松访问高性能大语言模型和构建安全、隐私的生成式AI应用程序。

7、AI离人类有多远?一个晾衣问题暴露GPT-4致命缺陷

在Quanta Magazine的播客中,华盛顿大学计算机教授Yejin Choi与主持人Steven Strogatz展开了关于人工智能的深刻对话,探讨AI是否需要具备身体和情感才能发展出与人类相似的常识。虽然大型语言模型(LLM)在语言能力上取得进展,但在理解基本常识方面仍存在挑战。Choi教授的实验室致力于教授AI常识,认为AI应该拥有情商和意识,以更人性化地与人类互动。

【AiBase提要:】

🧠 LLM表现接近人类智能,但训练方式与人类不同

🤖 AI在理解基本常识方面存在挑战,如ChatGPT回答问题出错

📚 Choi教授实验室研究教授AI常识,通过提供声明性知识帮助神经网络学习

详情链接:https://www.quantamagazine.org/will-ai-ever-have-common-sense-20240718/

8、AI图像生成平台LiblibAI完成数亿元融资 创国内行业新高

LiblibAI是国内领先的AI图像生成平台,最近完成了数亿元人民币的三轮融资,创下国内AI图像赛道的最大总融资纪录。公司快速发展得益于明确的产品战略和强大的社区生态,面临的挑战是平衡先进模型发展速度与用户需求。团队成员来自知名高校,具备丰富的互联网和设计行业背景,为公司的持续创新提供支持。

image.png

【AiBase提要:】

🚀 LiblibAI完成数亿元融资,创下国内AI图像赛道最大总融资纪录。

💡 公司快速发展得益于明确的产品战略和强大的社区生态,积累近1000万专业AI图像创作者。

⚖️ 面临的挑战是平衡先进模型发展速度与用户需求,团队强调用AI-native思维设计产品。

9、Hierarchical3D Gaussian:实时渲染大规模高质量3D场景

在虚拟现实和计算机图形学领域,Hierarchical3D Gaussian方法突破了传统瓶颈,实现了高质量3D场景的实时渲染,提升了视觉效果和处理效率。该方法采用分块训练和层级优化技术,具有广泛应用潜力。

image.png

【AiBase提要:】

🌟 突破传统瓶颈: Hierarchical3D Gaussian解决了超大数据集渲染的瓶颈问题,提升了视觉效果和处理效率。

🚀 高效训练与渲染: 采用分块训练和层级优化技术,使得超大规模场景的实时渲染成为现实。

📈 广泛应用潜力: Hierarchical3D Gaussian能处理数万张图像的复杂场景,并适应各种资源条件,展现了显著的实用性。

详情链接:https://top.aibase.com/tool/hierarchical-3d-gaussian

举报

  • 相关推荐
  • 谷歌推出耳机实时翻译测试版:引入Gemini高级功能

    TechCrunch报道,谷歌推出一项测试版功能,让用户通过耳机实时收听翻译内容。 与此同时,公司还将Gemini高级模型集成至谷歌翻译,并进一步扩展了应用内的语言学习工具。 全新的实时耳机翻译功能能完整保留说话者的语气、重音和语调,帮助用户在对话中更好地把握节奏、区分不同讲话者。该功能本质上可将任何耳机变为实时单向翻译设备。

  • 千问爆火、Gemini 3翻身,阿里和谷歌的同题异解

    全球AI To C的市场局势,似乎悄然发生了转变。 以OpenAI、DeepSeek等为代表的AI创业公司,凭借着对大模型技术能力的突破,在AI To C的应用市场中占据着领导者地位。 与之相对的,是原本在移动互联网时代的大厂们,如谷歌、阿里巴巴等,似乎在过去这段时间中,C端的AI应用远未达到预期。 但最近,不管是谷歌,还是阿里,都凭借着AI打了一场漂亮的“翻身仗”。

  • 谷歌AI眼镜官宣明年问世:搭载Gemini多模态模型

    谷歌宣布,正与三星、Gentle Monster及Warby Parker等合作伙伴共同研发两种类型的AI智能眼镜,预计新产品将于2026年面市。 谷歌硬件负责人Payne表示,公司已从过往经历中吸取教训。新款眼镜将深度集成其先进的Gemini大模型,在无需双手操作的情况下,用户可实现拍照、导航、接听电话及识别眼前物体等功能,其定位与Meta和雷朋合作推出的智能眼镜相似。 此次发布的产品线将分�

  • AI日报:可灵Avatar 2.0 上线;谷歌推出Gemini 3 Deep Think模式;阿里云析言 XiYan-SQL 强势夺冠

    本期AI日报聚焦多项AI技术突破:Kling AI Avatar 2.0上线,实现数字人表情动作智能生成;谷歌推出Gemini 3 Deep Think模式,显著提升AI推理能力;微软发布轻量级实时语音模型VibeVoice 0.5B;OpenAI最强编码模型GPT-5.1-CodexMax全面接入API;阿里云“析言 XiYan-SQL”在SQL诊断评测中夺冠。此外,豆包助手调整AI操作能力,谷歌将展示Android XR平台更新。

  • V3.2逼近Gemini 3,DeepSeek硬气喊话:接下来我要堆算力了

    ​就在上周,OpenAI前首席科学家、现SSI CEO Ilya Sutskever在最新播客访谈中抛出一个重磅观点,过去五年的“age of scaling”正在走到头,预训练数据是有限的,单纯用更多GPU堆更大模型,哪怕再放大100倍,也未必能带来质变。所以我们又回到了以研究为核心的时代,只不过这次有了巨大的算力”,这一表态被视作对Scaling Law撞墙论的强力佐证。 然而仅过了几天,12月1日,DeepSeek用V3

  • RGB-Mini LED和SQD-Mini LED哪个好?内行人都推荐RGB-Mini LED

    今年Mini LED电视技术演进中,RGB-Mini LED与SQD-Mini LED成为两条代表性路径。对于高端消费者而言,海信RGB-Mini LED无疑是首选。数据显示,在2万元以上高端电视市场,RGB-Mini LED出货量占比近半,其中超九成消费者选择海信。海信RGB-Mini LED在画质、能效与设计等方面全面领先:采用三色灯珠直接发光,无需二次光色转换,色域覆盖更广,实现色彩同控,画面不串色、不偏色;能效更�

  • 实测Gemini 3 Pro - 此即未来。

    经过238天等待,Gemini 3 Pro正式上线。在多项基准测试中表现惊人:Humanity's Last Exam测试达45.8%,Math Arena Apex获23.4分,ScreenSpot-Pro界面识别达72.7%。其前端代码能力尤为突出,仅用几十秒就能生成完整网页音乐播放器、像素画板,甚至成功复刻出可运行的Web OS系统。目前该模型在各大竞技场排行榜均位列第一,堪称2025年最具突破性的大模型。

  • RGB-Mini LED与SQD-Mini LED,谁代表真正的高端电视未来? 一文揭示技术与画质差距

    高端电视市场正经历技术革新,海信RGB-Mini LED电视凭借三原色独立背光架构,实现100% BT.2020色域覆盖,较传统QD-Mini LED提升19%,能耗降低40%以上。其通过精准控光与色彩同步技术,有效杜绝串色与偏色问题,在暗场表现、画面通透度等方面显著优于SQD-Mini LED及QD-OLED方案。当前三星、索尼等国际品牌也已布局RGB-Mini LED路线,印证其正成为高端电视的主流方向。

  • 买高端RGB-Mini LED电视不要图便宜!

    在高端显示领域,RGB-Mini LED凭借超高色彩、亮度和低能耗优势,已成为高端消费群体的首选。数据显示,双11期间2万元以上85英寸高端大屏电视中,其销量占比近五成。但市场存在“鱼龙混杂”现象,部分产品以万元内低价混淆概念,消费者难以辨别真伪。真正的RGB-Mini LED是高端技术,价格均在万元以上,切勿因便宜而妥协。海信作为该技术的开创者,已推出多系列产品,其技术先进性获行业认证。选购时需把握两大核心:采用RGB三原色发光芯片和光色同控芯片算法,并警惕低价陷阱,首选海信,方能享受极致画质体验。

  • 超越Gemini3、GPT5.1!阿里千问登顶空间推理全球冠军

    今日,空间推理基准测试SpatialBench更新了最新一期榜单,阿里千问的视觉理解模型Qwen3-VL、Qwen2.5-VL位列头两名,超越Gemini 3、GPT-5.1、Claude Sonnet4.5等国际顶尖模型。 SpatialBench榜单显示,Qwen3-VL-235B和Qwen2.5-VL-72B分别斩获13.5和12.9分,领先于Gemini 3.0 Pro Preview(9.6) 、GPT-5.1(7.5)、Claude Sonnet 4.5等海外顶尖模型。

今日大家都在搜的词: