首页 > 业界 > 关键词  > Gemini最新资讯  > 正文

AI日报:谷歌Gemini 1.5 Flash可免费使用;哩布哩布完成数亿元融资;苹果AI新功能将推迟至iOS 18.1版本

2024-07-29 14:59 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、告别P图困扰!Diffree直接通过文字描述就可无痕添加物体

在这个AI技术飞速发展的时代,Diffree作为一项能让设计师和摄影师们欢呼雀跃的AI图像处理技术,通过文本引导实现在图片中无缝添加新物体,降低了图像编辑门槛,让每个人都能成为创造者。

【AiBase提要:】

🎨 Diffree利用文本引导功能,根据简单文字描述在图像中添加新物体,实现无缝融合。

🔍 基于"文本到图像"模型,Diffree通过训练学会生成图像内容,利用"Stable Diffusion"扩散模型预测新物体位置。

✨ Diffree不仅能单次添加物体,还能多次添加并保持背景一致性,在实验证明中表现优越,降低了图像编辑难度。

详情链接:https://top.aibase.com/tool/diffree

2、谷歌推Alchemist技术 实现图片材质精准编辑

谷歌研究团队最近推出了一项突破性技术Alchemist,使用户能够精确编辑图片中物品的材质属性,无需专业技能。这项技术基于经过微调的Text-to-Image生成模型,通过合成数据集和修改模型架构实现精细控制。实验结果显示技术有效改变物品外观,应用前景广阔。尽管存在局限性,但研究团队对其潜力充满信心,有望为图像编辑领域带来革命性变革。

image.png

【AiBase提要:】

✨ 突破性技术Alchemist实现精准编辑图片材质属性,无需专业技能。

🌟 实验结果显示技术有效改变物品外观,应用前景广阔。

💡 研究团队对Alchemist技术的潜力充满信心,有望为图像编辑领域带来革命性变革。

详情链接:https://prafullsharma.net/alchemist/

3、Google Gemini重大更新Gemini1.5Flash可免费使用

Google近日宣布了其AI助手Gemini的一系列重大更新,旨在提高用户体验并扩大其应用范围。更新涵盖了性能提升、新功能引入以及用户群体的扩展。Gemini1.5Flash版本带来了免费版Gemini的全面升级,提升了响应速度、推理能力和图像理解。

image.png

【AiBase提要:】

✨ Gemini1.5Flash版本全面升级,提升性能和功能。

🔗 文件上传功能即将推出,便于处理复杂任务。

🌐 Gemini功能将推广到更多平台和地区,支持更多语言。

4、苹果新AI功能或将推迟至iOS18.1版本发布

苹果公司备受期待的新AI功能 Apple Intelligence 可能无法赶上iOS18的首次发布。尽管用户对于新功能的推迟可能感到失望,但这也展现了苹果注重产品稳定性和完善度的态度。

image.png

【AiBase提要:】

📅 新AI功能可能推迟至iOS18.1版本发布,Beta测试将在本周开始。

📉 升级版Siri等其他AI更新或推迟至2025年才能与用户见面。

📈 苹果公司在整合AI技术到产品中时更注重稳定性和完善度,而非急于赶上发布日期。

5、Llama4启动训练 Meta科学家揭秘Llama3.1训练背后的故事

在播客节目Latent Space中,Meta的科学家Thomas Scialom揭开了Llama3.1的研发秘籍,透露了Llama4的神秘面纱。文章深入探讨了Llama3.1的诞生背后的平衡挑战与技术突破,展示了Meta在AI领域的领先地位和未来展望。

【AiBase提要:】

🔍 Llama3.1的诞生是参数规模、训练时间与硬件限制的完美平衡,挑战GPT-4o,展现了Meta的技术实力。

🔑 在研发过程中重视训练数据总量,选择增加训练token数,通过15T的token海洋实现知识深度与广度的飞跃。

💡 创新地选择合成数据进行后训练,尝试多种模型评估与改进方法,展示了Meta在AI技术上的探索与突破。

6、亚马逊云发布Amazon Q Apps:允许用户构建自己的生成式 AI 应用程序

在亚马逊云科技纽约峰会上,亚马逊云科技发布了Amazon Q Apps服务,为用户提供便捷的生成式AI应用程序构建方式。这项服务将AI技术应用变得更加简单易用,为用户提供了更多机会探索AI应用的可能性。

image.png

【AiBase提要:】

🚀 Amazon Q Apps服务让用户可以根据简单描述创建应用程序,无需技术背景也能使用。

💻 Amazon Q Developer集成到Amazon SageMaker Studio,为机器学习模型开发带来便捷。

🔒 Amazon Bedrock更新了功能,帮助用户轻松访问高性能大语言模型和构建安全、隐私的生成式AI应用程序。

7、AI离人类有多远?一个晾衣问题暴露GPT-4致命缺陷

在Quanta Magazine的播客中,华盛顿大学计算机教授Yejin Choi与主持人Steven Strogatz展开了关于人工智能的深刻对话,探讨AI是否需要具备身体和情感才能发展出与人类相似的常识。虽然大型语言模型(LLM)在语言能力上取得进展,但在理解基本常识方面仍存在挑战。Choi教授的实验室致力于教授AI常识,认为AI应该拥有情商和意识,以更人性化地与人类互动。

【AiBase提要:】

🧠 LLM表现接近人类智能,但训练方式与人类不同

🤖 AI在理解基本常识方面存在挑战,如ChatGPT回答问题出错

📚 Choi教授实验室研究教授AI常识,通过提供声明性知识帮助神经网络学习

详情链接:https://www.quantamagazine.org/will-ai-ever-have-common-sense-20240718/

8、AI图像生成平台LiblibAI完成数亿元融资 创国内行业新高

LiblibAI是国内领先的AI图像生成平台,最近完成了数亿元人民币的三轮融资,创下国内AI图像赛道的最大总融资纪录。公司快速发展得益于明确的产品战略和强大的社区生态,面临的挑战是平衡先进模型发展速度与用户需求。团队成员来自知名高校,具备丰富的互联网和设计行业背景,为公司的持续创新提供支持。

image.png

【AiBase提要:】

🚀 LiblibAI完成数亿元融资,创下国内AI图像赛道最大总融资纪录。

💡 公司快速发展得益于明确的产品战略和强大的社区生态,积累近1000万专业AI图像创作者。

⚖️ 面临的挑战是平衡先进模型发展速度与用户需求,团队强调用AI-native思维设计产品。

9、Hierarchical3D Gaussian:实时渲染大规模高质量3D场景

在虚拟现实和计算机图形学领域,Hierarchical3D Gaussian方法突破了传统瓶颈,实现了高质量3D场景的实时渲染,提升了视觉效果和处理效率。该方法采用分块训练和层级优化技术,具有广泛应用潜力。

image.png

【AiBase提要:】

🌟 突破传统瓶颈: Hierarchical3D Gaussian解决了超大数据集渲染的瓶颈问题,提升了视觉效果和处理效率。

🚀 高效训练与渲染: 采用分块训练和层级优化技术,使得超大规模场景的实时渲染成为现实。

📈 广泛应用潜力: Hierarchical3D Gaussian能处理数万张图像的复杂场景,并适应各种资源条件,展现了显著的实用性。

详情链接:https://top.aibase.com/tool/hierarchical-3d-gaussian

举报

  • 相关推荐
  • 大家在看
  • AI Lyrics Generator:利用AI技术快速生成原创歌词

    AI Lyrics Generator是一个基于人工智能技术的在线歌词生成工具,专为词曲作者、音乐家和创意人士设计。它能够根据用户输入的风格、主题和情感等参数,快速生成原创歌词。这个工具利用先进的机器学习算法,模仿人类创作歌词的过程,为用户提供灵感和创作辅助。AI Lyrics Generator不仅能够节省创作时间,还能拓宽创作视野,帮助用户探索不同的音乐风格和表达方式。

  • Fancy Text Generator:创意文字转换器,轻松生成独特、炫酷的文字效果。

    Fancy Text Generator是一个在线工具,利用AI算法为用户提供多种风格的花式文字生成服务。它支持包括花式字体、emoji装饰、特殊符号在内的多种文字效果,适用于社交媒体、个人签名、艺术创作等场景。该产品的主要优点包括用户友好的界面、快速生成作品的能力、高分辨率输出以及社区分享功能。它免费在线使用,无需下载,适合所有希望在数字平台上展示个性化文字的用户。

  • Flux Lora Online:在线生成精美图片,释放创意潜力。

    Flux Lora Online 是一个在线平台,提供多种 Flux Lora 模型,用于生成各种风格的图像。这些模型包括但不限于写实风格、动漫风格、迪士尼风格等,能够满足不同用户对图像生成的多样化需求。平台采用先进的图像生成技术,提供高分辨率和细节丰富的图像,同时拥有用户友好的界面,简化工作流程,提高生产力。

  • Vadoo AI:AI视频生成器,将文本快速转化为视频。

    Vadoo AI是一个全功能的AI视频生成器,它使用先进的人工智能技术,让用户能够将文本提示快速转化为视频内容。该产品支持多种语言字幕,提供多种视频风格和模板,以及背景音乐和自动缩放等功能,使得视频制作变得简单而高效。Vadoo AI的目标是帮助用户,无论是社交媒体创作者还是企业营销人员,都能轻松创建专业质量的视频内容,以吸引和保持观众的注意力。

  • AI Youtube Shorts Generator:从长视频中生成引人入胜的YouTube短片

    AI Youtube Shorts Generator 是一个利用GPT-4和Whisper技术的Python工具,它可以从长视频中提取最有趣的亮点,检测演讲者,并将内容垂直裁剪,以适应短片格式。这个工具目前处于0.1版本,可能存在一些bug。

  • Cavela:全球首个虚拟采购代理,连接全球制造商网络

    Cavela是一个创新的虚拟采购代理平台,它通过自动化技术连接全球的供应商网络,为企业提供从供应商匹配、报价编制、样品生产、质量保证到订单交付的一站式服务。Cavela通过其平台,帮助企业降低采购成本,提高效率,同时确保产品质量。它特别适合需要全球采购资源的中小型企业和初创公司,帮助他们在竞争激烈的市场中快速响应市场需求。

  • Landerino:最简洁的网页构建器,设计至上

    Landerino是一个创新的网页构建平台,它通过提供简单易用的界面,让用户能够快速创建、编辑和发布落地页。它不仅支持实时编辑和预览,还提供了强大的分析工具,帮助用户优化页面并进行A/B测试。Landerino的目标是让每个人都能轻松地构建和管理自己的网页,无需专业的技术背景。它通过简化网页制作流程,降低了维护成本,使内容创造成为焦点。

  • Mneme AI:在设备上与您的笔记进行对话,提升生产力。

    Mneme AI 是一款运行在iPhone上的本地AI助手应用,它允许用户通过与个人笔记、文档和书籍的对话来提高工作效率。这款应用完全离线运行,确保了用户数据的隐私和安全。Mneme AI 通过提供个性化的响应,帮助用户整理思绪和知识,支持用户使用内置文本编辑器记录新笔记或添加PDF文档。它支持英语,并推荐在iPhone 14或更新型号上使用以获得最佳性能。

  • AI-Faceless-Video-Generator:利用AI生成视频脚本、语音和会说话的头像

    AI-Faceless-Video-Generator是一个利用人工智能技术,根据话题生成视频脚本、语音和会说话头像的项目。它结合了sadtalker进行面部动画,gTTS生成AI语音和OpenAI语言模型生成脚本,提供了一个端到端的解决方案,用于生成个性化视频。该项目的主要优点包括脚本生成、AI语音生成、面部动画创建以及易于使用的界面。

  • FLUX.1-dev-LoRA-Dark-Fantasy:生成幻想生物和角色的AI模型

    FLUX.1-dev-LoRA-Dark-Fantasy是由Shakker AI的GUIZANG(歸藏)训练的LoRA模型,专注于生成幻想生物和角色。该模型受到Klee、Odilon Redon、Eyvind Earle等艺术家的影响,能够生成具有电影质感、复杂光影效果和精细细节的图像。模型遵循flux-1-dev-non-commercial-license,适用于非商业用途。

  • 通义万相AI视频生成:利用AI技术,将文字和图像转化为创意视频。

    通义万相AI创意作画是一款利用人工智能技术,将用户的文字描述或图像转化为视频内容的产品。它通过先进的AI算法,能够理解用户的创意意图,自动生成具有艺术感的视频。该产品不仅能够提升内容创作的效率,还能激发用户的创造力,适用于广告、教育、娱乐等多个领域。

  • Windows Agent Arena:用于测试和开发AI代理的可扩展开源框架

    Windows Agent Arena (WAA) 是一个专注于Windows操作系统的可扩展、开源框架,用于测试和开发能够使用语言模型在PC上进行推理、规划和行动的AI代理。它通过模拟真实的Windows环境,允许代理自由操作,并使用与人类用户相同的应用程序、工具和网络浏览器来解决任务。WAA通过Azure实现可扩展性和并行化,能够在短短20分钟内完成完整的基准测试评估。

  • VELS by Kaiden AI:AI驱动的模拟训练,提升沟通技能。

    VELS by Kaiden AI是一个基于人工智能的模拟训练平台,提供定制化、反馈丰富的模拟场景,帮助用户准备各种交流互动。该平台通过创建逼真的训练场景和AI虚拟对话伙伴,模拟真实世界的交流环境,让用户在安全的环境中练习和提高沟通技能。VELS通过实时反馈和性能分析,为用户提供个性化的训练体验,帮助他们在各种行业和角色中提升表现。

  • Selfplanr:规划你的高中四年,迈向梦想大学。

    Selfplanr是一个为高中生设计的在线规划工具,旨在帮助学生规划他们的高中生涯,以实现进入理想大学的目标。通过个性化的目标设定、动态的四年规划、每周任务安排、与导师和同伴的协作规划以及动态进度跟踪,Selfplanr帮助学生构建全面而独特的简历,发现学术之外的无数机会,如实习、奖学金、研究和志愿活动。

  • GoMaxAI:一站式AI服务,提供多样化智能解决方案。

    GoMaxAI是一个集成了多种AI功能的平台,旨在为用户提供包括3D视频创建、智能问答、AI绘画、文档分析和思维导图等多种智能服务。它通过先进的AI技术,帮助用户在影视制作、设计、艺术创作、信息处理等领域提高效率和创造力。

  • XVERSE-MoE-A36B:多语言大型语言模型,支持多领域文本生成。

    XVERSE-MoE-A36B是由深圳元象科技自主研发的多语言大型语言模型,采用混合专家模型(MoE)架构,具有2554亿的总参数规模和360亿的激活参数量。该模型支持包括中、英、俄、西等40多种语言,特别在中英双语上表现优异。模型使用8K长度的训练样本,并通过精细化的数据采样比例和动态数据切换策略,保证了模型的高质量和多样性。此外,模型还针对MoE架构进行了定制优化,提升了计算效率和整体吞吐量。

  • Peter Cat:智能答疑机器人解决方案,助力GitHub社区维护者和开发者

    Peter Cat 是一个专为社区维护者和开发者打造的智能答疑机器人解决方案。它通过对话式答疑 Agent,配置系统、自托管部署方案和便捷的一体化应用SDK,让用户能够一键创建智能答疑机器人,并快速集成到各类官网或项目中,为社区提供更高效的技术支持生态。

  • Covers:将您的音乐作品转换为全新风格。

    Covers 是 Suno 推出的一款音乐创作工具,它允许用户将任何声音,从简单语音备忘录到完整制作的音乐,转换成全新风格的音乐作品,同时保留原始的旋律。这一功能特别适合想要尝试不同音乐风格或为纯音乐添加歌词的音乐创作者。Covers 目前处于早期访问测试阶段,向所有 Pro 和 Premier 订阅者提供,用户可以免费试用200次,之后每次生成新 Cover 将消耗10个积分。

  • AgentRE:基于代理的框架,用于在复杂信息环境中进行关系抽取。

    AgentRE是一个基于代理的框架,专门设计用于在复杂信息环境中进行关系抽取。它通过模拟智能代理的行为,能够高效地处理和分析大规模数据集,从而识别和提取实体之间的关系。该技术在自然语言处理和信息检索领域具有重要意义,尤其是在需要处理大量非结构化数据的场景中。AgentRE的主要优点包括其高度的可扩展性、灵活性以及对复杂数据结构的处理能力。该框架是开源的,允许研究人员和开发者自由使用和修改,以适应不同的应用需求。

  • GoMaxAI Pro版 (ChatGPT-Midjourney):个人、团队、企业私有化AIGC应用平台

    GoMaxAI Pro版是一个基于Node.js、Vue3、uniapp开发的AIGC平台,提供ChatGPT、Midjourney绘画、Suno音乐、Pika/Runway/Sora视频服务。它支持私有化部署,适用于个人、团队和企业,强调用户体验和资源集成,具备权限管理和安全审计功能。

今日大家都在搜的词:

热文

  • 3 天
  • 7天