首页 > 业界 > 关键词  > Gemini最新资讯  > 正文

AI视野:谷歌推多模态大模型Gemini;抖音上线抖音心晴;苹果发布 MLX 模型框架;Meta推出AI图像生成器网站

2023-12-07 15:50 · 稿源:站长之家

🤖📈💻💡大模型动态

谷歌发布Gemini

谷歌推出多模态大模型Gemini1.0,具备处理文本、代码、音频、图像和视频等多种信息的能力,分为Ultra、Pro和Nano三种规模,性能超越领先模型,Gemini Ultra在多任务语言理解中首次超越人类专家水平,计划明年初向开发者推出。

【AiBase提要】

🚀 多规模模型: Gemini包括Ultra、Pro和Nano三种规模,分别应对不同任务和设备需求。

🔝 性能超越: Gemini在多项基准测试中表现出色,Ultra模型首次超过人类专家水平。

🌐 应用领域广泛: Gemini已应用于Google产品,包括Bard和Pixel系列,开发者可通过Gemini API在Google AI Studio或Google Cloud Vertex AI中使用Gemini Pro。

苹果发布 MLX 模型框架

苹果公司悄悄发布了MLX模型框架,表明可能加大在人工智能领域的投入,推动生成式人工智能应用程序的发展。

【AiBase提要】

🍏 苹果发布MLX模型框架,可在其芯片上高效运行机器学习模型。

🔄 MLX受PyTorch、Jax和ArrayFire启发,具有共享内存特性,可在CPU和GPU上无需移动数据运行任务。

🚀 苹果或改变在人工智能领域的保守策略,进一步探索生成式人工智能应用,加强与竞争对手的竞争。

Playground宣布开源Playground V2版本

文生图平台Playground宣布开源Playground V2版本,允许商业化,用户通过文本就能生成3D、动漫、素描、朋克、暗黑等多种类型1024x1024图片,同时提供免费在线体验。

免费体验地址:https://playground.com/

开源地址:https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic

【AiBase提要】

1. 文生图平台Playground宣布开源PlaygroundV2版本,允许商业化。

2. 用户通过文本就能生成多种类型1024x1024图片。

3.Playground V2基于Stable Diffusion XL开发而成。

📰🤖📢AI新鲜事

抖音上线抖音心晴

抖音计划推出多个AI聊天机器人,首个为情绪关怀机器人“抖音心晴”,可通过智能模型生成安慰性对话,目前在小范围测试中。机器人可感知用户情绪、提供陪伴和解答问题,未来或添加语音和视频功能。

微信截图_20231207084430.png

【AiBase提要:】

🤖 情感关怀服务: 抖音推出首个AI聊天机器人“抖音心晴”,旨在通过智能模型提供情绪关怀和安慰互动。

📱 功能介绍: 机器人位于抖音APP消息界面,标注为“AI虚拟角色”,支持用户倾诉情绪、提问日常问题,并通过识别表情解读用户心情。

🚀 未来发展: 目前不支持语音和视频互动,但未来可能加入这些功能。抖音APP计划推出更多AI虚拟角色,丰富AI聊天机制。

Meta 推出免费独立的 AI 图像生成器网站

在谷歌推出 Gemini 之后,Meta 也不甘示弱,在网络上推出了基于其 Emu 图像合成模型的免费独立 AI 图像生成器网站——Imagine with Meta,允许用户通过自然语言描述来生成图像。

截屏2023-12-07 上午9.19.13.jpg

【AiBase提要】

👉 Meta推出基于Emu图像合成模型的免费独立AI图像生成器网站「Imagine with Meta AI」,允许用户通过自然语言描述生成图像。

👉 这个AI模型通过11亿张Facebook和Instagram上的公开可见图片进行训练,可以根据文本提示渲染新图像。

👉 用户需要Meta账户才能使用该网站创建图像,每次生成会创建四张1280×1280像素的图片,并带有「Imagined with AI」水印标志。

麦当劳2024年起将使用AI确保薯条新鲜度

麦当劳宣布与谷歌合作,将在2024年通过引入生成式人工智能对全球门店进行硬件和软件升级,以提供更快捷、更新鲜的食物体验。

【AiBase提要:】

🚀2024年,麦当劳与谷歌合作,通过人工智能优化店内操作,涵盖点餐亭、移动应用等系统。

📲 升级系统旨在通过生成式AI处理大量数据,提供更热、更新鲜的食物给顾客,并引入自动化服务。

🤖 麦当劳强调AI的目标是简化操作,为员工和顾客提供更丰富的体验,未具体回应是否取代人工的问题。

Meta、微软将购买AMD最新AI芯片MI300X

Meta、微软和OpenAI宣布将采用AMD最新的Instinct MI300X人工智能芯片,作为替代Nvidia昂贵图形处理器的举措,可能改变AI芯片市场竞争格局。

【AiBase提要:】

🌐 竞争加剧: Meta、微软以及OpenAI计划使用AMD最新的Instinct MI300X芯片,打破Nvidia在AI芯片市场的垄断格局。

💡 性能优势: MI300X采用新架构,拥有192GB的高性能内存HBM3,可能降低开发AI模型的成本,对Nvidia构成竞争威胁。

💲 市场潜力: AMD表示已签约一些大型公司使用MI300X,预计未来四年AI GPU市场规模可能攀升至4000亿美元,显示对该产品线的高期望。

微软计划2024年发布以AI为中心的Windows版本

在经历了领导层的重大变革和前 Windows 负责人 Panos Panay 离职之后,微软在新成立的 Windows & Web Experiences 团队的领导下,开始制定新的 Windows 路线图,该团队目前负责开发下一个主要的 Windows 客户端更新,代号为「Hudson Valley」。

【AiBase提要】

微软计划于2024年发布以AI为中心的「突破性」Windows版本。

新版本的Windows将具备AI驱动的Windows Shell、历史/时间线功能、增强搜索功能、提升视频和游戏质量的分辨率功能、实时字幕翻译、轻微视差效果、专门的「创作者」区域、节能模式改进、绿色能源功能以及新的桌面界面。

新版本的命名目前尚不确定是否为Windows12。

MIT新创公司Liquid AI融资近4千万美元

由MIT孵化的Liquid AI完成近4千万美元融资,致力于开发基于液态神经网络的精简、可解释、具动态适应性的人工智能系统,应用涵盖自动驾驶、气象预测、医疗数据分析等多个领域。

【AiBase提要】

💡 创新技术: MIT孵化的Liquid AI计划以液态神经网络为基础构建通用人工智能系统,相较传统模型更小巧、可解释,且具有动态适应性。

💸 融资动向: 通过两阶段种子轮融资,成功筹得近4千万美元,估值达到3.03亿美元,多家风险投资公司和知名天使投资人参与。

🌐 应用前景: 公司计划商业化技术,提供私有人工智能基础设施和平台,涵盖领域包括自动驾驶、气象预测、医疗数据分析等,展望在各领域广泛应用。

DeepMind最新Nature论文被爆重大缺陷

谷歌DeepMind团队最新Nature论文声称AI能创造新合成物,但伦敦大学化学教授指出论文存在严重缺陷,AI合成已知化合物并错误成分。UC伯克利教授提供实验证据辩解,引发对AI在化学应用的讨论。

image.png

【AiBase提要:】

📉 缺陷揭露: 伦敦大学化学教授发现DeepMind论文依赖不可靠的分析方法,指责AI合成为已知化合物的固溶体。

🔄 回应与辩解: UC伯克利教授提供实验证据反驳,证明合成成功,解释Palgrave教授的错误观点。

🤖 AI应用讨论: 论文缺陷引发关于AI在化学领域应用的讨论,强调在应用AI时需谨慎,注意其局限性。

🤖📱💼AI应用

Google发布AI编程助手AlphaCode2

谷歌发布的AlphaCode2是由Gemini模型驱动的AI编程工具,在编程竞赛中表现优异,特别擅长处理动态规划等复杂问题。

【AiBase提要:】

🌐 AlphaCode2是由Gemini模型驱动的改进版编程工具,在Codeforces编程竞赛中以Python、Java、C++和Go等语言编码,平均胜过约85%的竞争对手。

🏆 在动态规划等复杂问题上,AlphaCode2相较前代表现显著提升,通过一系列策略模型生成代码样本,并通过聚类算法选择最佳代码答案。

🤖 虽然在编程竞赛中表现出色,AlphaCode2存在一些缺陷,如需要大量试错和较高的运营成本,但谷歌计划通过迁移到更强大的Gemini版本来缓解这些问题,并展望将其作为协作工具助力整个软件开发过程。

亚马逊云科技推出新型生成式AI助手Amazon Q

亚马逊云科技发布办公场景专用生成式 AI 助手 Amazon Q,可定制化回答复杂问题、生成内容,并适用于多个服务和应用程序。

微信截图_20231207085053.png

【AiBase提要:】

🚀 定制化助手服务: Amazon Q 可根据企业需求定制,帮助员工快速获取答案、生成内容,并执行操作,提高工作效率。

🔒 数据安全保障: 助手可根据个人权限进行个性化定制,同时保障数据安全和隐私,确保客户内容不被用于底层模型训练。

🔄 广泛应用场景: Amazon Q 在多个服务和应用程序中提供支持,包括数据驱动描述、客服支持、供应链优化等,满足企业多方面需求。

👨‍💻💡🎯聚焦开发者

Meta改进SAM,参数仅为原版5%

对于2023年的计算机视觉领域来说,「分割一切」是备受关注的一项研究进展。Meta提出了一种改进的SAM模型,通过掩码图像预训练的方式降低了模型的复杂性,并保持了良好的性能。该模型在图像分类、物体检测和分割等任务上取得了比其他预训练基线更好的结果,并且在小模型上获得了显著收益。通过预训练和微调,SAM模型在不同任务上都有优秀的表现,为计算机视觉领域的研究和应用带来了新的可能性。

论文链接:https://arxiv.org/pdf/2312.00863.pdf

论文主页:https://yformer.github.io/efficient-sam/

【AiBase提要】

⭐Meta提出了改进的SAM模型,通过掩码图像预训练的方式降低了模型的复杂性。

⭐SAM模型在图像分类、物体检测和分割等任务上取得了比其他预训练基线更好的结果。

⭐SAM模型在小模型上获得了显著收益,为计算机视觉领域的研究和应用带来了新的可能性。

MIT与Adobe联手开发DMD

MIT和Adobe的研究团队提出了分布匹配蒸馏(DMD)方法,将扩散模型转化为一步图像生成器,以显著提高生成速度并保持图像质量与Stable Diffusion相当。

image.png

项目网址:https://tianweiy.github.io/dmd/

论文网址:https://arxiv.org/abs/2311.18828

【AiBase提要:】

🔄 创新方法: DMD通过分布匹配蒸馏将扩散模型转化为一步图像生成器,显著减少神经网络评估次数,提高生成效率。

🌐 数据优化: 通过对文本到图像数据进行精细调整,解决了在通用文本到图像数据上扩大模型的难题,实现了高效的图像生成。

📈 性能超越: DMD在速度上超越了Stable Diffusion v1.5,同时在多项任务中取得优异成绩,图像质量相当,为交互式应用提供了更多可能性。

田渊栋团队最新论文解决大模型部署难题

田渊栋团队通过新的KV缓存方法成功解决大型语言模型在实际部署中的内存和输入长度限制问题,将推理系统的吞吐量提高了近30倍。

image.png

论文地址:https://arxiv.org/pdf/2306.14048.pdf

代码地址:https://github.com/FMInference/H2O

【AiBase提要:】

🚀 新KV缓存方法解难题: 田渊栋团队提出基于重要tokens的KV缓存逐出策略,显著减少内存占用,提高大型语言模型在长输入序列任务中的表现。

⚙️ 实验证实效: 在OPT、LLaMA和GPT-NeoX等模型上验证方法准确有效,推理系统吞吐量提高了29倍至3倍,且在相同批量大小下延迟最多可减少1.9倍。

📄 论文重要性: 该论文成果在NeurIPS'23将展示,对大型语言模型的部署和应用具有重要意义,为解决KV缓存成本和泛化能力问题提供了新思路。

AI换脸图像合成框架FaceStudio 支持多人图像合成

FaceStudio是一种身份保留合成方法,旨在在图像生成过程中保持主题的身份,并添加个性化的风格。与传统方法相比,FaceStudio通过直接前馈机制实现了快速高效的图像生成,避免了繁琐的调优和多个参考图像的需求。

image.png

项目地址:https://icoz69.github.io/facestudio/

【AiBase提要】

1. FaceStudio 是一种身份保留合成方法,支持多人图像合成。

2. FaceStudio 通过直接前馈机制实现快速高效的图像生成。

3. 模型支持多人身份混合。

举报

  • 相关推荐
  • 谷歌推出终端AI编程工具Gemini CLI Gemini CLI安装使用教程一览

    近日,谷歌在AI编程领域推出了一款备受瞩目的终端AI编程工具——Gemini CLI。这款免费开源的工具一经发布,便在开发者群体中引发了广泛关注,其强大的功能和免费开源的特性,使其在众多同类产品中脱颖而出,甚至让一些竞争对手如Claude Code相形见绌。 如果您对AI编程工具感兴趣,想要了解更多类似的产品,可以访问 [AIbase - 智能匹配最适合您的AI产品和网站](https://top.aiba

  • 算力赋能营销革新,东信云与华为云签约共建多模态大模型应用标杆

    6月21日,东信云与华为云在HDC2025大会上签署合作协议,双方将基于昇腾AI云服务深化合作,重点布局多模态大模型应用与数字人技术。合作内容包括:1)构建智能营销系统,整合文本、图像、视频等多元数据,提升市场分析和消费者行为预测能力;2)通过大模型实现营销内容自动化生成,包括新闻稿、社交媒体帖子和广告文案;3)优化大模型架构,提升训练和推理效率。东信云6月发布的"数字人智能引擎"已实现分钟级生成逼真数字人,显著提升推荐转化率。双方还将联合行业伙伴共建营销大模型生态系统,推动营销行业智能化升级。

  • AI日报:MiniMax推视频生成模型Hailuo 02;Cursor Pro取消500次请求限制;谷歌发布AI模型 Gemini 2.5 Flash-Lite

    本文汇总了AI领域最新动态:1)Cursor Pro取消500次请求限制;2)稀宇科技推出视频生成模型Hailuo02;3)谷歌发布轻量级AI模型Gemini2.5Flash-Lite;4)科大讯飞星火X1升级版7月上线;5)腾讯元宝推出AI编程模式;6)OpenAI将下架GPT-4.5 API;7)苹果Speech API转录速度超Whisper 55%;8)百度推出数字人互动直播间;9)Meta曾试图高薪挖角OpenAI人才;10)Krea1公测开放,解决"AI感"问题;11)特斯拉Grok车载AI助手即将上线;12)谷歌Gemini新增视频分析功能。

  • Meta拟百亿美元投资Scale AI,微美全息(WIMI.US)端侧多模态AI加速开启科技新局

    Meta正与AI初创企业Scale AI洽谈数十亿美元投资,估值或超100亿美元,有望创下私营企业融资纪录。Scale AI为微软、OpenAI等提供数据标注服务,是生成式AI热潮主要受益者。这将是Meta史上最大规模外部AI投资,标志其战略转向。Meta CEO扎克伯格宣布将AI确立为战略重心,2024年将投入650亿美元推进相关项目,重点打造Llama模型成为行业标准。同时,谷歌推出Gemini助手"计划操作"新功能,支持任务自动化管理。科技巨头纷纷重金布局AI,微软向OpenAI注资逾130亿美元,亚马逊投资Anthropic数十亿美元。行业观察认为AI技术普及将推动效率革命,微美全息等企业正通过技术创新赋能产业转型,共同探讨人工智能技术突破新动态。AI正以前所未有的速度重塑全球发展格局。

  • AI日报:MiniMax-M1开源;阿里Qwen3升级版适配苹果MLX架构;月之暗面发布新模型Kimi-Dev-72B

    《AI日报》汇总了近期AI领域多项重要进展:1)月之暗面推出开源编程模型Kimi-Dev-72B,在软件工程任务测试中创下新纪录;2)MiniMax开源M1模型,支持超长上下文推理且训练成本低;3)腾讯发布AI音乐模型LeVo,支持音色克隆和分轨生成;4)阿里云Qwen3升级版适配苹果MLX架构;5)豆包推出"AI播客"功能,可将PDF转为对话播客;6)夸克App上线个性化AI家教"夸克老师";7)松下发布多模态大模型OmniFlow,实现文本/图像/音频自由切换;8)TikTok推出三款AI视频创作工具;9)极氪与火山引擎合作,将豆包大模型接入智能座舱系统;10)Meta的Llama3.1模型在文本记忆方面表现突出;11)Grok上线定时追踪X热门话题功能;12)Gemini2.5Pro即将更新Deep Think功能;13)谷歌地图引入AI技术升级导航和个性化推荐功能。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • 「6月26日AI日报」可灵AI推全球首部AIGC单元剧;谷歌开源AI智能体Gemini CLI

    AI行业近期动态汇总:1)豆包AI编程升级为"应用创作1.0",支持可视化编辑和实时预览,降低开发门槛;2)谷歌开源Gemini CLI工具,集成Gemini 2.5 Pro模型,提供免费编程助手;3)Anthropic推出"Artifacts"功能,用户无需编程即可在Claude中创建AI应用;4)出门问问发布TicNote+硬件产品,内置Shadow AI技术;5)OpenAI将Codex CLI重构为Rust语言以提升性能;6)谷歌发布Imagen4文生图模型,突�

  • Meta AI新增生成式AI视频编辑功能:秒换服装、场景

    Meta 宣布,将在Meta AI应用、Meta.AI网站和Edits应用上推出一项生成式AI视频编辑功能。 用户可通过50多种预设AI提示词,一键实现视频中服装、场景、光影等元素的智能变换。 Meta称,全新的AI视频编辑功能直观易用,用户无需任何视频编辑专业知识即可制作高质量的视频。首先,用户可将视频上传到Meta AI应用、Meta.AI网站或

  • 高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二

    本次AI高考数学测试评估了7个大模型的表现,包括Doubao、DeepSeek、Qwen3等。测试包含14道客观题和5道解答题,总分150分。结果显示:1)客观题各模型差距不大,最大分差仅3分;2)解答题成为主要失分区,仅Gemini2.5Pro获得满分;3)图像识别题(第6题)难倒所有多模态模型,暴露AI图文理解短板。最终Gemini2.5Pro以145分居首,Doubao和DeepSeek R1以144分并列第二。测试表明大模型在数学推理能力上有进步,但在复杂论证和多步骤计算方面仍需提升。

  • 性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent

    月之暗面(Moonshot AI)正式推出其首款Agent产品Kimi-Researcher(深度研究),并已启动小范围灰度测试。 该产品基于端到端自主强化学习(end-to-end agentic RL)技术打造,在HLE测试中表现优异,性能超越Claude 4 Opus、Gemini 2.5 Pro及OpenAI Deep Research,并与Gemini-Pro的Deep Research Agent持平。 Kimi-Researcher 是一款高度自主的智能研究助手,能够独立规划任务流程并交付完整结果。与其他Agent不�