AI视野：谷歌推多模态大模型Gemini；抖音上线抖音心晴；苹果发布 MLX 模型框架；Meta推出AI图像生成器网站

2023-12-07 15:50 · 稿源：站长之家

🤖📈💻💡大模型动态

谷歌发布Gemini

谷歌推出多模态大模型Gemini1.0，具备处理文本、代码、音频、图像和视频等多种信息的能力，分为Ultra、Pro和Nano三种规模，性能超越领先模型，Gemini Ultra在多任务语言理解中首次超越人类专家水平，计划明年初向开发者推出。

【AiBase提要】
🚀 多规模模型: Gemini包括Ultra、Pro和Nano三种规模，分别应对不同任务和设备需求。
🔝 性能超越: Gemini在多项基准测试中表现出色，Ultra模型首次超过人类专家水平。
🌐 应用领域广泛: Gemini已应用于Google产品，包括Bard和Pixel系列，开发者可通过Gemini API在Google AI Studio或Google Cloud Vertex AI中使用Gemini Pro。

苹果发布 MLX 模型框架

苹果公司悄悄发布了MLX模型框架，表明可能加大在人工智能领域的投入，推动生成式人工智能应用程序的发展。

【AiBase提要】
🍏 苹果发布MLX模型框架，可在其芯片上高效运行机器学习模型。
🔄 MLX受PyTorch、Jax和ArrayFire启发，具有共享内存特性，可在CPU和GPU上无需移动数据运行任务。
🚀 苹果或改变在人工智能领域的保守策略，进一步探索生成式人工智能应用，加强与竞争对手的竞争。

Playground宣布开源Playground V2版本

文生图平台Playground宣布开源Playground V2版本，允许商业化，用户通过文本就能生成3D、动漫、素描、朋克、暗黑等多种类型1024x1024图片，同时提供免费在线体验。

免费体验地址:https://playground.com/

开源地址:https://huggingface.co/playgroundai/playground-v2-1024px-aesthetic

【AiBase提要】
1. 文生图平台Playground宣布开源PlaygroundV2版本，允许商业化。
2. 用户通过文本就能生成多种类型1024x1024图片。
3.Playground V2基于Stable Diffusion XL开发而成。

📰🤖📢AI新鲜事

抖音上线抖音心晴

抖音计划推出多个AI聊天机器人，首个为情绪关怀机器人“抖音心晴”，可通过智能模型生成安慰性对话，目前在小范围测试中。机器人可感知用户情绪、提供陪伴和解答问题，未来或添加语音和视频功能。

微信截图_20231207084430.png

【AiBase提要:】
🤖 情感关怀服务: 抖音推出首个AI聊天机器人“抖音心晴”，旨在通过智能模型提供情绪关怀和安慰互动。
📱 功能介绍: 机器人位于抖音APP消息界面，标注为“AI虚拟角色”，支持用户倾诉情绪、提问日常问题，并通过识别表情解读用户心情。
🚀 未来发展: 目前不支持语音和视频互动，但未来可能加入这些功能。抖音APP计划推出更多AI虚拟角色，丰富AI聊天机制。

Meta 推出免费独立的 AI 图像生成器网站

在谷歌推出 Gemini 之后，Meta 也不甘示弱，在网络上推出了基于其 Emu 图像合成模型的免费独立 AI 图像生成器网站——Imagine with Meta，允许用户通过自然语言描述来生成图像。

截屏2023-12-07 上午9.19.13.jpg

【AiBase提要】
👉 Meta推出基于Emu图像合成模型的免费独立AI图像生成器网站「Imagine with Meta AI」，允许用户通过自然语言描述生成图像。
👉 这个AI模型通过11亿张Facebook和Instagram上的公开可见图片进行训练，可以根据文本提示渲染新图像。
👉 用户需要Meta账户才能使用该网站创建图像，每次生成会创建四张1280×1280像素的图片，并带有「Imagined with AI」水印标志。

麦当劳2024年起将使用AI确保薯条新鲜度

麦当劳宣布与谷歌合作，将在2024年通过引入生成式人工智能对全球门店进行硬件和软件升级，以提供更快捷、更新鲜的食物体验。

【AiBase提要:】
🚀2024年，麦当劳与谷歌合作，通过人工智能优化店内操作，涵盖点餐亭、移动应用等系统。
📲 升级系统旨在通过生成式AI处理大量数据，提供更热、更新鲜的食物给顾客，并引入自动化服务。
🤖 麦当劳强调AI的目标是简化操作，为员工和顾客提供更丰富的体验，未具体回应是否取代人工的问题。

Meta、微软将购买AMD最新AI芯片MI300X

Meta、微软和OpenAI宣布将采用AMD最新的Instinct MI300X人工智能芯片，作为替代Nvidia昂贵图形处理器的举措，可能改变AI芯片市场竞争格局。

【AiBase提要:】
🌐 竞争加剧: Meta、微软以及OpenAI计划使用AMD最新的Instinct MI300X芯片，打破Nvidia在AI芯片市场的垄断格局。
💡 性能优势: MI300X采用新架构，拥有192GB的高性能内存HBM3，可能降低开发AI模型的成本，对Nvidia构成竞争威胁。
💲 市场潜力: AMD表示已签约一些大型公司使用MI300X，预计未来四年AI GPU市场规模可能攀升至4000亿美元，显示对该产品线的高期望。

微软计划2024年发布以AI为中心的Windows版本

在经历了领导层的重大变革和前 Windows 负责人 Panos Panay 离职之后，微软在新成立的 Windows & Web Experiences 团队的领导下，开始制定新的 Windows 路线图，该团队目前负责开发下一个主要的 Windows 客户端更新，代号为「Hudson Valley」。

【AiBase提要】
微软计划于2024年发布以AI为中心的「突破性」Windows版本。
新版本的Windows将具备AI驱动的Windows Shell、历史/时间线功能、增强搜索功能、提升视频和游戏质量的分辨率功能、实时字幕翻译、轻微视差效果、专门的「创作者」区域、节能模式改进、绿色能源功能以及新的桌面界面。
新版本的命名目前尚不确定是否为Windows12。

MIT新创公司Liquid AI融资近4千万美元

由MIT孵化的Liquid AI完成近4千万美元融资，致力于开发基于液态神经网络的精简、可解释、具动态适应性的人工智能系统，应用涵盖自动驾驶、气象预测、医疗数据分析等多个领域。

【AiBase提要】
💡 创新技术: MIT孵化的Liquid AI计划以液态神经网络为基础构建通用人工智能系统，相较传统模型更小巧、可解释，且具有动态适应性。
💸 融资动向: 通过两阶段种子轮融资，成功筹得近4千万美元，估值达到3.03亿美元，多家风险投资公司和知名天使投资人参与。
🌐 应用前景: 公司计划商业化技术，提供私有人工智能基础设施和平台，涵盖领域包括自动驾驶、气象预测、医疗数据分析等，展望在各领域广泛应用。

DeepMind最新Nature论文被爆重大缺陷

谷歌DeepMind团队最新Nature论文声称AI能创造新合成物，但伦敦大学化学教授指出论文存在严重缺陷，AI合成已知化合物并错误成分。UC伯克利教授提供实验证据辩解，引发对AI在化学应用的讨论。

【AiBase提要:】
📉 缺陷揭露: 伦敦大学化学教授发现DeepMind论文依赖不可靠的分析方法，指责AI合成为已知化合物的固溶体。
🔄 回应与辩解: UC伯克利教授提供实验证据反驳，证明合成成功，解释Palgrave教授的错误观点。
🤖 AI应用讨论: 论文缺陷引发关于AI在化学领域应用的讨论，强调在应用AI时需谨慎，注意其局限性。

🤖📱💼AI应用

Google发布AI编程助手AlphaCode2

谷歌发布的AlphaCode2是由Gemini模型驱动的AI编程工具，在编程竞赛中表现优异，特别擅长处理动态规划等复杂问题。

【AiBase提要:】
🌐 AlphaCode2是由Gemini模型驱动的改进版编程工具，在Codeforces编程竞赛中以Python、Java、C++和Go等语言编码，平均胜过约85%的竞争对手。
🏆 在动态规划等复杂问题上，AlphaCode2相较前代表现显著提升，通过一系列策略模型生成代码样本，并通过聚类算法选择最佳代码答案。
🤖 虽然在编程竞赛中表现出色，AlphaCode2存在一些缺陷，如需要大量试错和较高的运营成本，但谷歌计划通过迁移到更强大的Gemini版本来缓解这些问题，并展望将其作为协作工具助力整个软件开发过程。

亚马逊云科技推出新型生成式AI助手Amazon Q

亚马逊云科技发布办公场景专用生成式 AI 助手 Amazon Q，可定制化回答复杂问题、生成内容，并适用于多个服务和应用程序。

微信截图_20231207085053.png

【AiBase提要:】
🚀 定制化助手服务: Amazon Q 可根据企业需求定制，帮助员工快速获取答案、生成内容，并执行操作，提高工作效率。
🔒 数据安全保障: 助手可根据个人权限进行个性化定制，同时保障数据安全和隐私，确保客户内容不被用于底层模型训练。
🔄 广泛应用场景: Amazon Q 在多个服务和应用程序中提供支持，包括数据驱动描述、客服支持、供应链优化等，满足企业多方面需求。

👨‍💻💡🎯聚焦开发者

Meta改进SAM，参数仅为原版5%

对于2023年的计算机视觉领域来说，「分割一切」是备受关注的一项研究进展。Meta提出了一种改进的SAM模型，通过掩码图像预训练的方式降低了模型的复杂性，并保持了良好的性能。该模型在图像分类、物体检测和分割等任务上取得了比其他预训练基线更好的结果，并且在小模型上获得了显著收益。通过预训练和微调，SAM模型在不同任务上都有优秀的表现，为计算机视觉领域的研究和应用带来了新的可能性。

论文链接:https://arxiv.org/pdf/2312.00863.pdf

论文主页:https://yformer.github.io/efficient-sam/

【AiBase提要】
⭐Meta提出了改进的SAM模型，通过掩码图像预训练的方式降低了模型的复杂性。
⭐SAM模型在图像分类、物体检测和分割等任务上取得了比其他预训练基线更好的结果。
⭐SAM模型在小模型上获得了显著收益，为计算机视觉领域的研究和应用带来了新的可能性。

MIT与Adobe联手开发DMD

MIT和Adobe的研究团队提出了分布匹配蒸馏（DMD）方法，将扩散模型转化为一步图像生成器，以显著提高生成速度并保持图像质量与Stable Diffusion相当。

项目网址:https://tianweiy.github.io/dmd/

论文网址:https://arxiv.org/abs/2311.18828

【AiBase提要:】
🔄 创新方法: DMD通过分布匹配蒸馏将扩散模型转化为一步图像生成器，显著减少神经网络评估次数，提高生成效率。
🌐 数据优化: 通过对文本到图像数据进行精细调整，解决了在通用文本到图像数据上扩大模型的难题，实现了高效的图像生成。
📈 性能超越: DMD在速度上超越了Stable Diffusion v1.5，同时在多项任务中取得优异成绩，图像质量相当，为交互式应用提供了更多可能性。

田渊栋团队最新论文解决大模型部署难题

田渊栋团队通过新的KV缓存方法成功解决大型语言模型在实际部署中的内存和输入长度限制问题，将推理系统的吞吐量提高了近30倍。

论文地址:https://arxiv.org/pdf/2306.14048.pdf

代码地址:https://github.com/FMInference/H2O

【AiBase提要:】
🚀 新KV缓存方法解难题: 田渊栋团队提出基于重要tokens的KV缓存逐出策略，显著减少内存占用，提高大型语言模型在长输入序列任务中的表现。
⚙️ 实验证实效: 在OPT、LLaMA和GPT-NeoX等模型上验证方法准确有效，推理系统吞吐量提高了29倍至3倍，且在相同批量大小下延迟最多可减少1.9倍。
📄 论文重要性: 该论文成果在NeurIPS'23将展示，对大型语言模型的部署和应用具有重要意义，为解决KV缓存成本和泛化能力问题提供了新思路。

AI换脸图像合成框架FaceStudio 支持多人图像合成

FaceStudio是一种身份保留合成方法，旨在在图像生成过程中保持主题的身份，并添加个性化的风格。与传统方法相比，FaceStudio通过直接前馈机制实现了快速高效的图像生成，避免了繁琐的调优和多个参考图像的需求。

项目地址:https://icoz69.github.io/facestudio/

【AiBase提要】
1. FaceStudio 是一种身份保留合成方法，支持多人图像合成。
2. FaceStudio 通过直接前馈机制实现快速高效的图像生成。
3. 模型支持多人身份混合。

（举报）

相关推荐
大家在看

关键词：

Gemini

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型

MetaAI近日推出了一种名为MA-LMM的新型模型，旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力，但在处理视频输入方面存在一些限制，例如上下文长度限制和GPU内存限制。其创新性的设计以及利用长期记忆库和顺序处理的方法使得该模型能够在各种复杂场景下取得显著成果，证明了其在多模态视频理解应用中的有效性和多功能性。

MA-LMM AI头条
Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

中国香港中文大学和SmartMore的研究人员推出了一种名为Mini-Gemini的新颖框架，通过增强多模态输入处理来推动VLMs的发展。Mini-Gemini采用了双编码器系统和一种新颖的补丁信息挖掘技术，结合一个特别策划的高质量数据集，使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容，从使其脱颖出。正如研究人员所承认的那样，Mini-Gemini在视觉理解和推理能力方面仍有改进�

Gemini Mini-Gemini AI头条
荐拒绝白人与亚洲人同框，Meta图像生成器的「歧视」，被人挖出来了

在人工智能构筑的世界中，AI有时会像人一样存在着某种偏见或倾向性。比如对于大语言模型言，由于训练数据的影响会不可避免地存在性别偏见、种族刻板印象，等等。对于TheVerge发现的这一现象，有网友分析称，这是Meta在训练的时候没有喂给模型关于这一场景足够的示例。

Meta
代码、模型全开源！贾佳亚团队多模态模型 Mini-Gemini登上热榜

香港中文大学终身教授贾佳亚团队最近推出了一款名为Mini-Gemini的多模态模型，该模型在多模态任务榜单上取得了显著成绩，其性能堪比GPT-4与DALLE3的结合。Mini-Gemini模型以其更精确的图像理解能力、更高质量的训练数据和更强的图像解析推理能力著称。这一成果不仅为开源社区带来了新的活力，也为多模态模型的发展和应用开辟了新的可能性。

Mini-Gemini AI头条
Meta 在 WhatsApp 中加入实时AI图像生成功能

当用户在与MetaAI的聊天中开始输入文本到图像的提示时，将看到随着添加更多关于想创建的内容的细节，图像如何变化。在Meta分享的示例中，一个用户输入了提示:“想象一场在火星上进行的足球比赛。这一新功能是Meta在其所有应用程序中推出AI功能的一部分，包括WhatsApp、Instagram、Facebook和Messenger。

WhatsApp Meta AI图像生成
谷歌推多模态视频模型VLOGGER，自动生成丰富动作视频

谷歌的研究人员最近推出了一款名为VLOGGER的多模态扩散模型，能够自动生成带语音、丰富动作的人物视频。用户只需向VLOGGER输入图像和语音，就可以获得逼真的视频效果。VLOGGER的推出为虚拟数字人的制作提供了更便捷、高效的解决方案，同时也在多模态视频生成领域取得了重要的技术突破。

VLOGGER 谷歌 AI头条
Meta推新框架OPT2I 提高SD图像生成一致性

Meta公司最近推出了一款名为OPT2I的新框架，该框架利用大型语言模型来提高SD图像从提示词到图像的生成过程中的一致性。OPT2I是一个优化框架，旨在提升T2I模型中的提示-图像一致性。OPT2I框架为提高T2I模型的提示-图像一致性提供了一种新的有效方法。

Meta AI头条
比Gemini Pro1.5强！可解读视频的多模态模型Pegasus-1公测

TwelveLabs最新发布了Pegasus-1的公测版本，这款视频-语言基础模型在视频理解领域取得了新突破。Pegasus-1是一款具有约17亿参数的视频-语言模型，能够以卓越的准确性和细节处理能力从视频输入中生成语言描述。Pegasus-1的不断进化与创新，为视频理解技术开辟新的可能性。

Pegasus-1 AI头条
MiniGPT4-Video官网体验入口视频理解多模态AI大模型使用地址

MiniGPT4-Video是什么？MiniGPT4-Video是为视频理解设计的多模态大模型，能处理时态视觉数据和文本数据，配标题、宣传语，适用于视频问答。用户可以上传视频，让模型生成标题与宣传语，理解特效处理，或作超美抒情诗。

MiniGPT4-Video
李未可科技正式推出WAKE-AI多模态AI大模型

4月18日，2024中国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI多模态大模型，具备文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕GPS轨迹视觉语音打造新一代LLM-Based的自然交互，同时多模态问答技术的加持，能实现所见即所问、所问即所得的精准服务。李未可科技合伙人&AI负责人古鉴表示WAKE-AI将逐步开放平台能力，便于更多企业及开发者调用WAKE-AI能力，共建AI硬件生态。

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

AI视野：谷歌推多模态大模型Gemini；抖音上线抖音心晴；苹果发布 MLX 模型框架；Meta推出AI图像生成器网站

今日大家都在搜的词：

热文

站长商机