AI视野：Gemini即将登陆Pixel8Pro；GPT商店将于季度推出；聊天机器人Grok登陆X；阿里夸克大模型通过备案

2023-12-08 15:48 · 稿源：站长之家

📰🤖📢AI新鲜事

谷歌Gemini AI模型即将登陆Pixel8Pro

谷歌宣布Gemini AI模型首次亮相Pixel8Pro，旨在提升设备智能、加速反应速度，将逐步覆盖整个Android生态系统。

【AiBase提要:】
🚀 谷歌Gemini AI模型将首次登陆Pixel8Pro，推动设备智能革新。
💡 Gemini Nano是本地优先版本，加速反应速度，无需互联网连接。
📱 Pixel8Pro成为首款兼容Gemini Nano的手机，提供独特离线体验。

聊天机器人Grok登陆X

Elon Musk的xAI推出的聊天机器人Grok登陆X，以“一点机智”和“叛逆精神”自居，通过实时访问X数据提供更时效性的答案，面向Premium Plus订户。

【AiBase提要:】
🚀 Grok是xAI推出的ChatGPT竞争对手，以“一点机智”和“叛逆精神”为特色，主要服务X的Premium Plus订户。
🎙️ Grok通过实时访问X数据，相较于ChatGPT和Google's Bard，提供更时效性的答案，能回答其他AI系统拒绝的“辛辣问题”。
🌐 Grok计划改进底层模型以处理视频、音频等多模态数据，为X转型提高订阅吸引力，与广告商撤离形成对策。

OpenAI宣布GPT商店将于第一季度推出

OpenAI计划在2024年第一季度推出GPT商店，用户可在商店中出售他们创建的GPT。同时，董事会将从三人扩充至九人，加强AI峰会纽约的发展。此外，企业客户将有自助门户，通过信用卡支付服务费用。

【AiBase提要:】
🚀 GPT商店计划: OpenAI将在2024年第一季度推出GPT商店，用户可在商店中销售定制的GPT。
🤝 董事会扩充: OpenAI董事会将从三人扩充至九人，推动AI峰会纽约的发展。
🌐 企业客户门户: OpenAI计划推出企业客户自助门户，用户可通过信用卡支付服务费用。

谷歌承认Gemini AI模型演示视频不真实

谷歌刚发布的Gemini AI模型被指控在宣传视频中误导性陈述其性能，公司承认演示实际上使用了静态图像帧，引发争议。

【AiBase提要:】
🔍 误导演示视频: 谷歌Gemini发布后，被指责在演示视频中夸大其性能，实际使用静态图像帧而非实时操作。
🤖 官方回应: 谷歌回应称为简洁起见缩短了Gemini演示视频，并表示所有用户提示和输出是真实的，以激发开发者的灵感。
👀 争议背景: 此不是谷歌首次涉及争议性演示视频，引发对Gemini实际能力的质疑。

新一代酷睿Ultra处理器已适配超10款国内大模型

英特尔新一代酷睿Ultra处理器在联想举办的“AIPC产业创新论坛”上透露，已适配超过10款国内大型AI模型，强调对“尺寸适合”的模型进行全适配，加强与国内产业链合作。

【AiBase提要:】
🔄 英特尔酷睿Ultra处理器成功适配10款国内大模型。
🤖 英特尔承诺与模型厂商合作，将新模型快速移植到平台上。
🤝 合作伙伴联想集团宣布“AI PC先锋行动”推动AI PC的普及和落地。

谷歌推王炸级图像生成功能Generative Powers of Ten

Google发布了名为“Generative Powers of Ten”的图像生成功能，通过联合多尺度扩散采样方法，实现对生成图像的无限放大，能够在不同比例下创建深层次的缩放，是一项重要突破。

论文地址:https://arxiv.org/pdf/2312.02149.pdf

【AiBase提要:】
🌐 多尺度扩散采样方法: 采用联合多尺度扩散采样，保持不同尺度的一致性，比传统方法实现更深层次的缩放。
🚀 预训练扩散模型: 使用预训练的扩散模型去噪多个不同尺度的场景图像，实现对应清晰图像的估计。
🔬 突破性进展: 与其他生成缩放方法相比，该方法能够产生更深层次的缩放，并在不同缩放级别间保持一致性，是一项重要的技术突破。

ChatGPT在图灵测试中败给上世纪60年代的计算机程序ELIZA

加州大学圣迭戈分校的研究发现，ELIZA在图灵测试中成功率达27%，超过ChatGPT的14%，但GPT-4则表现更强大，成功率为41%。

【AiBase提要:】
📉 UC圣迭戈研究发现ELIZA在图灵测试中胜过ChatGPT，引发对OpenAI的尴尬评价。
🤯 ELIZA以27%的成功率模拟人类，而GPT-3.5仅为14%，但GPT-4成功率为41%。
🧐 有学者认为，ChatGPT并非为在图灵测试中表现良好而设计，而GPT-4在测试中表现更强大。

微软计划推出超越OpenAI的大模型

微软高管透露计划推出更多超越OpenAI的大语言模型，以满足企业客户的需求。微软强调其生成式 AI 应用及驱动这些应用的模型是安全可靠的，但专注于文本生成的公司能更快推进。

【AiBase 提要:】
微软计划推出更多超越 OpenAI 的大语言模型;
生成式 AI 应用是安全可靠的;
专注文本生成的公司能更快推进。

“AI脱衣”应用横行访问量剧增达2400万人次

由于人工智能技术进步，“AI脱衣”应用和网站在2023年9月访问量激增至2400万人次，引发对深度伪造色情的担忧和法律难题。

【AiBase提要:】
📈2023年9月，使用人工智能将女性照片“脱衣”的应用和网站访问量激增，达到2400万人次。
🌐 这些服务通过社交媒体广告，广告链接在社交媒体上的增长超过2400%，引发对非同意深度伪造色情的担忧。
⚖️ 随着AI技术进步，深度伪造软件变得更容易且更有效，导致普通人对普通目标进行此类行为，引发隐私和法律问题。

🤖📈💻💡大模型动态

Meta发布高效SAM模型EffcientSAM

Meta发布EfficientSAM模型，通过引入SAMI预训练成功降低SAM模型计算复杂性，实现20倍速度提升、参数减少20倍，性能仅损失约1.5mIoU。

项目地址:

https://yformer.github.io/efficient-sam/

在线demo地址:

https://6639e86fff1fc7b618.gradio.live

【AiBase提要:】
🚀 创新方法: EfficientSAM引入SAMI预训练，通过SAM图像编码器重建特征，有效提升视觉表示学习，在零样本实例分割任务上表现优越。
⚖️ 性能提升: 在多个视觉任务中，EfficientSAM在图像分类、目标检测、实例分割和语义目标检测等方面表现卓越，为SAM模型实际应用提供更广泛可能性。
🌐 新可能性: EfficientSAM的提出为SAM模型的应用提供新的可能性，特别在计算资源有限的实际场景中，通过SAMI预训练成功平衡性能和计算复杂性。

阿里夸克大模型通过备案

阿里智能信息事业群的夸克大模型已完成备案，将在通识、健康、创作等领域升级内容产品与智能工具，推出一系列AIGC创新应用。夸克大模型在搜索、生产力工具和资产管理等应用中展现出卓越性能，将全面升级，提升用户在学习、工作和生活上的效率。

【AiBase提要:】
🚀 技术备案完成: 阿里夸克大模型通过备案，即将在多领域升级内容产品与智能工具。
🌐 AIGC创新应用: 以生成式人工智能为基础，夸克大模型将在通识、健康、创作等领域推出创新应用。
🔍 全面升级用户体验: 阿里将借助大模型的能力，提升用户在学习、工作、生活中的整体体验。

Stability AI发布30亿参数语言模型StableLM Zephyr3B

最新发布的StableLM Zephyr3B是一款30亿参数的大语言模型，专为聊天应用场景进行了优化，包括文本生成、摘要和内容个性化。这款新模型是Stability AI早在今年四月首次提及的StableLM文本生成模型的较小、优化版本。

【AiBase 提要:】
🚀Stability AI 发布30亿参数语言模型 StableLM Zephyr3B，优化用于聊天应用，更小更快更节省资源。
🔍该模型通过直接偏好优化训练，结合优化数据集，在性能评估中表现出色。
🌐Stability AI 继续推动能力和工具的发展，致力于实现生成语言模型的民主化。

🤖📱💼AI应用

JetBrains推出中立供应商的新AI编码助手

JetBrains发布了一款新的AI编码助手，结合多个大型语言模型，实现供应商中立。该助手从开发者IDE获取信息，使用多个语言模型提供编码建议、代码重构和文档支持。开发者可根据任务选择不同模型，确保灵活性。服务目前仅对付费客户开放，但JetBrains计划将其推广到其他产品中。尽管只有17%的开发者愿将代码创作委托给AI，但有56%表示愿意让AI助手编写代码注释和文档。

截屏2023-12-08 上午10.20.30.png

【AiBase提要:】
🚀 供应商中立的AI编码助手: JetBrains发布了一款AI编码助手，使用多个大型语言模型，避免依赖单一AI平台，实现供应商中立。
💡 任务定制化选择模型: 开发者可根据任务选择不同模型，灵活应对编码建议、代码重构和文档支持需求。
💰 付费客户先行，拓展计划进行中: 服务目前仅对付费客户开放，计划将来推广到其他产品，提供更广泛的支持。

👨‍💻💡🎯聚焦开发者

ComfyUI推出最新插件workspace-manager，支持一键安装模型

ComfyUI的最新插件workspace-manager推出，用户可在界面上一键安装模型，实现便捷工作流管理，支持工作流程共享。

项目地址:https://github.com/11cafe/comfyui-workspace-manager

【AiBase提要:】
🚀 ComfyUI推出workspace-manager插件，用户可轻松在界面上切换工作流，省去本地保存和替换的步骤。
🔄 安装简便，只需将存储库克隆到ComfyUI根文件夹，即可享受轻松切换工作流、创建和重命名工作流程的功能。
🌐 未来计划包括一键模型安装和工作流程共享，提升用户体验，使得ComfyUI成为高效工作流管理的理想选择。

北大等发布智能体Jarvis-1

最近，北大、北邮、UCLA和BIGAI的研究团队合作发布了一款名为 Jarvis-1的智能体，引起了广泛关注。该智能体在开放世界游戏「我的世界」中表现出色，实现了多模态感知、记忆增强和多任务处理。

论文地址:https://arxiv.org/pdf/2311.05997.pdf

【AiBase提要:】
🚀 北大、北邮、UCLA和BIGAI联合发布的Jarvis-1在开放世界游戏「我的世界」中取得重大突破，采用多模态+记忆增强+多任务处理，表现卓越。
🎮 Jarvis-1通过多模态感知、记忆增强和终身学习，在游戏中展现近乎完美性能，成功完成复杂任务，标志通用智能体迈向更高学习水平。
🛠️ Jarvis-1的成功源于感知能力升级、多模态记忆应用以及自我指导和完善，为开放世界智能体的发展提供了重要经验和启示。

研究人员推视频运动控制器MotionCtrl

研究人员近日推出了名为MotionCtrl的视频生成技术，通过独立控制摄像机和物体的运动，实现了更精细和多样化的运动控制。MotionCtrl的两个模块，摄像机运动控制模块（CMCM）和物体运动控制模块(OMCM)，以及精心设计的架构和训练策略，使其在生成视频时表现出较之前方法更为出色的性能。

论文地址:https://arxiv.org/pdf/2312.03641.pdf

【AiBase提要:】
🎮 MotionCtrl是一款视频生成技术，独立控制摄像机和物体运动，实现更灵活、精细的运动控制。
🌐 通过两个模块独立训练，MotionCtrl在有限数据集上展现出优异的性能。
📹 运动条件由摄像机姿态和轨迹决定，生成的视频保持物体自然外观，具有更真实感。

新视频编辑模型VideoSwap 可精细化替换视频主体

新加坡国立大学的VideoSwap框架采用语义点对应取得卓越效果，解决了传统视频编辑中形状变化挑战，实现源视频主体与目标主体的精细化替换。

论文网址:https://arxiv.org/pdf/2312.02087.pdf

项目网址:https://videoswap.github.io/

【AiBase提要:】
🔄 视频主体定制替换:VideoSwap框架通过语义点对应实现源视频主体与目标主体的形状变化替换。
🚗 形状变化挑战:传统基于扩散的视频编辑在处理形状变化时效果有限，VideoSwap引入语义点对应以应对这一挑战。
🌐 视频编辑革新:采用语义点对应的VideoSwap框架在自定义视频主体替换方面取得了卓越的效果，为视频编辑领域带来创新。

MIT斯坦福Transformer最新研究:过度训练会让中度模型“结构顿悟”

通过过度训练，中度Transformer模型展现出结构性泛化能力，被称为"结构顿悟"，在捕捉句子层级结构方面表现优异。研究发现深度与泛化呈倒U形关系，中深度模型的泛化能力最强。

AiBase提要
😲 中度Transformer模型经过过度训练后展现出"结构顿悟"，在泛化到新结构输入时捕捉句子层级结构更为有效。
📊 模型深度与结构顿悟呈倒U形关系，中深度模型在泛化能力上超过深度和浅度模型。
🤖 提前停止训练会低估泛化性能，中度深度的Transformer模型在泛化到新结构输入时具有显著优势。

大海捞针”实验验证RAG+GPT-4Turbo模型卓越性能

通过“大海捞针”实验证明，RAG+GPT-4Turbo模型在生成响应时表现卓越，仅需4%的成本，为大型语言模型领域带来重要突破。

【AiBase提要:】
🚀 性能飙升，低成本高性价比: RAG+GPT-4Turbo在“大海捞针”实验中展现出卓越性能，仅需4%的成本，实现生成响应的高准确性。
🔍 超具体响应实现关键技术: 下一阶段的LLM重点在于通过上下文窗口填充、RAG和微调等技术，实现在不同使用情境下的超具体响应。
⚡️ RAG技术优越性: 在实验中，RAG模型以较低成本（仅为GPT-4Turbo的4%）表现出色，尤其在大规模上下文处理方面优于传统上下文窗口填充。

（举报）

相关推荐
大家在看

关键词：

Gemini

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Gemini 1.5 Pro API怎么申请注册使用？Gemini 1.5 Pro AI模型官网地址入口

Gemini1.5Pro是Google开发者平台推出的下一代AI模型。它支持语音理解、系统指令、JSON输出等新功能，并推出了新一代文本嵌入模型Gecko，性能大幅提升。要了解更多关于Gemini1.5Pro的信息，并开始体验这一先进的AI模型，请访问Gemini1.5Pro官网。

Gemini1.5Pro
抖音AI聊天豆包体验地址字节豆包聊天机器人app下载

豆包是一款由抖音旗下开发的AI智能助手，提供聊天对话、问答解答、写作辅助、文案生成、翻译服务等多种功能。用户可以通过豆包获取信息、灵感，进行创作辅助，也可以和豆包进行有趣的对话。-豆包的文案生成功能依托于自然语言处理技术，为用户提供创作灵感和辅助工具。

豆包 AI智能助手聊天对话
InternLM2官网体验入口中文AI聊天机器人模型使用地址

InternLM2是一个面向中文和英文的大型多语言预训练语言模型。它具有语言理解、自然语言生成、多模式推理、代码理解等强大的能力。该系列模型包含多种规模，用户可以选择合适的模型进行下游任务微调或构建聊天机器人等应用。

InternLM2
iOS18或不包含苹果自研聊天机器人

据彭博社知名记者马克・古尔曼的最新报道，苹果即将在即将发布的iOS18系统中，带来一批全新的AI功能。引人关注的是，这些功能将完全在设备端运行，无需依赖云服务器进行处理。全球开发者将有机会一睹这些全新AI功能的真容，并期待它们为苹果生态带来更加出色的表现和体验。

苹果 iOS18 AI功能
谷歌宣布Gemini 1.5 Pro开放API 新增多项功能

Google宣布开放其AI模型Gemini1.5Pro的API，这一版本在原有基础上进行了大幅度的功能扩展，现已在180多个国家提供。Gemini1.5Pro引入了对原生音频的理解能力，以及文件API和系统指令等新功能。这个新模型在MTEB基准测试中取得了更强的检索性能，超过了具有可比维度的所有现有模型。

Gemini1.5Pro AI头条
荐谷歌重磅发布Gemini 1.5 Pro：能自动写影评，理解视频！

4月10日凌晨，谷歌在官网正式发布了Gemini1.5Pro，现在可在180多个国家/地区使用。除了能生成创意文本、代码之外，Gemini1.5Pro最大的特色是能根据用户输入的文本提示，理解、总结上传的视频、音频内容进行深度总结，并且支持100万tokens上下文。Gemini1.5Pro已经全面开放使用了，有兴趣的小伙伴赶紧去试试吧。

Gemini1.5Pro Google AI
比Gemini Pro1.5强！可解读视频的多模态模型Pegasus-1公测

TwelveLabs最新发布了Pegasus-1的公测版本，这款视频-语言基础模型在视频理解领域取得了新突破。Pegasus-1是一款具有约17亿参数的视频-语言模型，能够以卓越的准确性和细节处理能力从视频输入中生成语言描述。Pegasus-1的不断进化与创新，为视频理解技术开辟新的可能性。

Pegasus-1 AI头条
School AI：为每个学生创建自己的聊天机器人

圣地亚哥的托勒小学正在试行一项名为SchoolAI的创新计划，为每个学生提供一个定制的聊天机器人作为个人人工智能学习助手。SchoolAI旨在为学生打造个性化的学习体验，激发他们的好奇心和积极性。SchoolAI还利用AI技术提供实时洞察力，帮助教师更好地了解和支持每位学生。

聊天机器人
苹果“史诗级”更新！曝iPhone今年下半年引入AI聊天机器人

苹果计划在今年下半年为iPhone引入聊天机器人在内的一系列AI功能，以此来提振iPhone手机的销量。苹果计划在新的iOS中采用谷歌Gemini来提供聊天机器人，同时苹果也将推出自家的AI引擎，但主要是负责幕后工作。此前苹果营销主管乔斯维亚克表示，苹果今年的全球开发者大会活动将完全不可思议”，暗示将有关于AI的重大发布。

苹果 iPhone AI功能
Mini-Gemini:简单有效的AI框架，增强多模态视觉语言模型

中国香港中文大学和SmartMore的研究人员推出了一种名为Mini-Gemini的新颖框架，通过增强多模态输入处理来推动VLMs的发展。Mini-Gemini采用了双编码器系统和一种新颖的补丁信息挖掘技术，结合一个特别策划的高质量数据集，使其能够有效处理高分辨率图像并生成内容丰富的视觉和文本内容，从使其脱颖出。正如研究人员所承认的那样，Mini-Gemini在视觉理解和推理能力方面仍有改进�

Gemini Mini-Gemini AI头条

TravAI:是一款AI驱动的旅行培训产品，提供交互式AI培训、模拟、评估和智能助手，为旅行行业人员提供最新的技能和知识。

TravAI是一款旅行行业的AI驱动培训产品，通过注入AI技术，为培训注入活力。它能创建引人入胜、交互式的培训课程，进行逼真的角色扮演模拟，并设计能够真正起作用的测验。同时，TravAI利用您的数据为旅行团队量身定制个性化学习体验，让培训不再是通用的、一刀切的。它是培训旅行业专业人员的更智能、更快速的方式。

旅行培训 AI

Nextminds:是一家提供在线辅导服务的平台，为所有科目和学术水平的学生提供个性化辅导。

Nextminds是一个提供在线辅导服务的平台，通过与经验丰富的导师在线互动，为学生提供个性化的学习经验。平台提供ICSE、CBSE和州委员会等多种教育体系的辅导。Nextminds的主要优点是学生可以在舒适的家中与专业的导师进行一对一的在线学习，为学生提供高质量的辅导服务。

在线辅导学习个性化

Pedagogue.io:每天花费10分钟，提升您的AI技能。

Pedagogue是一款AI技能培训平台，旨在帮助个人和企业提升AI技能。通过该平台，用户可以学习AI工具、技术和策略，并获得40%的生产力提升。Pedagogue的优势在于更新及时的内容库、个性化的技能培养、有趣的学习方式以及具有商业价值的数据驱动洞察。

AI 技能培训教育

LexiGym:你的语言学习伴侣。🚀 # #HinkouLabs

LexiGym是一款语言学习应用，帮助用户提升语言技能。它具有离线和多语言支持的创新功能，是最强大的语言学习伴侣。用户可以根据自己的预算选择免费使用或付费订阅，灵活选择学习方式。LexiGym还提供易于创建字典和智能学习等功能，以及详细的训练统计数据。

语言学习词汇训练多语言

Alevels.ai:A Levels AI是一个利用人工智能提高A Levels学习成绩的工具。

A Levels AI利用人工智能技术，提供个性化的学习计划和辅导资源，帮助学生在A Levels考试中取得优异成绩。它通过分析学生的学习情况和弱点，为其提供针对性的学习建议和练习题。A Levels AI还提供实时答疑和学习进度跟踪功能，帮助学生更好地掌握知识。

教育考试辅导人工智能

MailReply:是一款AI助手，可生成专业且人性化的邮件回复，节省时间。

MailReply通过AI生成邮件回复，帮助用户节省时间。它可以在保持人类写作风格的同时，根据邮件内容生成上下文相关的回复。MailReply适用于Windows和macOS，并兼容多种邮件客户端。

邮件回复 AI助手工具

Notification harbor:高性能团队的电子邮件营销平台

Notification harbor是一个为电子邮件营销团队提供AI优化的电子邮件内容和自动化流程的平台。通过使用LLM技术，我们可以在短短5分钟内创建高性能的电子邮件营销内容，并且随着时间的推移，产品甚至可以自我优化。我们的平台简化了电子邮件营销活动的方式，确保每个活动都能精准地与您的目标受众建立联系。AI生成的电子邮件模板根据您提供的信息和要求选择最合适的模板。实时个性化电子邮件可以提高用户参与度和转化率，并根据每个用户实时定制内容。AI驱动的电子邮件营销使您的团队在创建电子邮件模板和文本方面节省了60％的时间。

AI视野：Gemini即将登陆Pixel8Pro；GPT商店将于季度推出；聊天机器人Grok登陆X；阿里夸克大模型通过备案

今日大家都在搜的词：

热文

站长商机