AI视野：谷歌推小模型MobileDiffusion；Midjourney测试风格一致性功能；字节跳动推AI Bot开发平台扣子；LLaVA-1.6赶超Gemini Pro

2024-02-01 15:20 · 稿源：站长之家

欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

🤖📱💼AI应用

谷歌最新文生图小型模型:MobileDiffusion

【AiBase提要:】
🌟专门为手机开发的文生图模型
🌟0.5秒内生成高质量512x512图像
🌟参数大小:共5.2亿参数
产品入口:https://top.aibase.com/tool/mobilediffusion
产品介绍:https://www.chinaz.com/2024/0201/1594690.shtml

Midjourney测试“风格一致性”功能

【AiBase提要:】
🌟可以从多张图片学习对应的风格然后结合提示词生成图片
🌟提供一个或多个图像的链接，用以描述想要的统一风格。
🌟该功能支持 V6和 Niji V6版本（不支持 V5等旧版本）
🌟未来将增加“一致性角色”特性
设置教程:https://www.chinaz.com/2024/0201/1594716.shtml

字节跳动推“Coze扣子”AI Bot开发平台

【AiBase提要:】
🤖 支持用户搭建自己的Chatbot
🔌 提供Bots商店和插件
🌐 功能丰富，包括无限拓展的能力集
官网地址:https://top.aibase.com/tool/coze

上海智能实验室推图文多模态大模型InternLM-XComposer2（浦语·灵笔2）

【AiBase提要:】
📈 浦语·灵笔2具有海量图文知识
🔍 输入图片和简短的文字生成图文混排长文章
📉 浦语·灵笔2基于书生·浦语2-7B模型
项目地址:https://top.aibase.com/tool/internlm-xcomposer2

Meta 推ReplaceAnything3D可用文本引导3D场景编辑

【AiBase提要:】
👉提出Erase-and-Replace方法
👉展示了RAM3D的多样性
👉解决了替换3D场景中的挑战
论文网址:https://arxiv.org/pdf/2401.17895.pdf

AI智能剪辑软件——AIMIX

【AiBase提要:】
🌟支持短视频批量混剪生产源源不断的短视频
🌟可以提取视频或音频里的文案，生成视频字幕
🌟提供了十几种真人语音配音，也支持源视频配音
🌟可通过简单的拖动进行场景排序，生成新的短视频脚本
产品入口:https://top.aibase.com/tool/aimixzhijian
产品介绍:https://www.chinaz.com/2024/0201/1594744.shtml

智能海报生成平台嗨AI海报30秒批量生成带货海报

QQ截图20240201094750.png

【AiBase提要:】
⭐ 提供免费AI智能海报生成平台
⭐ 一键生成多种设计风格和模板
⭐ 支持快速生成节日海报、邀请函、日签等
官网地址:https://top.aibase.com/tool/heiaihaibao

免费AI换脸网站Change Face 一键玩转动漫名人变脸

【AiBase提要:】
⭐ 免费AI换脸网站
⭐ 利用人工智能算法实现面部交换
⭐ 支持换脸图片和视频
官网地址:https://top.aibase.com/tool/changeface-ai

Media2Face:支持语音等多模态引导生成3D面部动态表情

【AiBase提要:】
🧠 引入广义神经参数化面部资产（GNPFA），高度概括的表达潜在空间解耦表情和身份
🌈 创造 M2F-D 数据集，接受来自音频、文本和图像的多模态引导，拓展了3D面部动画的表现力和风格适应性
💡 Media2Face在共语面部动画领域取得了令人瞩目的成果，为面部动画合成的逼真度和表现力开辟了新的可能性。
产品项目入口:https://sites.google.com/view/media2face

📰🤖📢AI新鲜事

OpenAI着手研发GPT-4的早期预警系统

【AiBase提要:】
🤖 一项研究表明GPT-4与互联网相结合，在生物危害任务的准确性和完整性上略有改善，但效果不显著
🌐 研究限制，仅评估信息获取而非实际应用，未探讨GPT-4在新型生物武器开发中的潜在贡献
🏥 对100名参与者进行的研究，根据五个结果指标评估了参与者的表现，部分指标有所改善，但效果不足以在统计学上具有显著性

小米小爱同学AI助手通过大模型备案

【AiBase提要:】
⭐ 小爱同学AI助手通过国家备案
⭐ 小爱同学拥有更强大的大脑
⭐ 小爱同学AI助手将面向更广泛用户群体开放体验

谷歌计划推出高级订阅服务Bard Advanced

【AiBase提要:】
⭐ 谷歌计划推出高级订阅服务Bard Advanced
⭐ Bard Advanced将被锁定为订阅模式
⭐ Bard Advanced将由Gemini Ultra提供支持，预计将在“2024年初”发布

LLaVA-1.6来了!赶超Gemini Pro 提升推理性能

【AiBase提要:】
⭐ LLaVA-1.6提升了推理、OCR能力，支持更多场景和广泛用户。
⭐ LLaVA-1.6在多项基准测试中超越了Gemini Pro，并优于Qwen-VL-Plus。
⭐ LLaVA-1.6展现出强大的零样本中文能力，取得了SOTA性能。

Shopify发布“Magic”图像编辑器等AI增强功能，助力商家智能经营

【AiBase提要:】
🤖 "Magic"图像编辑器，自动生成产品描述、常见问题解答等营销文案，大幅提升效率
🤖 “Smart Sidekick”AI商业顾问，提供个性化建议，传递Shopify专业经验
🔍 利用AI改进搜索体验，语义搜索功能通过自然语言处理更好地理解搜索意图，搜索到购买转化率增加了7%

（举报）

相关推荐

关键词：

MobileDiffusion

荐AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型上线；亚马逊推AI代码编辑器 Kiro

【AI日报】今日AI领域重要动态：1)美图推出RoboNeo，通过自然语言指令实现图片精修、品牌设计等全能影像处理；2)Unsloth AI将Kimi K2模型量化至1.8bit，体积缩减78%保持性能；3)谷歌Gemini嵌入模型登顶MTEB榜单，超越OpenAI；4)亚马逊发布免费AI代码编辑器Kiro，集成Claude模型；5)Claude新增应用工具目录功能提升工作效率；6)MiniMax完成近3亿美元融资，估值超40亿美元；7)UTCP新协议让AI代理直
全球优质AI语音大模型盘点：Whisper、Gemini Speech

本文分析了当前主流AI语音大模型的核心优势与应用场景。全球顶尖模型包括：OpenAI Whisper（多语言识别与翻译）、Google Gemini（情感化语音生成）、Meta AudioCraft（音乐创作与风格转换）。国内讯飞星火（方言识别）、阿里通义（电商客服）、百度文心（车载场景）表现突出。技术突破点在于云端协同架构、零样本克隆和情感语音合成。选择模型需考虑语言支持、场景适配、部署

AI语音大模型语音交互技术多语言识别
王腾：REDMI Turbo 4 Pro非常成功很多友商都在关注

REDMI总经理王腾发文表示，REDMI上半年发布的Turbo 4 Pro非常成功，受到了广大用户的喜爱，也收到了很多友商的关注。据悉，REDMI Turbo 4 Pro于4月份发布，首发起售价是1999元，该机上市不到一个月累计销量突破100万台，成为行业内最火的Turbo手机。随着REDMI Turbo系列的热销，各大品牌纷纷推出Turbo系列手机，主打高性能，对此王腾表示，领先的一种体现就是被模仿，说明REDMI这几�
谷歌推出终端AI编程工具Gemini CLI Gemini CLI安装使用教程一览

近日，谷歌在AI编程领域推出了一款备受瞩目的终端AI编程工具——Gemini CLI。这款免费开源的工具一经发布，便在开发者群体中引发了广泛关注，其强大的功能和免费开源的特性，使其在众多同类产品中脱颖而出，甚至让一些竞争对手如Claude Code相形见绌。如果您对AI编程工具感兴趣，想要了解更多类似的产品，可以访问 [AIbase - 智能匹配最适合您的AI产品和网站]（https://top.aiba

Gemini CLI AI编程工具
分析师称MacBook Pro将升级OLED屏：Mini LED退场

Omdia分析师Linda Lin在一份研究报告中重申，首批搭载OLED屏幕的MacBook将于2026年问世。尽管她未特别提及MacBook Pro，但业界普遍认为，OLED屏将率先在高端MacBook Pro上首发，随后才会应用到价格更低的MacBook Air系列上。当前MacBook Pro使用的是Mini LED屏，这块屏升级了液晶层背光，把背光中的LED灯小型化，本质上仍然是LCD屏幕，每个LED灯珠尺寸约在50-200um之间，让背光层拥有更多的背�

OLED屏幕 MacBook Pro
各大厂商都开始推Turbo手机王腾用一句广告词调侃友商

博主数码闲聊站爆料称，各大厂商都开始推Turbo系列产品，中端产品线竞争逐渐加剧，电池不断刷新行业纪录。对此，REDMI总经理王腾表示，想起一句广告词，有人模仿我的脸，有人模仿我的面。据了解，这句广告词出自统一食品，统一率先在行业内推出老坛酸菜系列，随后不少企业也跟风推出类似的方便面。统一食品便邀请知名主持人汪涵拍摄广告片，这句经典广告语有�
荐「6月26日AI日报」可灵AI推全球首部AIGC单元剧；谷歌开源AI智能体Gemini CLI

AI行业近期动态汇总：1)豆包AI编程升级为"应用创作1.0"，支持可视化编辑和实时预览，降低开发门槛；2)谷歌开源Gemini CLI工具，集成Gemini 2.5 Pro模型，提供免费编程助手；3)Anthropic推出"Artifacts"功能，用户无需编程即可在Claude中创建AI应用；4)出门问问发布TicNote+硬件产品，内置Shadow AI技术；5)OpenAI将Codex CLI重构为Rust语言以提升性能；6)谷歌发布Imagen4文生图模型，突�

AI编程零代码应用创作
加速Robotaxi部署滴滴自动驾驶进入爆发前夜

滴滴自动驾驶在第十七届国际交通技术设备展上亮相新一代L4级量产车型，配备33个传感器，展现技术突破。公司宣布将持续加大研发投入，与广汽埃安成立合资公司加速无人驾驶商业化落地。目前滴滴Robotaxi车队已在北京、广州等城市稳定运营超1800天无重大事故，并计划年内部署千台车辆。凭借多年技术积累和资本支持（累计融资超15.5亿美元），滴滴正迈向规模化商业运营新阶段。近期与广州市政府达成战略合作，进一步拓展智慧交通应用场景，标志着其自动驾驶技术进入爆发前夜。

滴滴自动驾驶国际交通展 L4级车型
刷屏世俱杯的RGB-Mini LED有多能打？央视拆机探秘看球黑科技

海信在2025世俱杯期间展示了其RGB-Mini LED电视技术，通过红绿蓝三原色独立背光光源实现更纯净色彩和更高能效。相比传统电视需要二次色彩转换，该技术直接呈现原色，解决了拖影、色偏等问题，能效提升20%以上。海信通过自主研发的AI画质芯片和RGB背光芯片，攻克了三原色同步控制等技术难题。该技术已应用于85-116英寸大屏电视，成为行业认可的下一代显示方向，标志着中国显示技术从跟随到引领的跨越。
荐A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0；通义千问发布Qwen Chat桌面客户端

本期AI日报重点报道了多项AI领域突破性进展：1.月之暗面推出万亿参数开源大模型Kimi K2，展现强大智能能力；2.智源研究院开源RoboBrain2.0和RoboOS2.0机器人系统；3.通义千问发布桌面客户端Qwen Chat；4.IndexTTS2实现影视级语音合成；5.HuggingFace开源机器人Reachy Mini热销；6.Meta推出实时视频生成模型StreamDiT；7.PixVerse新增多关键帧视频生成功能；8.特斯拉推出仅支持AMD处理器的Grok AI助手；9.OpenAI推迟开源大模型发布以加强安全测试；10.Liquid AI开源边缘AI模型LFM2；11.AI"时间穿越"特效在社交媒体走红。

人工智能开源大模型技术趋势

热文

3 天
7天

AI视野：谷歌推小模型MobileDiffusion；Midjourney测试风格一致性功能；字节跳动推AI Bot开发平台扣子；LLaVA-1.6赶超Gemini Pro

荐AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型上线；亚马逊推AI代码编辑器 Kiro

全球优质AI语音大模型盘点：Whisper、Gemini Speech

王腾：REDMI Turbo 4 Pro非常成功很多友商都在关注

谷歌推出终端AI编程工具Gemini CLI Gemini CLI安装使用教程一览

分析师称MacBook Pro将升级OLED屏：Mini LED退场

各大厂商都开始推Turbo手机王腾用一句广告词调侃友商

荐「6月26日AI日报」可灵AI推全球首部AIGC单元剧；谷歌开源AI智能体Gemini CLI

加速Robotaxi部署滴滴自动驾驶进入爆发前夜

刷屏世俱杯的RGB-Mini LED有多能打？央视拆机探秘看球黑科技

荐A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0；通义千问发布Qwen Chat桌面客户端

热文

尾号“8个7”手机号拍出320万元溢价率高达146%

王化在小米履职10年雷军：谢谢这十年辛苦的工作和贡献

A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0

淘宝闪购：日订单量再次突破8000万创新高

黄仁勋与雷军合影上热搜一旁小米SU7 Ultra见证科技双雄会

AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型

抖音：“抖音会议”App是诈骗软件会直接控制用户手机

尾号“8个7”手机号拍出320万元溢价率高达146%

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模

小米回应AI眼镜没有屏显功能：专注拍摄、AI语音交互

王化在小米履职10年雷军：谢谢这十年辛苦的工作和贡献

A日报：月之暗面开源大模型Kimi K2；智源全面开源RoboBrain2.0

淘宝闪购：日订单量再次突破8000万创新高

黄仁勋与雷军合影上热搜一旁小米SU7 Ultra见证科技双雄会

AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型

腾讯客服回应误删微信聊天记录可撤销：苹果iOS机型已支持

周杰伦发布第一条抖音视频：回顾成长史粉丝超1200万

站长商机