AI视野：Runway推出Gen-2视频合成功能；Midjourney支持生成文字；实时生图技术StreamDiffusion开源；智源开源Emu2模型

2023-12-22 15:24 · 稿源：站长之家

🤖📱💼AI应用

Runway推出Gen-2视频合成功能

地址最新功能支持将多个Gen2生成的视频合成到一个场景中，用户可轻松创造丰富的场景内容视频，类似于Photoshop的图层功能。

地址:https://top.aibase.com/tool/runway

【AiBase提要】:
🚀 Runway新功能允许用户将多个Gen2生成的视频合成，形成更为丰富的场景内容视频。
🎥 利用Gen-2合成工作流程，用户可将人物、风景、建筑等元素融合到一个场景中，类似于Photoshop的图层功能。
🎨 合成工作流程包括定制运动、编辑视频、覆盖主题视频在生成的背景视频上，并通过调整色彩等手段使合成更加无缝和协调。

Midjourney能生成文字了

Midjourney发布V6版本，图像更真实、文字生成功能问世，创始人表示是团队从头开始训练的第三个模型，更新包括图像优化、文字处理等5大升级。

【AiBase提要】
🖼️ 图像升级:V6版本图像更真实，细节处理更细腻，人物和风景图表现出众。
📝 文字生成功能:新增基础文字绘制功能，用户可以对简单文字进行处理。
⚙️ 技术升级:V6带来更精确、更长的提示响应，改进了连贯性和模型知识，训练历时9个月。

谷歌Duet AI推出移除背景功能

谷歌最新推出的Duet AI技术可使用户在Google幻灯片和绘图中方便地移除图片背景，旨在提升用户编辑效率和体验。

【AiBase提要:】
🖼️ 移除背景功能: 用户上传图片至Google幻灯片或绘图，通过右键点击或工具栏/格式菜单选择，即可轻松移除图片背景，提高编辑效率。
🔍 简便操作: 整个过程仅需几秒钟，让用户迅速保留主题，但需手动裁剪以避免缩小图片。
🌐 拓展AI应用: 新功能将作为Workspace Labs的一部分开放，谷歌继续扩展其AI技术应用范围，提供更高效和直观的编辑工具。

ComfyUI Portrait Master2.2版本发布

ComfyUI 最新发布了 Portrait Master2.2版本，引入全新姿势库，并提供与 Portrait Master 兼容的工作流程文件。该版本集成了放大器和两个 ControlNet，进一步提升了姿势管理和控制功能。

项目地址:https://github.com/florestefano1975/comfyui-portrait-master/

【AiBase提要:】
🎨 精准控制外貌特征: Portrait Master 提供丰富参数，可调整每个特征的权重，实现对生成图像的精细控制。
🔄 智能提示生成: 用户可通过简单命令定义生成人像的提示，包括外貌和姿态，支持正向和负向提示。
🚀 灵活安装与更新: 提供便捷的安装和更新方式，通过 ComfyUI Manager 或命令行手动安装，保持功能和性能的最新版本。

Privado推出开源LLM聊天应用MuroChat

Privado.ai推出的开源LLM聊天应用MuroChat旨在解决基于大型语言模型的聊天机器人引入的数据隐私风险，通过自动检测和删除敏感数据加强企业数据保护。

Privado体验网址:https://top.aibase.com/tool/privado

【AiBase提要:】
🔸 Privado.ai推出开源的LLM聊天应用MuroChat，专注于解决聊天机器人引入的数据隐私风险。
🔸 MuroChat通过集成大型语言模型，自动检测和删除敏感数据，满足企业组织的数据保护需求。
🔸 特性包括数据防火墙、单一登录支持、本地聊天历史记录等，旨在提供全面的数据安全解决方案。

👨‍💻💡🎯聚焦开发者

StreamDiffusion开源

StreamDiffusion是基于LCM和SDXL Turbo技术的开源项目，每秒可生成110张图像，为实时图像生成产品开发提供强大资源。

项目地址:https://top.aibase.com/tool/streamdiffusion

【AiBase提要:】
🚀 StreamDiffusion基于LCM和SDXL Turbo技术，每秒生成110张图像。
🔧 项目支持多种模型和输出帧率，提供显著性能增强。
🔄 除高性能外，通过流程优化、指导机制改进等技术，为实时图像生成者提供有价值的开源资源。

Stable AI向开发者开放视频生成模型SVD的API服务

稳定AI公司发布基于图像的视频生成模型SVD，并通过API服务开放，尽管使用备受争议的LAION-5B数据集进行训练。

SVD体验网址:https://top.aibase.com/tool/stable-video-diffusion

【AiBase提要:】
🚀 SVD模型上线: 稳定AI发布基于图像的视频生成模型SVD，通过API服务向开发者提供，可整合到各应用领域。
🤔 数据争议: 使用LAION-5B数据集引发关切，该数据集涉及儿童性虐待材料，导致争议，但SVD在视频生成质量上仍领先。
🌐 竞争态势: 稳定AI计划推出用户界面，与竞争对手Runway和Pika Labs竞争，提供多样化视频生成功能。

魔搭社区开源多模态对齐统一框架OneLLM

OneLLM是一种多模态对齐的框架，利用通用编码器和统一的投影模块与大型语言模型对齐多模态输入，支持视频、音频、图像等多种数据类型。

微信截图_20231222082654.png

【AiBase提要】
🔍 多模态对齐框架: OneLLM采用通用编码器和统一投影模块，实现视频、音频、图像等多模态输入的对齐。
🔄 模态切换实现: 使用modality tokens实现在不同模态之间的灵活切换。
📊 强大性能验证: 实验证明OneLLM在视频-文本、音频-视频-文本等任务中优于现有方法，表现出较强的零样本能力。

Github代码链接:

https://github.com/csuhan/OneLLM

模型权重链接:

https://modelscope.cn/models/csuhan/OneLLM-7B

模型创空间:

https://modelscope.cn/studios/csuhan/OneLLM

📰🤖📢AI新鲜事

研究揭示:谷歌Gemini Pro在基准测试中落后于免费ChatGPT

谷歌Gemini Pro在卡内基梅隆大学的研究中未能达到预期水平，基准测试中表现不如GPT-3.5，甚至远远不及GPT-4，与谷歌发布会上的信息相矛盾。

【AiBase提要】
📉 性能落后: Gemini Pro在基准测试中远不如GPT-3.5，研究结果与谷歌发布的信息相矛盾，强调中立基准测试机构的必要性。
🔄 信息矛盾: Gemini团队声称即将推出的"Ultra"版本将超越GPT-4，但研究发现谷歌已对Ultra的基准结果进行操纵。
🧐 表现差异: Gemini Pro在数学推理、多选题等方面表现不佳，对自身基准的依赖不足以可靠衡量语言模型性能，强调仅依赖自我报告的基准测试不可靠。

苹果AI新突破:在iPhone上部署大型语言模型成为可能

苹果AI研究人员通过创新的闪存利用技术，成功将大型语言模型（LLMs）部署到内存有限的iPhone等设备上，为更先进的Siri功能、实时语言翻译和复杂AI驱动功能打开了新的可能性。

【AiBase提要】
🔍 内存限制挑战解决:苹果AI团队开发了一种创新的闪存利用技术，巧妙绕过iPhone内存限制，成功在设备上部署大型语言模型。
🚀 AI效率突破:通过窗口化技术和行列捆绑技术，AI模型在闪存中运行的规模达到iPhone可用内存的两倍，提高处理速度4-5倍（CPU）和20-25倍(GPU)。
🌐 未来AI应用展望:这一突破为iPhone打开了新的AI应用可能性，包括更先进的Siri功能、实时语言翻译以及在摄影和增强现实中的复杂AI驱动功能。

OpenAI参投，法律科技公司Harvey获5.7亿元融资

由OpenAI参与投资的法律科技公司Harvey成功融资5.7亿元，基于OpenAI的GPT-4系列模型，为律师提供深度定制ChatGPT助手，与全球大律所普华永道达成战略合作。

【AiBase提要:】
⚖️ Harvey宣布获得8000万美元B轮融资，估值达7.15亿美元，由凯鹏华盈、红杉资本、OpenAI初创基金等投资。
🌐 基于OpenAI的GPT-4系列模型，Harvey为律师提供深度定制ChatGPT助手，在法律领域取得优异成绩，全球大律所普华永道成为核心战略合作伙伴。
🌐 Harvey积极扩大市场影响力，与普华永道、OpenAI技术合作，助力开发专有法律ChatGPT助手，应用于法律、税务、人力资源等多个领域。

一位中国教授使用AI创作科幻小说，荣获全国大奖

一位清华大学教授计划创作关于元宇宙和人形机器人的科幻小说，最终由人工智能完成整本书，名为《记忆之地》，赢得国家科幻奖项。

【AiBase提要】
📚 清华教授使用AI撰写的《记忆之地》荣获国家科幻奖项。
🧠 故事由AI生成，以元宇宙探险家为主角，探讨失忆与人工智能的复杂关系。
🤖 虽受赞誉，但评审指出AI写作或许对文学语感带来挑战。

🤖📈💻💡大模型动态

智源开源Emu2模型

智源研究院推出Emu2，采用自回归生成式多模态预训练，在多模态上下文学习方面取得显著突破。Emu2在少样本多模态理解任务上表现出色，超越了Flamingo-80B和IDEFICS-80B。

微信截图_20231222081722.png

AiBase提要:
🚀 Emu2采用大规模自回归生成式多模态预训练，在多模态上下文学习方面取得显著突破。，
💡 Emu2在少样本多模态理解任务上超越主流模型，包括Flamingo-80B和IDEFICS-80B。，
🌐 Emu2是目前最大的开源生成式多模态模型，分别推出Emu2-Chat和Emu2-Gen，成为性能最强的视觉理解和生成模型。

项目:https://baaivision.github.io/emu2/

模型:https://huggingface.co/BAAI/Emu2

代码:https://github.com/baaivision/Emu/Emu2

Demo:https://huggingface.co/spaces/BAAI/Emu2

论文:https://arxiv.org/abs/2312.13286

Meta发布全新AI翻译大模型

Meta发布全新AI翻译大模型，实时语音转换延迟不超过2秒，可模仿语气、语速、情绪，解决了“莫得感情”问题。模型系列包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless。

【AiBase提要:】
🚀 Meta发布全新AI翻译大模型，实现实时语音转换，模仿语气与情感。
🌐 模型系列包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless。
🔐 采用非自回归架构、核心算法EMMA，引入“毒性缓解”和音频水印技术，提高翻译质量和安全性。

（举报）

相关推荐

关键词：

Runway

OpenAI的开源模型现已在IBM watsonx.ai上提供

OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B，允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台，采用专家混合架构，支持本地或云端部署，不受商业用途限制。模型具备高透明度，输出完整推理链，在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态，IBM强调其开放战略，为企业提供灵活、安全的AI开发选择。

OpenAI模型 IBM watsonx.ai
从瑞幸×浪浪山到喜茶×Chiikawa，萌系联名如何破圈？

最近，社交平台再次被一波萌系联名刷屏了。瑞幸推出的《浪浪山小妖怪》主题杯迅速成为职场人士新宠，杯身上“诸邪退散”的字样精准击中打工人的共鸣点;喜茶与Chiikawa的联名产品首日发售，全国多家门店排起长龙，粉丝们纷纷在社交平台晒出集齐全套周边的照片…… 这些现象不禁让人好奇，为什么萌系联名总能一次次引爆市场?本期跟随「克劳锐」的视角一起看看吧~

萌系联名品牌营销社交平台
从“手动挡”进入“AI智能挡”：亚数TrustAsia 开启证书管理「服务化」CaaS 新时代

随着TLS/SSL证书有效期缩短至47天，企业面临信任中断风险加剧、内部系统协同困难及预警监测缺失三大挑战。亚数TrustAsia推出新一代智能证书管理体系TrustAsia CaaS，通过自动化流程实现证书全生命周期管理，提供六大核心能力：资产发现与管理、多CA自动化签发、自动化分发部署、实时监测告警、无缝集成定制及全流程自动化，有效应对加密敏捷性需求，助力企业构建安全可信�

数字化转型 TLS/SSL证书网络安全
2025WAIC 聚焦：扫描全能王“无限扫描”技术破解文保数字化难题

2025世界人工智能大会上，合众信息旗下扫描全能王展示了"无限扫描"技术，为文物数字化带来突破。该技术成功应用于南京博物院镇馆之宝《坤舆万国全图》的数字化，这幅1608年的地图是国内现存最早、最完整的中文世界地图。通过AI技术，解决了大尺寸文物拍摄不全、拼接困难、图像畸变等难题，只需简单拍摄视频即可生成高清数字图像。AI还能智能识别地图元素，实现"让文物说话"的数字化体验。该技术也适用于工程设计图纸等大尺寸文档的数字化保存，突破物理条件限制，为文化传承开启新篇章。（140字）

人工智能文保数字化无限扫描技术
生活小妙招：戴三星Galaxy Watch8系列即可轻松保持健康

三星Galaxy Watch8系列智能手表通过9大健康技巧帮助用户轻松实现"网红同款"健康生活：1)规律作息时间；2)优化睡眠环境；3)每日正念练习；4)个性化健康目标设定；5)坚持规律运动；6)训练后充分恢复；7)多样化蔬果摄入；8)控制酒精与夜宵；9)保持充足水分。手表配备睡眠指导、生物电阻抗分析、抗氧化指数检测等功能，可提供个性化健康建议，实时追踪身体指标，并通过SmartThings设备优化生活环境，让健康管理触手可及。

健康生活智能手表自律日常
化被动为主动戴三星Galaxy Watch轻松养成健康生活习惯

在健康信息碎片化的当下，良好生活习惯与长期健康管理正被越来越多人所重视。为了引导更多用户主动选择健康的生活方式，新款智能手表三星Galaxy Watch8系列【1】焕新而来。其搭载多项创新传感器技术，可以提供全方位数据概览与清晰且可操作的健康洞察，帮助用户更深入了解个人身心状态，养成健康生活习惯，并能够及早识别潜在的健康威胁。▲三星Galaxy Watch8系列的抗�

健康管理生活习惯智能手表
苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

今日，苹果公司如期向iPhone用户推送了iOS18.6.1正式版更新，距离上一次正式版发布仅过去16天。尽管此次更新并未给国行用户带来功能上的显著变化，但它却为美版Apple Watch用户带来了一个期待已久的好消息——血氧检测功能的回归。据更新日志详细说明，此次iOS18.6.1更新特别针对美国市场的Apple Watch Series9、Series10以及Apple Watch Ultra2用户，重新启用了血氧检测功能。用户现在�

iOS18.6.1 Apple Watch
苹果iOS 26开发者预览版Beta 7发布：美版Apple Watch血氧回归

今天凌晨，苹果发布了iOS 26开发者预览版Beta 7，虽然已经处于测试后期，但依然加入了新功能。首先是美版Apple Watch的血氧检测功能回归，这与上周的iOS 18.6.1正式版同步，为美国Apple Watch Series 9、Series 10和Apple Watch Ultra 2用户提供了新的血氧体验。从2024年1月18日开始，因美国国际贸易委员会（ITC）认定苹果部分Apple Watch血氧传感器专利侵权，所有在美国销售的Apple Watch Series 9�

iOS 26 Apple
首款鸿蒙AI智能手表！华为WATCH 5新款上市 2699元起

华为WATCH 5新款上市，包括46mm星河蓝、42mm极光绿两款，售价分别为2999元和2699元。一同上市的还有两款氟橡胶表带，静谧蓝和栖霞粉，售价均为199元。以上四款产品均将于8月22日上午10:08正式开售。华为WATCH 5于今年6月11日发布，搭载鸿蒙5系统，也是首款鸿蒙AI智能手表！

华为WATCH 5 鸿蒙5系统
荐AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatcher；我国首个法律垂直大模型“小包公”发布

本文介绍了AI领域最新动态：1)腾讯推出电影级音频生成工具AudioGenie，展现中国AI技术实力；2)阿里开源多模态智能体WebWatcher，突破现有系统局限；3)港大等高校联合推出3D建模技术OmniPart，实现模型组件独立性和清晰度；4)Meta发布无需标注数据的通用图像处理模型DINOv3；5)国内首个法律大模型"小包公"发布；6)ChatGPT移动端收入突破20亿美元；7)安卓厂商借鉴灵动岛设计，新芯片推动AI功能普及；8)欧洲AI公司推出仅94MB的超小模型；9)Claude Code新增编程教学模式；10)AI技术被滥用于电商恶意退款；11)IDC报告显示2024年中国AI公有云服务市场将快速增长。

AI 腾讯AudioGenie 电影级音效

今日大家都在搜的词：

热文

3 天
7天

AI视野：Runway推出Gen-2视频合成功能；Midjourney支持生成文字；实时生图技术StreamDiffusion开源；智源开源Emu2模型

OpenAI的开源模型现已在IBM watsonx.ai上提供

从瑞幸×浪浪山到喜茶×Chiikawa，萌系联名如何破圈？

从“手动挡”进入“AI智能挡”：亚数TrustAsia 开启证书管理「服务化」CaaS 新时代

2025WAIC 聚焦：扫描全能王“无限扫描”技术破解文保数字化难题

生活小妙招：戴三星Galaxy Watch8系列即可轻松保持健康

化被动为主动戴三星Galaxy Watch轻松养成健康生活习惯

苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

苹果iOS 26开发者预览版Beta 7发布：美版Apple Watch血氧回归

首款鸿蒙AI智能手表！华为WATCH 5新款上市 2699元起

荐AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatcher；我国首个法律垂直大模型“小包公”发布

今日大家都在搜的词：

热文

罗永浩泡面1小时销售额超280万 2小时售罄：一桶近10元

AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音

李国庆婚礼收到11万余元善款受助学生寄来祝福

REDMI Note 15标准版发布：售价999元起

魅族22延期上热搜：将于9月中上旬发布

小米MIX Flip 2钻石限定版发布：售价6999元

荣耀Magic V Flip2发布：售价5499元起

华为首款鸿蒙MateTV发布支持灵犀触控交互等功能

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

罗永浩官宣明日将公布TBT项目号称九年磨一面

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

REDMI Note 15 Pro+首搭自研澎湃T1S芯片

AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；

AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测

罗永浩泡面1小时销售额超280万 2小时售罄：一桶近10元

黑神话官号更名系列游戏将开启宏大篇章

AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发

站长商机