首页 > 业界 > 关键词  > Runway最新资讯  > 正文

AI视野:Runway推出Gen-2视频合成功能;Midjourney支持生成文字;实时生图技术StreamDiffusion开源;智源开源Emu2模型

2023-12-22 15:24 · 稿源:站长之家

🤖📱💼AI应用

Runway推出Gen-2视频合成功能

地址最新功能支持将多个Gen2生成的视频合成到一个场景中,用户可轻松创造丰富的场景内容视频,类似于Photoshop的图层功能。

image.png

地址:https://top.aibase.com/tool/runway

【AiBase提要】:

🚀 Runway新功能允许用户将多个Gen2生成的视频合成,形成更为丰富的场景内容视频。

🎥 利用Gen-2合成工作流程,用户可将人物、风景、建筑等元素融合到一个场景中,类似于Photoshop的图层功能。

🎨 合成工作流程包括定制运动、编辑视频、覆盖主题视频在生成的背景视频上,并通过调整色彩等手段使合成更加无缝和协调。

Midjourney能生成文字了

Midjourney发布V6版本,图像更真实、文字生成功能问世,创始人表示是团队从头开始训练的第三个模型,更新包括图像优化、文字处理等5大升级。

image.png

【AiBase提要】

🖼️ 图像升级:V6版本图像更真实,细节处理更细腻,人物和风景图表现出众。

📝 文字生成功能:新增基础文字绘制功能,用户可以对简单文字进行处理。

⚙️ 技术升级:V6带来更精确、更长的提示响应,改进了连贯性和模型知识,训练历时9个月。

谷歌Duet AI推出移除背景功能

谷歌最新推出的Duet AI技术可使用户在Google幻灯片和绘图中方便地移除图片背景,旨在提升用户编辑效率和体验。

【AiBase提要:】

🖼️ 移除背景功能: 用户上传图片至Google幻灯片或绘图,通过右键点击或工具栏/格式菜单选择,即可轻松移除图片背景,提高编辑效率。

🔍 简便操作: 整个过程仅需几秒钟,让用户迅速保留主题,但需手动裁剪以避免缩小图片。

🌐 拓展AI应用: 新功能将作为Workspace Labs的一部分开放,谷歌继续扩展其AI技术应用范围,提供更高效和直观的编辑工具。

ComfyUI Portrait Master2.2版本发布

ComfyUI 最新发布了 Portrait Master2.2版本,引入全新姿势库,并提供与 Portrait Master 兼容的工作流程文件。该版本集成了放大器和两个 ControlNet,进一步提升了姿势管理和控制功能。

image.png

项目地址:https://github.com/florestefano1975/comfyui-portrait-master/

【AiBase提要:】

🎨 精准控制外貌特征: Portrait Master 提供丰富参数,可调整每个特征的权重,实现对生成图像的精细控制。

🔄 智能提示生成: 用户可通过简单命令定义生成人像的提示,包括外貌和姿态,支持正向和负向提示。

🚀 灵活安装与更新: 提供便捷的安装和更新方式,通过 ComfyUI Manager 或命令行手动安装,保持功能和性能的最新版本。

Privado推出开源LLM聊天应用MuroChat

Privado.ai推出的开源LLM聊天应用MuroChat旨在解决基于大型语言模型的聊天机器人引入的数据隐私风险,通过自动检测和删除敏感数据加强企业数据保护。

image.png

Privado体验网址:https://top.aibase.com/tool/privado

【AiBase提要:】

🔸 Privado.ai推出开源的LLM聊天应用MuroChat,专注于解决聊天机器人引入的数据隐私风险。

🔸 MuroChat通过集成大型语言模型,自动检测和删除敏感数据,满足企业组织的数据保护需求。

🔸 特性包括数据防火墙、单一登录支持、本地聊天历史记录等,旨在提供全面的数据安全解决方案。

👨‍💻💡🎯聚焦开发者

StreamDiffusion开源

StreamDiffusion是基于LCM和SDXL Turbo技术的开源项目,每秒可生成110张图像,为实时图像生成产品开发提供强大资源。

image.png

项目地址:https://top.aibase.com/tool/streamdiffusion

【AiBase提要:】

🚀 StreamDiffusion基于LCM和SDXL Turbo技术,每秒生成110张图像。

🔧 项目支持多种模型和输出帧率,提供显著性能增强。

🔄 除高性能外,通过流程优化、指导机制改进等技术,为实时图像生成者提供有价值的开源资源。

Stable AI向开发者开放视频生成模型SVD的API服务

稳定AI公司发布基于图像的视频生成模型SVD,并通过API服务开放,尽管使用备受争议的LAION-5B数据集进行训练。

image.png

SVD体验网址:https://top.aibase.com/tool/stable-video-diffusion

【AiBase提要:】

🚀 SVD模型上线: 稳定AI发布基于图像的视频生成模型SVD,通过API服务向开发者提供,可整合到各应用领域。

🤔 数据争议: 使用LAION-5B数据集引发关切,该数据集涉及儿童性虐待材料,导致争议,但SVD在视频生成质量上仍领先。

🌐 竞争态势: 稳定AI计划推出用户界面,与竞争对手Runway和Pika Labs竞争,提供多样化视频生成功能。

魔搭社区开源多模态对齐统一框架OneLLM

OneLLM是一种多模态对齐的框架,利用通用编码器和统一的投影模块与大型语言模型对齐多模态输入,支持视频、音频、图像等多种数据类型。

微信截图_20231222082654.png

【AiBase提要】

🔍 多模态对齐框架: OneLLM采用通用编码器和统一投影模块,实现视频、音频、图像等多模态输入的对齐。

🔄 模态切换实现: 使用modality tokens实现在不同模态之间的灵活切换。

📊 强大性能验证: 实验证明OneLLM在视频-文本、音频-视频-文本等任务中优于现有方法,表现出较强的零样本能力。

Github代码链接:

https://github.com/csuhan/OneLLM

模型权重链接:

https://modelscope.cn/models/csuhan/OneLLM-7B

模型创空间:

https://modelscope.cn/studios/csuhan/OneLLM

📰🤖📢AI新鲜事

研究揭示:谷歌Gemini Pro在基准测试中落后于免费ChatGPT

谷歌Gemini Pro在卡内基梅隆大学的研究中未能达到预期水平,基准测试中表现不如GPT-3.5,甚至远远不及GPT-4,与谷歌发布会上的信息相矛盾。

【AiBase提要】

📉 性能落后: Gemini Pro在基准测试中远不如GPT-3.5,研究结果与谷歌发布的信息相矛盾,强调中立基准测试机构的必要性。

🔄 信息矛盾: Gemini团队声称即将推出的"Ultra"版本将超越GPT-4,但研究发现谷歌已对Ultra的基准结果进行操纵。

🧐 表现差异: Gemini Pro在数学推理、多选题等方面表现不佳,对自身基准的依赖不足以可靠衡量语言模型性能,强调仅依赖自我报告的基准测试不可靠。

苹果AI新突破:在iPhone上部署大型语言模型成为可能

苹果AI研究人员通过创新的闪存利用技术,成功将大型语言模型(LLMs)部署到内存有限的iPhone等设备上,为更先进的Siri功能、实时语言翻译和复杂AI驱动功能打开了新的可能性。

【AiBase提要】

🔍 内存限制挑战解决:苹果AI团队开发了一种创新的闪存利用技术,巧妙绕过iPhone内存限制,成功在设备上部署大型语言模型。

🚀 AI效率突破:通过窗口化技术和行列捆绑技术,AI模型在闪存中运行的规模达到iPhone可用内存的两倍,提高处理速度4-5倍(CPU)和20-25倍(GPU)。

🌐 未来AI应用展望:这一突破为iPhone打开了新的AI应用可能性,包括更先进的Siri功能、实时语言翻译以及在摄影和增强现实中的复杂AI驱动功能。

OpenAI参投,法律科技公司Harvey获5.7亿元融资

由OpenAI参与投资的法律科技公司Harvey成功融资5.7亿元,基于OpenAI的GPT-4系列模型,为律师提供深度定制ChatGPT助手,与全球大律所普华永道达成战略合作。

【AiBase提要:】

⚖️ Harvey宣布获得8000万美元B轮融资,估值达7.15亿美元,由凯鹏华盈、红杉资本、OpenAI初创基金等投资。

🌐 基于OpenAI的GPT-4系列模型,Harvey为律师提供深度定制ChatGPT助手,在法律领域取得优异成绩,全球大律所普华永道成为核心战略合作伙伴。

🌐 Harvey积极扩大市场影响力,与普华永道、OpenAI技术合作,助力开发专有法律ChatGPT助手,应用于法律、税务、人力资源等多个领域。

一位中国教授使用AI创作科幻小说,荣获全国大奖

一位清华大学教授计划创作关于元宇宙和人形机器人的科幻小说,最终由人工智能完成整本书,名为《记忆之地》,赢得国家科幻奖项。

【AiBase提要】

📚 清华教授使用AI撰写的《记忆之地》荣获国家科幻奖项。

🧠 故事由AI生成,以元宇宙探险家为主角,探讨失忆与人工智能的复杂关系。

🤖 虽受赞誉,但评审指出AI写作或许对文学语感带来挑战。

🤖📈💻💡大模型动态

智源开源Emu2模型

智源研究院推出Emu2,采用自回归生成式多模态预训练,在多模态上下文学习方面取得显著突破。Emu2在少样本多模态理解任务上表现出色,超越了Flamingo-80B和IDEFICS-80B。

微信截图_20231222081722.png

AiBase提要:

🚀 Emu2采用大规模自回归生成式多模态预训练,在多模态上下文学习方面取得显著突破。,

💡 Emu2在少样本多模态理解任务上超越主流模型,包括Flamingo-80B和IDEFICS-80B。,

🌐 Emu2是目前最大的开源生成式多模态模型,分别推出Emu2-Chat和Emu2-Gen,成为性能最强的视觉理解和生成模型。

项目:https://baaivision.github.io/emu2/

模型:https://huggingface.co/BAAI/Emu2

代码:https://github.com/baaivision/Emu/Emu2

Demo:https://huggingface.co/spaces/BAAI/Emu2

论文:https://arxiv.org/abs/2312.13286

Meta发布全新AI翻译大模型

Meta发布全新AI翻译大模型,实时语音转换延迟不超过2秒,可模仿语气、语速、情绪,解决了“莫得感情”问题。模型系列包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless。

【AiBase提要:】

🚀 Meta发布全新AI翻译大模型,实现实时语音转换,模仿语气与情感。

🌐 模型系列包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless。

🔐 采用非自回归架构、核心算法EMMA,引入“毒性缓解”和音频水印技术,提高翻译质量和安全性。

举报

  • 相关推荐
  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • 从瑞幸×浪浪山到喜茶×Chiikawa,萌系联名如何破圈?

    最近,社交平台再次被一波萌系联名刷屏了。 瑞幸推出的《浪浪山小妖怪》主题杯迅速成为职场人士新宠,杯身上“诸邪退散”的字样精准击中打工人的共鸣点;喜茶与Chiikawa的联名产品首日发售,全国多家门店排起长龙,粉丝们纷纷在社交平台晒出集齐全套周边的照片…… 这些现象不禁让人好奇,为什么萌系联名总能一次次引爆市场?本期跟随「克劳锐」的视角一起看看吧~

  • 从“手动挡”进入“AI智能挡”:亚数TrustAsia 开启证书管理「服务化」CaaS 新时代

    随着TLS/SSL证书有效期缩短至47天,企业面临信任中断风险加剧、内部系统协同困难及预警监测缺失三大挑战。亚数TrustAsia推出新一代智能证书管理体系TrustAsia CaaS,通过自动化流程实现证书全生命周期管理,提供六大核心能力:资产发现与管理、多CA自动化签发、自动化分发部署、实时监测告警、无缝集成定制及全流程自动化,有效应对加密敏捷性需求,助力企业构建安全可信�

  • 2025WAIC 聚焦:扫描全能王“无限扫描”技术破解文保数字化难题

    2025世界人工智能大会上,合众信息旗下扫描全能王展示了"无限扫描"技术,为文物数字化带来突破。该技术成功应用于南京博物院镇馆之宝《坤舆万国全图》的数字化,这幅1608年的地图是国内现存最早、最完整的中文世界地图。通过AI技术,解决了大尺寸文物拍摄不全、拼接困难、图像畸变等难题,只需简单拍摄视频即可生成高清数字图像。AI还能智能识别地图元素,实现"让文物说话"的数字化体验。该技术也适用于工程设计图纸等大尺寸文档的数字化保存,突破物理条件限制,为文化传承开启新篇章。(140字)

  • 生活小妙招:戴三星Galaxy Watch8系列即可轻松保持健康

    三星Galaxy Watch8系列智能手表通过9大健康技巧帮助用户轻松实现"网红同款"健康生活:1)规律作息时间;2)优化睡眠环境;3)每日正念练习;4)个性化健康目标设定;5)坚持规律运动;6)训练后充分恢复;7)多样化蔬果摄入;8)控制酒精与夜宵;9)保持充足水分。手表配备睡眠指导、生物电阻抗分析、抗氧化指数检测等功能,可提供个性化健康建议,实时追踪身体指标,并通过SmartThings设备优化生活环境,让健康管理触手可及。

  • 化被动为主动 戴三星Galaxy Watch轻松养成健康生活习惯

    在健康信息碎片化的当下,良好生活习惯与长期健康管理正被越来越多人所重视。为了引导更多用户主动选择健康的生活方式,新款智能手表三星Galaxy Watch8系列【1】焕新而来。其搭载多项创新传感器技术,可以提供全方位数据概览与清晰且可操作的健康洞察,帮助用户更深入了解个人身心状态,养成健康生活习惯,并能够及早识别潜在的健康威胁。▲三星Galaxy Watch8系列的抗�

  • 苹果iOS 18.6.1正式版发布:美版Apple Watch血氧功能上线

    今日,苹果公司如期向iPhone用户推送了iOS18.6.1正式版更新,距离上一次正式版发布仅过去16天。尽管此次更新并未给国行用户带来功能上的显著变化,但它却为美版Apple Watch用户带来了一个期待已久的好消息——血氧检测功能的回归。 据更新日志详细说明,此次iOS18.6.1更新特别针对美国市场的Apple Watch Series9、Series10以及Apple Watch Ultra2用户,重新启用了血氧检测功能。用户现在�

  • 苹果iOS 26开发者预览版Beta 7发布:美版Apple Watch血氧回归

    今天凌晨,苹果发布了iOS 26开发者预览版Beta 7,虽然已经处于测试后期,但依然加入了新功能。 首先是美版Apple Watch的血氧检测功能回归,这与上周的iOS 18.6.1正式版同步,为美国Apple Watch Series 9、Series 10和Apple Watch Ultra 2用户提供了新的血氧体验。 从2024年1月18日开始,因美国国际贸易委员会(ITC)认定苹果部分Apple Watch血氧传感器专利侵权,所有在美国销售的Apple Watch Series 9�

  • 首款鸿蒙AI智能手表!华为WATCH 5新款上市 2699元起

    华为WATCH 5新款上市,包括46mm星河蓝、42mm极光绿两款,售价分别为2999元和2699元。 一同上市的还有两款氟橡胶表带,静谧蓝和栖霞粉,售价均为199元。 以上四款产品均将于8月22日上午10:08正式开售。 华为WATCH 5于今年6月11日发布,搭载鸿蒙5系统,也是首款鸿蒙AI智能手表!

  • AI日报:腾讯推音效生成工具AudioGenie;阿里推智能体WebWatcher;我国首个法律垂直大模型“小包公”发布

    本文介绍了AI领域最新动态:1)腾讯推出电影级音频生成工具AudioGenie,展现中国AI技术实力;2)阿里开源多模态智能体WebWatcher,突破现有系统局限;3)港大等高校联合推出3D建模技术OmniPart,实现模型组件独立性和清晰度;4)Meta发布无需标注数据的通用图像处理模型DINOv3;5)国内首个法律大模型"小包公"发布;6)ChatGPT移动端收入突破20亿美元;7)安卓厂商借鉴灵动岛设计,新芯片推动AI功能普及;8)欧洲AI公司推出仅94MB的超小模型;9)Claude Code新增编程教学模式;10)AI技术被滥用于电商恶意退款;11)IDC报告显示2024年中国AI公有云服务市场将快速增长。

今日大家都在搜的词: