首页 > 业界 > 关键词  > 多模态最新资讯  > 正文

新一代多模态内容生成模型Lumina-T2X 生成质量更高,成本更低

2024-05-11 16:01 · 稿源:站长之家

站长之家(ChinaZ.com)5月11日 消息:Lumina-T2X 是一个创新的内容生成系列模型,它采用了统一的 DiT(Diffusion Model)架构,能够通过文本生成图像、视频、多视角3D 对象以及音频剪辑。这一新系列模型在大幅提高生成质量的同时,显著降低了训练成本,展示了AI技术在内容创作领域的最新进展。

image.png

主要特点:

  • 多模态生成能力:能够处理和生成多种类型的媒体内容,包括图像、视频、3D 对象和音频。

  • 统一架构:所有 Lumina-T2X 模型都基于 DiT 架构,提供了一个通用的框架来处理不同的内容生成任务。

  • 成本效益:Lumina-T2X 在减少训练成本方面表现出色。例如,由50亿参数的 Flag-DiT 驱动的 Lumina-T2I,其训练计算成本仅为同类6亿参数模型的35%。

  • 高质量的图像生成:已发布的 Lumina-T2I 图像生成模型展示了出色的图像质量。

  • 高效的模型设计:Lumina-T2I 的模型主干采用了 Large-DiT,文本编码模型使用了 Llama2-7B,而 VAE(变分自编码器)则采用了 SDXL。

Lumina-T2X 系列模型的发布,为AI内容生成领域带来了新的选择,特别是在需要生成多种类型媒体内容的应用场景中。其高效的训练成本和高质量的输出,预示着AI在创意产业中的应用将更加广泛和深入。

随着技术的不断进步,我们可以预见,未来AI将在内容创作、媒体制作、游戏开发等多个领域发挥更大的作用。

模型下载地址:https://huggingface.co/Alpha-VLLM/Lumina-T2I/tree/main

论文地址:https://arxiv.org/pdf/2405.05945

举报

  • 相关推荐
  • DeepSeek V4又又灰度测试:全新界面、多模态重大升级没跑了

    快科技4月7日消息,DeepSeek V4预计本月发布,新模型可能包含快速版、深度版及多模态版三款,支持视觉功能。此前系统崩溃和灰度测试均暗示升级在即。程序员展示的新界面含快速、专家及视觉选项,与现有界面形成对比。此外,DeepSeek至少还有两款使用国产芯片的大模型在开发中。用户期待官方正式发布,并希望推出面向AI编程的特别版。

  • AI日报:智谱发布GLM-5V-Turbo多模态Coding大模型;Seedance 2.0 API正式全量开放;美团 LongCat-AudioDiT 开源

    本期AI日报聚焦多领域进展:智谱发布GLM-5V-Turbo多模态编程模型,实现视觉与编程深度融合;字节跳动火山引擎开放Seedance 2.0视频生成API;美团开源LongCat-AudioDiT,刷新语音克隆SOTA;字节豆包大模型日消耗Token破120万亿,国产模型调用量持续增长;蚂蚁数科推出专业级AI智能体DTClaw;Anthropic测试常驻代理Conway,支持独立UI与Webhook;谷歌即将开源120B参数Gemma 4模型;通义实验室发布Qwen3.6-Plus,提升编程智能体稳定性。

  • AI眼镜,阿里求稳

    4月15日,千问AI眼镜S1现货开售,近期对硬件颇为执着的阿里,似乎又在AI眼镜赛道拿出了一款力作。 实际上,在很多人眼中,千问AI眼镜S1,有点像是夸克AI眼镜S1的二进宫。 千问S1与夸克S1,在硬件端几乎没有差异,核心零部件也都搭载了高通骁龙AR1+恒玄BES2800双旗舰芯片、双目Micro-LED双光机、索尼IMX681等等。 相比之下,最大的差别其实在于软件层面——夸克S1的默认系统为�

  • 美团 AI ,“药”不能停

    4月14日,美团在乌镇健康大会上,正式向外发布了一款AI产品和一项会员服务。 聚焦家庭健康管理的AI产品“小团健康管家”,主要面向基础的问病问药与健康咨询服务,同时支持家庭健康档案管理和体检报告智能解读。从商业模式来讲,这款产品是希望借助AI健康助手,为美团的医药零售与医疗医美服务建立流量入口。 另一个最重要的产品是付费会员服务“健康卡”。该卡�

  • 火山AI赋能,荣威20周年解锁AI原生汽车全新可能

    荣威品牌将在4月21日迎来20周年庆典,届时将发布全球首个AI原生汽车序列,开启AI原生汽车时代。荣威与火山引擎深度合作,以火山AI技术为核心,联合打造火山AI汽车,推动AI汽车实现跨越式发展。其中,家越07作为核心车型,深度融合火山引擎的AI能力与荣威的造车底蕴,兼顾智能交互与家庭出行的舒适安全。从互联网汽车到AI原生汽车,荣威用二十年完成从跟随到引领的转变,此次发布将推动AI汽车行业进入全新发展阶段。

  • 被AI洗牌的人才市场:谁在决定你的身价?

    全球科技公司大裁员还在继续。今年2月以来,多家公司宣布裁员,有的裁员规模甚至是公司成立以来最大的一次。 甲骨文一夜之间上演「跨国大清洗」,预计裁员人数高达3万。Twitter前CEO Jack Dorsey创办的金融科技公司Block更是一次性砍掉40%员工。Meta也被曝正计划启动新一轮大规模裁员,20%(近1.6万)员工或将丢掉工作。 科技行业的大规模裁员正在世界各地蔓延。4月8日,《�

  • 长短剧集体承压,AI剧真的是大势所趋吗?

    近来,AI演员相关话题不断冲上热搜。本就活跃在公众视野的影视行业,也更加备受瞩目。 耀客传媒宣布签约两位AI数字艺人「秦凌岳」和「林汐颜」,并同步推出他们主演的AI短剧《秦岭青铜诡事录》。就在两名AI演员实名出道的同时,他们用于分享日常的社交媒体账号也一并被开通。 几乎是在同一时期,还出现「男二以下AI演员」「AI演员 人山人海」等热搜话题。据多家媒

  • AI日报:Kimi K2.6模型发布;腾讯QClaw海外版上线;爱奇艺回应“签约AI演员”

    本文汇总了AI领域最新动态:月之暗面发布Kimi K2.6模型,性能对标国际顶尖;腾讯QClaw海外版上线,支持主流模型并引入Agent“领养”机制;OpenAI为Codex新增“数字记忆”功能,提升协作效率但存安全风险;爱奇艺回应“签约AI演员”争议;谷歌Chrome浏览器Gemini功能扩展至更多亚太地区;谷歌AI Studio向Pro/Ultra会员免费开放;天猫超市推出首个AI智能体“超喵1.0”;Miclaw实现多端互联升级,支持跨设备协同与语音远程控制。

  • 智谱,大力出AI

    智谱和MiniMax的两份财报共同说明了一个问题:国产大模型上市是起点,而非终点。 一向以对标OpenAI为荣的智谱,在昨晚业绩会上180度大转弯,重新给自己贴上了标签——“中国的Anthropic”。 原因无他,一张资产报表揭露了智谱上市的真相。截至2025年末,智谱负债净额高达81.1亿元,已经陷入了资不抵债的境况,若无上市注资,生存都可能成为问题。从这个意义上来说,年初的

  • 奇点算力深耕AI算力服务底座建设

    在大模型训练、推理及AIGC等需求持续增长的背景下,真正能立足市场的企业需在具体业务环节中持续投入、打磨并兑现服务承诺。深圳奇点算力正是这样一家深耕AI算力服务的平台型企业,从GPU资源接入、设备部署到IDC托管、运维监控及故障响应,围绕影响客户体验的关键节点持续发力。其扎实的底座能力、强化的交付链路及优化的服务流程,为行业提供了更稳定、可靠、高效的服务样本,不仅服务客户,也推动AI算力行业从“看概念”向“看能力”转变。未来,奇点算力将持续完善平台能力,强化GPU算力交付与场景适配,为下游客户提供更稳定、可持续的算力支持。

今日大家都在搜的词: