首页 > 业界 > 关键词  > Midjourney最新资讯  > 正文

Midjourney团队公布进展:视频模型进展较慢 3D模型和实时生成效果显著

2024-05-16 15:09 · 稿源:站长之家

站长之家(ChinaZ.com) 5月16日 消息:Midjourney团队在最近的工作时间透露了他们在视频模型、3D模型、实时生成效果以及网站和模型开发方面的最新进展。以下是他们透露的关键信息:

AI画画机器人作画绘画

图源备注:图片由AI生成,图片授权服务商Midjourney

视频模型进展

视频模型的开发进度并不如预期那样迅速。尽管3D模型和实时生成的效果令人满意,但团队表示,即便是Sora级别的模型,也未能达到他们心目中的理想效果。

产品理念

Midjourney追求的不是随机性强、不可控的“老虎机”式产品。相反,他们致力于开发出既能够精准控制,又能提供高图像质量的技术产品。此外,他们希望这些产品的价格合理,使得普通消费者也能负担得起。

网站更新

Midjourney的网站即将进行一系列更新,包括:

私人房间功能:即将上线,为用户提供更个性化的服务。

用户开放:网站将对更多用户开放,以满足日益增长的需求。

新功能上线:包括数据统计在内的更多功能即将推出,以增强用户体验。

模型开发

在模型开发方面,Midjourney也取得了显著进展:

  • V6.1版本:即将发布的新版本将带来显著的图像质量、纹理和细节上的改进。

  • 个人定制模型:由于测试难度较大,个人定制模型的发布可能会稍晚一些。

  • V7版本:目前处于早期开发阶段,团队正在积极推进。

Midjourney团队对AI技术的持续追求和创新,展现了他们对产品质量和用户体验的重视。通过不断的技术迭代和功能更新,他们致力于为用户提供更加精准、高质量的AI技术产品。

举报

  • 相关推荐
  • 大家在看
  • midjourney教程:如何midjourney生成逼真的人像照片 附22个好用的midjourney提示词

    Midjourney是一款强大的图像生成工具,它通过使用成千上万的摄影图片进行训练,具备了生成逼真图像的能力。这种技术不仅彻底变革了摄影艺术,也使得每个人都能够成为艺术家,在Midjourney的数字画布上创作出具有变革性想法的作品。景深浅3、汤姆小白猫写真提示词:垫图AbeautifulChinesegirl,sweetsmile,whiteskin,brightbigeyes,delicatemakeup,pinkpowderblusherandeyeshadow,darkbrownhaircombedintotw

  • 谷歌推3D生成模型CAT3D 1分钟完成3D场景创建

    谷歌推出的CAT3D模型在3D重建领域取得了显著的进展,它通过使用多视角扩散模型来创建3D场景,提供了一种快速且高效的方法来生成3D内容。主要特点:快速生成:CAT3D能够在最短的时间内,即一分钟内完成整个3D场景的创建,这比现有的单图像和少视图3D场景创建方法要快得多。CAT3D的出现是3D重建技术的重大突破,它有潜力改变虚拟现实、游戏开发、建筑设计等多个行业,为用户

  • 腾讯开源人像照片生成视频模型V-Express

    腾讯公司开源了一款创新的模型V-Express,它能够使用人像照片生成视频。这一技术通过一系列逐步丢弃的操作来平衡不同控制信号,使得音频等较弱的信号得以有效利用,实现对姿态、输入图像和音频的综合控制。将继续深入研究V-Express方法,并探索其在更广泛领域的应用,以促进肖像视频生成领域的进一步发展。

  • midjourney提示词分享 22个效果超好的人像提示词

    Midjourney是一款强大的图像生成工具,它通过使用成千上万的摄影图片进行训练,具备了生成逼真图像的能力。这种技术不仅彻底变革了摄影艺术,也使得每个人都能够成为艺术家,在Midjourney的数字画布上创作出具有变革性想法的作品。景深浅3、汤姆小白猫写真提示词:垫图AbeautifulChinesegirl,sweetsmile,whiteskin,brightbigeyes,delicatemakeup,pinkpowderblusherandeyeshadow,darkbrownhaircombedintotwolovelyballheads,wearingawhitestraplessdress,whitelacegloves,pinkribbonbowtiedaroundherneck,softpurplebackground,studiolighting,85mmlens,close-uplens--ar3:4提示词中文大意:一位美丽的中国女孩,甜美的微笑,白皙的皮肤,明亮的大眼睛,精致的妆容,粉色腮红和眼影,深棕色头发梳成两个可爱的丸子头,穿着白色的抹胸连衣裙,戴着白色的蕾丝手套,脖子上系着粉色的缎带蝴蝶结,柔和的紫色背景,摄影棚灯光,85mm镜头,特写镜头4、竹韵国风美女AbeautifulChinesegirl,withcinematictexture,detailedfacialdetails,realisticskintexture,blackhairtiedinbraids,pairedwithhairaccessories,lightmakeup,wearingalightgreencheongsam,buttons,depthoffield,cleanbackground,naturallighting,softtones,delicatetexture,photography,high-definition,shotbyCanoncamera--ar3:4--v6.0--s750--styleraw一位美丽的中国女孩,电影质感,详细的面部细节,真实皮肤质感,黑色头发扎成辫子,配上发饰,淡妆,穿着浅绿色的旗袍,盘扣,景深,干净的背景,自然光照,柔和的色调,细腻的质感,摄影,高清,由佳能相机拍摄5、卷心菜娃娃Alittlebabymadeofcabbage,witharoundface,chubbyandcurlyeyelashes,resemblingahumanbody,butcoveredentirelyincabbage.Justwokeup,inthevegetablefield,witharealisticphotographystyle--ar3:4--v6.0--s750--styleraw一个用卷心菜做的小婴儿,圆脸,胖乎乎的,卷曲的睫毛,像人体,但全身都是卷心菜。

  • 浙大、蚂蚁集团推出MaPa:文本生成超真实3D模型

    浙江大学、蚂蚁集团、深圳大学联合推出了创新模型MaPa。与传统纹理方法不同的是,MaPa通过文本能直接生成高分辨率、物理光照、超真实材质的3D模型,可以极大提升游戏、VR、AR、影视等行业的开发效率。MaPa使用了连续迭代的方法,可以为模型的每个部分生成一致且真实的材质,即便是那些非常复杂的3D模型架构也没问题。

  • 我用midjourney浅仿一下抖音爆火的柯南动画风AI滤镜(附midjourney prompt)

    继丑萌的黏土滤镜之后,最近"柯南动画风"的AI滤镜在抖音火了。因其独特的风格和趣味性,吸引了大量用户尝试并分享,使得这一特效迅速走红。经典与现代结合:《名侦探柯南》的画风结合了经典日本漫画的特点和现代漫画的创新,使其具有广泛的吸引力。

  • 媲美Sora?快手文生视频模型可灵开放测试 更懂物理,最长可生成2分钟视频

    快手公司推出了一款名为「可灵」的全新视频生成大模型,该模型采用了与Sora相似的技术路线,并结合了快手自研的多项技术创新。这款模型不仅能够生成长达2分钟、30fps、1080p分辨率的超长视频,支持多种宽高比能模拟物理世界的特性,精准建模复杂运动。对AI视频创作感兴趣的用户,可以在快影APP中体验「可灵」大模型的功能。

  • Adobe 发布 VideoGigaGAN 超分辨率视频模型

    全球多媒体巨头Adobe与马里兰大学的研究人员合作推出了新的超分辨率视频模型VideoGigaGAN。该模型兼顾帧率连贯性和丰富细节,解决了当前超分辨率视频模型的难题。光流引导模块利用光流来预测视频帧中的像素级运动,保持特征的空间一致性,生成清晰的超分辨率视频。

  • 快手发布视频生成大模型「可灵」:已开放邀测 效果对标Sora

    快手发布了一款名为「可灵」的视频生成大模型,该模型效果对标了之前发布的Sora,同时已在快手旗下的快影App开放邀测体验。可灵大模型具有多项优势,包括能够生成大幅度的合理运动、模拟物理世界特性、具备强大的概念组合能力和想象力,以及支持高分辨率视频生成和自由的宽高比设置。基于可灵大模型,快手还计划推出更多应用方向,如AI舞王和AI唱跳功能,以提供更

  • 腾讯混元团队推出图生视频模型“Follow-your-Pose-V2”

    腾讯混元团队联合中山大学、香港科技大学宣布推出全新图生视频模型"Follow-your-Pose-V2”,实现单张图片多人动作驱动。用户只需输入一张人物图片和一段动作视频,模型便能巧妙地让图片中的人物跟随视频中的动作舞动,生成的视频长度可达10秒。模型还具备强大的泛化能力,无论是年龄、服装各异的人物是背景杂乱的场景,亦或是动作复杂的视频,它都能轻松应对,生�

  • HumanizeAI Text:提升AI文本的人性化程度,增强用户互动。

    Humanize AI Text是一个先进的AI文本人性化工具,能够将AI生成的文本转换成更自然、更具人性化的文本,以避免AI检测,并提升内容的吸引力和可读性。它支持多语言,增强了内容的全球可访问性。主要优点包括内容塑形、多语言掌握、可读性提升、写作助手以及实时反馈的人性化得分,帮助用户理解并改进写作的人性化感觉。

  • MagicPublish.ai:为YouTube生成元数据的智能工具

    MagicPublish.ai是一个专注于为YouTube视频内容创建者提供元数据生成服务的在线平台。它通过自动化的方式帮助用户生成视频描述、标签和缩略图,从而提升视频的SEO优化和观众吸引力。产品的主要优点包括操作简便、自动化程度高、能够显著提升视频的在线可见度。

  • AITopRank:发现2024年最佳AI工具

    AI Top Rank是一个专注于AI工具发现和推广的平台,旨在帮助用户发现和使用最新的AI工具,促进AI技术的普及和应用。平台提供每周更新的AI工具排行榜,用户可以投票支持自己喜爱的工具,也可以提交自己的AI工具进行推广。

  • AutoStudio:多轮交互式图像生成技术

    AutoStudio是一个基于大型语言模型的多轮交互式图像生成框架,它通过三个代理与一个基于稳定扩散的代理来生成高质量图像。该技术在多主题一致性方面取得了显著进步,通过并行UNet结构和主题初始化生成方法,提高了图像生成的质量和一致性。

  • Nemotron-4 340B:用于训练大型语言模型的开源合成数据生成管道。

    Nemotron-4 340B是NVIDIA发布的一系列开放模型,专为生成合成数据以训练大型语言模型(LLMs)而设计。这些模型经过优化,可以与NVIDIA NeMo和NVIDIA TensorRT-LLM配合使用,以提高训练和推理的效率。Nemotron-4 340B包括基础、指令和奖励模型,形成一个生成合成数据的管道,用于训练和完善LLMs。这些模型在Hugging Face上提供下载,并很快将在ai.nvidia.com上提供,作为NVIDIA NIM微服务的一部分。

  • Joor:完美的日记应用,记录你的想法。

    Joor是一款日记应用,它允许用户写下自己的想法,并由应用自动处理其余部分。它提供了一个简洁的界面,让用户能够轻松地记录下自己的思考和灵感,同时可能还具备一些自动整理和回顾的功能。

  • Samba:高效无限上下文语言模型的官方实现

    Samba是一个简单而强大的混合模型,具有无限的上下文长度。它的架构非常简单:Samba = Mamba + MLP + 滑动窗口注意力 + 层级MLP堆叠。Samba-3.8B模型在Phi3数据集上训练了3.2万亿个token,主要基准测试(例如MMLU、GSM8K和HumanEval)上的表现大大超过了Phi3-mini。Samba还可以通过最少的指令调整实现完美的长上下文检索能力,同时保持与序列长度的线性复杂度。这使得Samba-3.8B-instruct在下游任务(如长上下文摘要)上表现出色。

  • TC-Bench:视频生成模型的时间组合性评估工具

    TC-Bench是一个专门用于评估视频生成模型的时间组合性的工具。它通过精心设计的文本提示、相应的真实视频以及强大的评估指标来衡量视频生成模型在不同时间点上新概念的出现及其关系转换的能力。TC-Bench不仅适用于文本条件模型,也适用于图像条件模型,能够进行生成性帧插值。该工具的开发旨在推动视频生成技术的发展,提高生成视频的质量和一致性。

  • Promptchains:智能AI工作流构建器,释放AI潜力。

    Promptchains是一个革命性的AI工作流构建器,旨在通过提示链技术解锁AI的潜力。它将复杂任务转化为智能解决方案,实现AI的承诺。产品通过组合AI提示和其他工具到工作流中,使企业能够轻松定制、保存、重用和分享。它超越了AI交互的新奇性,创造了能够与熟练的人类员工并肩工作的解决方案。

  • Sanctuary:个性化冥想引导,由AI驱动,提升专注力,减压助眠。

    Sanctuary是一款利用尖端AI技术为用户提供个性化冥想指导的应用程序。它通过智能学习用户偏好,提供每日更新的冥想内容,帮助用户改善专注力,减少压力,并促进更好的睡眠。该应用拥有超过10万次的个性化冥想创建记录,用户反馈显示,它简化了冥想过程,使冥想变得容易和可访问,对于缓解焦虑和整体压力水平有显著效果。

  • Partnerplace:合作伙伴管理工具,提升合作效率。

    Partnerplace是一款专为合作伙伴关系管理设计的在线工具,它通过自动化繁琐的任务,如佣金处理,帮助企业高效管理和发展合作伙伴网络。该工具支持定制化合作伙伴计划,实现品牌专业体验,并通过集中化平台提高工作效率。Partnerplace的价值观包括弹性、参与度和连接性,旨在为用户提供一个完全定制化的、参与性强的、连接销售团队和CRM系统的合作伙伴管理系统。

  • Depth Anything V2:先进的单目深度估计模型

    Depth Anything V2 是一个经过改进的单目深度估计模型,它通过使用合成图像和大量未标记的真实图像进行训练,提供了比前一版本更精细、更鲁棒的深度预测。该模型在效率和准确性方面都有显著提升,速度比基于Stable Diffusion的最新模型快10倍以上。

  • OTTO SEO by Search Atlas:革命性的AI SEO工具,简化SEO工作流程。

    OTTO SEO是Search Atlas推出的一款AI驱动的SEO工具,旨在通过自动化技术优化网站,提高SEO效率。它通过添加OTTO像素到网站,能够自动执行网页优化,包括技术修复、内容优化、反向链接建设和内容创作。OTTO SEO的主要优点在于节省时间、提高效率,并帮助营销团队或代理公司实现SEO策略的自动化和优化。

  • AI drafts by Help Scout:提升客服团队效率,实现个性化客户服务。

    Help Scout提供的AI客服平台,通过人工智能技术,帮助客服团队提升工作效率,减少重复性工作,让团队成员能够专注于更复杂和个性化的客户对话。平台特点包括无需编程即可使用、快速回复、提升客户满意度,以及通过AI生成回复草稿等。

  • OpenVLA:开源视觉-语言-动作模型,推动机器人操作技术发展。

    OpenVLA是一个具有7亿参数的开源视觉-语言-动作(VLA)模型,通过在Open X-Embodiment数据集上的970k机器人剧集进行预训练。该模型在通用机器人操作策略上设定了新的行业标准,支持开箱即用控制多个机器人,并且可以通过参数高效的微调快速适应新的机器人设置。OpenVLA的检查点和PyTorch训练流程完全开源,模型可以从HuggingFace下载并进行微调。

  • VideoLLaMA 2:视频理解领域的先进空间-时间建模与音频理解模型。

    VideoLLaMA 2 是一个针对视频理解任务优化的大规模语言模型,它通过先进的空间-时间建模和音频理解能力,提升了对视频内容的解析和理解。该模型在多选视频问答和视频字幕生成等任务上展现了卓越的性能。

  • HumanPlus:人类动作模仿与自主技能学习系统

    HumanPlus是一个研究项目,旨在通过模仿人类动作来训练人形机器人,从而实现自主技能学习。该项目通过模拟强化学习训练低级策略,并将这些策略应用到真实世界中,实现实时跟踪人类身体和手部动作。通过影子模仿技术,操作员可以远程操作机器人收集全身数据,用于学习不同任务。此外,通过行为克隆技术,机器人能够模仿人类技能,完成各种任务。

  • Jace:AI助手,助力高效营销与管理。

    Jace是一款商业领域的AI助手,专注于提升营销效率,无需专业技能即可轻松启动和管理营销活动。其主要优点包括创建针对性的营销活动、实时监控性能和随时优化。

  • ARC-AGI:人工智能通用推理测试集

    ARC-AGI是一个旨在测试人工智能系统是否具备类似人类一般流体智力的抽象和推理能力的数据集。它由400个训练任务和400个评估任务组成,每个任务都以JSON格式存储,包括输入输出对。该数据集可以作为人工智能基准测试、程序合成基准测试或心理测量智力测试。

  • PROTEUS:实时表情生成人类模型

    PROTEUS是Apparate Labs推出的一款下一代基础模型,用于实时表情生成人类。它采用先进的transformer架构的潜在扩散模型,创新的潜在空间设计实现了实时效率,并能通过进一步的架构和算法改进,达到每秒100帧以上视频流。PROTEUS旨在提供一种通过语音控制的视觉体现,为人工对话实体提供直观的接口,并且与多种大型语言模型兼容,可定制用于多种不同应用。

今日大家都在搜的词:

热文

  • 3 天
  • 7天