首页 > 业界 > 关键词  > Midjourney最新资讯  > 正文

Midjourney V6版本预计今年发布 将实现质量飞跃

2023-09-21 17:30 · 稿源:站长之家

文章概要:

1. Midjourney CEO David Holz承诺V6版本将带来更好的文本理解和图像生成,预计今年内发布。

2. Midjourney计划分两个阶段推出Web版本,首先是更新的网站,然后是带有图像生成和社交功能的版本。

3. Midjourney的路线图还包括3D和视频生成,Holz对3D生成特别乐观,认为它可以改善视频游戏图形。

站长之家(ChinaZ.com)9月21日 消息:Midjourney公司的CEO David Holz表示,他们的下一个版本也就是V6版本将带来一次质量飞跃。与之前的版本升级相比,Holz强调,从V5到V6的跨越将更为显著。虽然他没有透露确切的发布日期,但他表示肯定会在今年内发布。

V6版本的亮点之一是更好的文本理解和图像生成能力。Holz承诺,图像生成将更贴近提示内容,并更加注重措辞中的细节。

机器人画画

图源备注:图片由AI生成,图片授权服务商Midjourney

他还提到了文本渲染的可能性,尽管他表示这并不难,但团队迄今为止还没有将其视为重要功能。不过,他也指出,他尚未看到过出色的文本渲染示例,并且是否以及在何种程度上实现这一功能尚未确定。

在被问及OpenAI的DALL-E3时,Holz表示“非常乐观”,认为Midjourney将继续提供最高的图像质量。尽管初步显示DALL-E3在图像质量方面略有优势,但Midjourney更好地遵循提示并能够渲染文本。

除了图像生成,Midjourney还计划推出Web版本。这将分两个阶段进行,首先是现有网站的重新设计,然后是具备图像生成功能和社交功能的版本。Holz没有提供具体的时间表,直到最终版本的网站上线。

此外,Midjourney的路线图还包括3D和视频生成。Holz对3D生成特别表示乐观,认为它可以帮助改善视频游戏图形。他曾表示,他预计未来视频游戏将由生成而非渲染产生。然而,Midjourney并不计划在今年发布关于3D生成的具体信息或演示,对于视频生成也是如此。虽然团队正在研究这些功能,但Holz表示它们可能离3D生成市场成熟还有写距离。

Midjourney的版本6将成为一次令人期待的升级,带来更好的图像生成和文本理解能力。他们还计划推出Web版本,并在未来加强3D和视频生成。

举报

  • 相关推荐
  • 小米AI眼镜推出1.4.16.0固件版本 支持英语口语陪练

    小米首款AI眼镜近日推出1.4.16.0版固件更新,新增抖音直播、小爱控车等功能,并修复已知问题。亮点包括:支持英语口语陪练,用户可自由对话练习;语音控制小米汽车,查询车辆状态;优化小爱同学响应,实现高效指令操作;新增直播功能,满足多样化需求。该眼镜配备1200万像素主摄、五麦克风阵列等硬件,搭载骁龙AR1芯片,具备物体识别、翻译等AI能力,全面提升使用体验。

  • 小米端到端辅助驾驶“Xiaomi HAD增强版”将于11月12日发布

    小米汽车将于11月21日广州车展发布“Xiaomi HAD增强版”端到端辅助驾驶系统,覆盖SU7与YU7车型。YU7因算力更高表现更优,SU7低配版未搭载激光雷达,功能略有差异。小米在辅助驾驶领域投入巨大,首期投资57.9亿元,研发团队超1800人,并与清华、港大等高校合作。同时提醒用户,辅助驾驶非自动驾驶,需保持对车辆的控制。

  • 实测Gemini 3 Pro - 此即未来。

    经过238天等待,Gemini 3 Pro正式上线。在多项基准测试中表现惊人:Humanity's Last Exam测试达45.8%,Math Arena Apex获23.4分,ScreenSpot-Pro界面识别达72.7%。其前端代码能力尤为突出,仅用几十秒就能生成完整网页音乐播放器、像素画板,甚至成功复刻出可运行的Web OS系统。目前该模型在各大竞技场排行榜均位列第一,堪称2025年最具突破性的大模型。

  • 谷歌发布Gemini 3 数学能力堪称全球最强

    谷歌正式推出新一代推理模型Gemini 3.0 Pro,在各大评测榜单表现优异:LMArena竞技场以1501分登顶,数学基准测试达23.4%远超同行,编程能力稳居第一梯队,视觉理解准确率高达72.7%达现有水平两倍。该模型基于自研TPU训练,配套发布Agentic编程平台Antigravity,支持多步骤复杂流程自主执行(如智能整理收件箱)。目前通过Gemini应用、AI Studio及API向各类用户开放。

  • AI日报:xAI推出Grok 4.1;OceanBase发布首款AI数据库seekdb;Kimi K2成功接入Perplexity

    本期AI日报聚焦多项技术突破:蚂蚁集团"灵光"AI助手实现30秒生成可编辑应用;xAI推出免费Grok 4.1模型显著提升质量与速度;Poe推出200人群聊功能支持多模型协作;OceanBase发布首款AI数据库seekdb实现混合搜索;国产模型Kimi K2接入Perplexity展现国际竞争力;谷歌DeepMind推出通用智能体SIMA2在3D游戏中任务完成率达62%;ElevenLabs升级为一站式内容生成平台;昆仑万维推出轻量级多模态智能体Skywork R1V4-Lite,用户拍照即可自动完成任务。

  • 菁彩Vivid搭载车量超百万,携手车企迎来车载应用新里程碑!

    2025年11月5日,世界超高清视频产业联盟在深圳举办UWA+峰会,宣布中国自主三维音频标准“菁彩声”(Audio Vivid)车载应用装机量突破100万台。该标准基于AI技术,支持7阶HOA渲染与128轨实时处理,解码延迟低于80ms,实现三维空间精准定位与“黄金听音位”个性化体验。已覆盖鸿蒙智行、奇瑞等十余家车企29款车型,获IEC国际标准认证,与Dolby AC-4等并列全球四大三维音频标准。通过构建“标准-内容-终端”生态,推动中国音频产业从技术领先迈向市场引领。

  • AI日报:谷歌Gemini 3 Pro Preview模型上线;Cloudflare文件异常致全球宕机;百度Q3 AI收入96亿元

    谷歌发布Gemini 3大模型及Antigravity AI开发平台,支持参数灵活调整;Cloudflare因配置异常致全球服务中断6小时;微软测试AI文件连接器,允许Claude直接读取本地文件;百度Q3 AI收入96亿元,萝卜快跑订单激增;小米AI眼镜新增直播与语音控制功能;TikTok推出AI内容推荐调节选项;微软将Copilot全面集成至Office应用;谷歌推出实时生成交互界面的Generative UI技术;Manus发布Browser Operator,将浏览器升级为全功能AI代理。

  • 信锐助力TCL获 “2025中国IDC未来企业大奖联接领军者”优秀奖!

    10月17日,TCL空调办公网络智能连接与体验升级项目在IDC中国CIO峰会获“2025未来企业连接领军者”优秀奖。该项目依托信锐“AI+网络自动驾驶”理念,通过全网智能2.0与小信GPT方案重构企业网络管理模式,实现从感知、分析到决策的智能闭环,助力TCL实现20+维度数据采集、7*24小时AI调优及自然语言交互运维,推动企业数字化转型升级。

  • 三星Micro RGB色彩技术亮相进博,智绘AI家电新视界

    三星在第八届进博会上紧扣AI浪潮,展示了显示技术、智能家电、半导体及物联网等领域的前沿成果。重点推出全球首款Micro RGB电视,融合微米级LED创新显示与AI功能,实现精准控光、更高亮度和真实色彩;同时展出144英寸Micro LED及纤薄折叠手机,体现从超大屏到移动显示的技术实力。全线产品集成Vision AI,通过影像增强、自适应音效等技术优化视听体验,并借助Galaxy AI提供个性化服务,强化在移动AI领域的领先地位。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

今日大家都在搜的词: