首页 > AI头条  > 正文

快手与上交大联合推出Orthus模型,打破多模态生成新边界

2025-07-23 17:38 · 来源: AIbase基地

在刚刚结束的国际机器学习大会(ICML)上,快手与上海交通大学携手推出了一款令人瞩目的多模态生成理解模型 ——Orthus。这款模型以其自回归 Transformer 架构为基础,能够在图文之间自如转换,展现出前所未有的生成能力,目前已正式开源。

Orthus 的最大亮点在于其卓越的计算效率与强大的学习能力。研究表明,在仅需极少计算资源的情况下,Orthus 在多个图像理解指标上超越了现有的混合理解生成模型,如 Chameleon 和 Show-o。在文生图生成的 GenEval 指标上,Orthus 更是表现出色,超越了专为此设计的扩散模型 SDXL。

快手

该模型不仅能处理文本和图像之间的交互关系,还在图像编辑和网页生成等应用中展现出巨大潜力。Orthus 的架构设计非常巧妙,采用了自回归 Transformer 作为主干网络,配备了特定模态的生成头,分别用于生成文本和图像。这种设计有效解耦了图像细节的建模和文本特征的表达,使得 Orthus 能够专注于建模文本和图像之间的复杂关系。

具体来说,Orthus 由多个核心组件构成,包括文本分词器、视觉自编码器以及两个特定模态的嵌入模块。它将文本和图像特征融合到一个统一的表示空间中,让主干网络在处理模态间的依赖关系时更加高效。模型在推理阶段会根据特定的标记,自回归地生成下一个文本 token 或图像特征,展现了极强的灵活性。

通过这些创新设计,Orthus 不仅避免了端到端扩散建模与自回归机制之间的分歧,还减少了图像离散化带来的信息损失。这一模型可以被视为何恺明在图像生成领域的 MAR 工作向多模态领域的成功拓展。

快手与上海交通大学的这一合作,无疑为多模态生成模型的发展带来了新的可能性,值得业界和学界的关注与期待。

  • 相关推荐
  • 正义审判终将降临,快手星芒短剧《黑桃四姐妹》彰显治愈内核

    《黑桃四姐妹》是一部充满奇幻色彩的现代都市短剧,将于2025年7月20日在快手独播。该剧讲述四位女孩联手对抗"生命簿点系统"、重建秩序的故事。700年前被神秘发牌人救下的安枋成为黑桃A,她联合三位现代女孩组成联盟,通过彼此救赎治愈伤痛。剧集由张兰兰、伊诺担任出品人,余茵领衔主演,展现女性互助与觉醒。25集短剧形式新颖,每集2-3分钟,通过头部演员加持和精良制作,呈现兼具爽感与立意的作品。快手搜索"黑桃四姐妹",见证女性用爱与智慧实现璀璨新生。

  • 美团拼好饭推出百万亮厨计划:联合20万商家图文、直播展示后厨环境

    今日,美团宣布,即日起,拼好饭正式推出百万亮厨”计划,将联合20万商家打造透明开放标杆,通过图文实况、视频直播等,向顾客即时更新真实的后厨环境。 同时,还将推动100万商家升级明厨亮灶,建设透明后厨。 美团表示,对于通过实况直播等各种形式开放后厨的商家,拼好饭将予以专项扶持和补贴。

  • 跨代际知识狂欢!快手“老铁知识百科—暑期充电季”助力全民知识提升

    快手新知识推出"老铁知识百科-暑期充电季"活动,7月23日至8月31日期间,通过线上线下结合的方式打造知识盛宴。活动包含健康、教育、艺术、科普等多元内容,特别设置"户外知识大讲堂"和"夏日戏曲音乐节"两大亮点。在哈尔滨、青岛等地开展代际交流活动,邀请社保小李、徐盼盼医生等创作者分享专业知识。同时推出为期6周的线上直播专题,覆盖读书、数码等年轻人关注领域。数据显示,快手泛知识内容生态活跃,30岁以下万粉创作者视频发布量同比增长83%。活动旨在搭建跨代际知识交流平台,推动传统文化年轻化表达。

  • 23所顶尖高校学子“玩转”AI创作!快手AIGC大赛点燃暑期青春风暴

    快手联合清华、北大等23所顶尖高校发起"青春筑梦·强国有我"AIGC创意短视频征集活动,吸引超万部作品参赛。活动通过可灵AI等工具降低创作门槛,激发高校学子创意潜能,如"加勒比海盗冲浪"等新颖构想。平台为优秀作品提供亿级流量支持,推动AIGC内容高质量发展。专家指出,国产大模型正从辅助工具升级为人才培养核心引擎,助力弥合知识与实践的断层。此次活动标志着AIGC在赋能青年创作、激活平台生态方面迈出重要一步。

  • 周杰伦快手账号修改签名:删除“全网唯一”

    7月9日,华语流行乐歌手周杰伦正式开通抖音账号,取名周同学”,并选择用玩偶形象作为账号头像。 在账号开通后的24小时内,周杰伦未发布任何视频作品,但粉丝量就突破1000万。 7月11日,周同学”发布第一条抖音视频,用抖音目前流行的AI技术,展示了自己从小到大的照片。 截至发稿周杰伦抖音账号粉丝已超1950万。

  • 7月26日锁定快手!蔡依林携新专辑《Pleasure》开启独家直播,邀你面对面畅聊

    蔡依林将于7月26日晚19点在快手平台独家举办新专辑《Pleasure》听歌会直播。这是她时隔六年推出的全新音乐力作,专辑以颠覆性视角解构传统"七宗罪"概念,13首作品传递"快乐无需被定义"的核心主张。听歌会不仅将带来沉浸式音乐体验,蔡依林还将分享创作心路历程,并与粉丝互动。快手同步发起创意舞蹈挑战赛,用户可参与话题活动赢取听歌会现场邀请函。作为蔡依林在内地连接千万粉丝的核心阵地,其快手账号已积累近千万粉丝,持续分享巡演日常和新专筹备花絮。此前她在快手的"夏日首唱会"直播累计观看量超5.4亿,充分展现了平台互动潜力。

  • AI重构社交生态 Soul以多模态技术赋能社交

    社交平台Soul正通过AI技术重塑社交生态:1)2016年推出智能推荐系统"灵犀引擎",2020年启动AIGC算法研发,2023年推出自研大模型Soul+X,开发AI虚拟人、智能聊天等应用;2)升级多模态大模型,支持文字对话、语音通话、多语言理解等功能,提供拟人化情感陪伴;3)围绕Z世代需求,促成超10万对情侣步入婚姻,并联合开展心理健康公益活动;4)以"技术+人文"双轮驱动,致力于打造更智能舒适的社交环境,重新定义人机关系。

  • 聚焦中老年二次成长,快手星芒短剧《进击的潘叔》诠释银发力量

    快手短剧《进击的潘叔》将于2025年7月8日独播,讲述60岁保洁大叔潘四喜与"女王范儿"李翠花勇敢追梦的爱情故事。该剧由潘长江、潘阳等实力派演员领衔,通过20集轻喜剧形式展现银发族返乡创业、开设健身房的励志经历。剧中既有黄昏恋的温情,又探讨了老龄化社会议题,以专业制作团队和细腻笔触呈现银发群体丰富多彩的生活。作为快手星芒短剧,该作品坚持精品化策略,引领行业从"流量高地"走向"价值高地"。观众可通过快手搜索剧名或关注@潘长江 账号观看。

  • 三星多款电竞显示器亮相BW 2025,技术矩阵与生态协同共拓游戏体验新边界

    7月11-13日,Bilibili World 2025在上海举办,三星携玄龙骑士系列电竞显示器参展。作为全球显示器销量冠军,三星展示了500Hz高刷OLED显示器G60SF(G60SF)和32英寸4K QD-OLED显示器G81SF(G81SF),通过多梯次分辨率、全域刷新率体系等技术突破,重新定义高端OLED显示设备性能边界。其中G60SF以0.03ms GTG响应时间和AMD FreeSync Premium Pro认证,在《三角洲行动》等游戏中实现无延迟操作;G81SF则凭借1000nit峰值亮度和99% DCI-P3色域覆盖,在开放世界游戏中呈现逼真光影效果。此外,37英寸G75F显示器以180Hz刷新率配合人体工学支架,为玩家提供全方位电竞体验。三星通过OLED防眩光、动态冷却系统等技术创新,构建了从专业竞技到沉浸娱乐的完整显示生态闭环。

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

今日大家都在搜的词:

热文

  • 3 天
  • 7天