首页 > 业界 > 关键词  > SOTA最新资讯  > 正文

文生图新SOTA!Pika北大斯坦福联合推出RPG,多模态助力解决文生图两大难题

2024-02-18 08:49 · 稿源: 新智元公众号

【新智元导读】近日,北大、斯坦福、以及Pika Labs发布了新的开源文生图框架,利用多模态LLM的能力成功解决文生图两大难题,表现超越SDXL和DALL·E3近日,北大、斯坦福、以及爆火的Pika Labs联合发表了一项研究,将大模型文生图的能力提升到了新的高度。论文地址:https://arxiv.or

......

本文由站长之家合作伙伴自媒体作者“新智元公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 挑战GPT-4o!AI文生图惊现黑马,国产团队HiDream如何逆袭?

    HiDream是一款由国内团队开发的AI模型,擅长生成复杂的图片与多种风格的艺术作品。它在多个测试中表现出对细节、材质、光影控制以及创意概念的良好理解,尤其在人物动态、精细绘画等方面效果显著。HiDream支持输出4K高清图片,并兼容多种应用领域,包括商业用途。尽管在某些特定要求下还需提升表现,但其潜力和实际效果已受到关注。

  • 比GPT-4o更强?三位Adobe老将出走,做出了超强文生图模型丨AI新榜评测

    GPT-4o,被击败了?最近大伙都被GPT-4o生成的各种“整活”图像刷屏了吧,各种动漫油画风格改图、经典影视复现、漫画设计改图……新的玩法每天都在涌现,大有“AI一日,人间一年”之势。甚至OpenAICEOSamAltman都累了:“收手吧,我们需要休息!”但就在GPT-4o火遍全球之际,一个来自初创团队的新模型ReveImage,却凭借其在特定图像生成领域的出色表现,悄然赢得了用户和专业榜单的

  • 字节AI加速文生图技术新突破,GOOG/微美全息引领开源大模型释放科技势能

    字节跳动发布豆包1.5深度思考模型,升级文生图能力。该模型在专业领域和通用任务中表现突出,采用MoE架构,总参数量200B,激活参数20B,推理成本优势显著。同时,其图像生成模型Seedream 3.0性能追平GPT-4o等顶尖模型。全球AI产业加速发展,开源模型降低技术门槛,推动商业化落地。微美全息等企业构建开放AI生态,DeepSeek等公司通过开源策略促进技术普惠。行业迎来"开源AI+"新阶段,企业需把握机遇应对挑战。

  • 多模态和Agent成为大厂AI的赛 点

    这是《窄播Weekly》的第52期,本期我们关注的商业动态是:当大厂的AI竞争策略开始倾斜向应用场景,多模态能力和代理执行成为两个焦点。大模型落地C端场景的核心,就是让大模型的能力越来越接近人。沿着这个主旋律,可以划分出两个进化方向:一个是持续降低用户与大模型进行有效沟通的难度;另一个则是让大模型具备执行更复杂任务的能力。前者的实现,需要给到大模型多

  • 多模态和Agent成为大厂AI的赛点

    本期《窄播Weekly》聚焦AI大厂竞争策略向应用场景倾斜的趋势,重点分析了多模态能力和代理执行两大发展方向。文章指出,大模型落地的核心在于让人机交互更自然,具体表现为:1)通过多模态技术降低用户使用门槛,如阿里夸克新推出的"拍照问夸克"功能;2)通过代理执行提升复杂任务处理能力,如字节、百度等推出的通用Agent产品。国内外厂商路径差异明显:国�

  • UniToken:多模态AI的“全能选手”,一次编码搞定文理解与像生成

    复旦大学与美团研究者提出UniToken框架,首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码,有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略(视觉语义对齐、多任务联合训练、指令强化微调),UniToken在多个基准测试中性能超越专用模型。其创新性体现在:1)统一的双边视觉编码

  • 可灵AI发布全2.0模型:上线多模态视频编辑功能

    快科技4月16日消息,据报道,可灵AI在北京举行灵感成真”2.0模型发布会,正式发布可灵2.0视频生成模型及可图2.0图像生成模型。据介绍,可灵2.0模型在动态质量、语义响应、画面美学等维度保持领先;可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。3月27日,全球AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单,快手可灵1.6pro(高品质模

  • Valve同佳美核芯达成战略作,联合推出CS电竞显示器

    Valve宣布进军电竞装备领域,与深圳佳美核芯科技合作推出CS系列电竞显示器。该系列产品具备240Hz-600Hz高刷新率、0.5ms快速响应等专业电竞参数,并搭载DCR智能光影、防撕裂等多项技术。产品覆盖25-27英寸多种型号,适配FPS、RTS等六种游戏场景模式。此次合作结合Valve近30年游戏开发经验与佳美核芯显示技术,旨在突破传统电竞设备参数限制。目前产品已在京东"CS电竞官方旗舰店"开售,满足玩家对专业电竞装备的需求。

  • 开源即支持!基于昇腾MindSpeed MM玩转InternVL3多模态理解最新模型

    多模态理解领域当前已成了各家AI大模型公司“军备竞赛”的关键点之一,国内外知名AI大模型公司都争相通过发布最先进的多模态大语言模型展现其在多模态理解领域的前沿能力。近期,上海AI实验室推出了其最新的多模态大语言模型InternVL3 系列,相比上一代InternVL2. 5 模型,该模型展现出卓越的多模态感知和推理能力,同时进一步扩展了其工具使用、GUI代理、工业图像分析等

  • 1000万上下文!新开源多模态大模型,单个GPU就能运行

    今年2月初,谷歌发布的Gemini2.0Pro支持200万上下文,震惊了整个大模型领域。仅过了2个月,Meta最新开源的Llama4Scout就将上下文扩展至1000万,整整提升了5倍开启千万级时代。根据实验数据显示,Llama4Behemoth在MMLUPro、GPQA、MATH-500等测试的数据比GPT-4.5、ClaudeSonnet3.7、Gemini2.0Pro更好。