首页 > 业界 > 关键词  > 人工智能最新资讯  > 正文

重建Meta帝国:用AI“回敬”TikTok

2024-05-25 09:08 · 稿源: 表外表里公众号

声明:本文来自于微信公众号表外表里(ID:excel-ers),作者:周霄 谭鸠云,授权站长之家转载发布。

数据支持 | 洞见数据研究院

2023年5月,美国白宫举办了一场AI主题闭门会,嘉宾名单汇聚了中青少三代——老资历谷歌、微软,新星OpenAI,初创的Anthropic,却唯独没有Meta

甚至会后,官方的回应又给了扎克伯格一击:“目前在该领域处于领先地位的公司,才会收到邀请”。

但同期,Meta在业内却是另一番景象。

媒体们一反常态,将扎克伯格形容为“AI所需要的英雄”;网友们涌到他的帖子下留言,建议Meta更名为OpenAI。

图片

只因他的开源大模型,某种程度上打破了OpenAI和谷歌的垄断,达成AI界的“安卓时刻”。

时至今日,关于“开源和闭源,谁更能引领AI技术”,尚难下定论,但可以确定的是,AI带飞了Meta。

可以看到,和其他大模型公司还在“逐梦”不同,Meta五倍股大反转的背后,每一个财报季,都有切实的业绩增长作为支撑。

图片

至于深层原因,就像扎克伯格在2023Q1财报电话会上的自爆,“AI影响着旗下每一项应用和服务 。”

算法“三代目”,站在TikTok的肩膀上

“让Ins回归Ins,我只是想看我朋友的可爱照片。”

2022年中,金·卡戴珊、凯莉·詹纳(金小妹)配图黑白照片的吐槽,引爆了一场针对Meta的抗议活动。

图片

起因是,Ins视频内容占比增加,同时小范围测试Feed功能;Facebook也一样, 大推“非关注用户”的内容。一时间让大家的“朋友圈”自留地,变成了“微博+抖音”大广场。

图片

然而面对数十万人“激愤”的请愿,扎克伯格却表示,“我们正在做的事情是非常独特的,我不认为人们会希望被限制在一种格式。”

这一点也不像Facebook的风格,要知道,过往但凡有一丝改动引发用户不满,其差不多都会立刻响应。

图片

“见风使舵”的人突然“大义凛然”起来,原因通常不复杂,就是背后有更大的靠山了。

2022Q1财报交流会上,扎克伯格难掩兴奋地表示:人工智能加成下,我们正在构建的不仅仅是一个推荐系统,而是一个发现引擎

具体来说,在其设想中,新一代的内容推荐技术,不仅更理解用户行为,还能理解内容本身

比如,若要在B站、Youtube发一条标题为“我重生了,重生在最胖那一天”的减肥视频,需要选择“运动”“健身”等标签,且带上“减肥的意义”等话题,才会被推送给目标用户。

否则,有可能因为标题,被推送给爱好“小说”“搞笑”的用户。

图片

而AI加成下的Facebook,即便不选择标签,系统也能自动捕捉视频里关于健身的内容,并为其贴上“健身”“臀腿”“带器械”等更细分的标签,并精准推送。

除了内容,对用户行为的理解也更进一步。

举例来说,以前的算法,侧重根据点赞、完播率等进行推荐,而如今相比点赞,更关注用户评论等互动里的情绪表达——比如愤怒、悲伤等。

图片

这种算法,相比上一代的算法明星字节系(专注用户行为分析),某种程度上意味着技术迭代。

图片

而非关注用户的内容变得“投其所好”,再叠加短视频本身的沉迷属性,用户争议声渐渐消失,取而代之的是花在Facebook系的时间越来越长。

2023Q1电话会议提到:人工智能应用于Reels(Facebook和Ins上的短视频功能)以来,Ins的用户时长增加了24%以上

Facebook也一样,2022H2开始总时长快速修复。

图片

与之相比,曾大杀四方的TikTok,用户时长显得增长乏力。可见,Reels已经有了和TikTok掰手腕的能力。

而除了受制于算法“牵引”,用户还在主动回归。

可以看到,和国内抖音出现前,微博在公域属性上一家独大不同,海外社交领域可谓百花齐放。

私域有面向Z世代的Snapchat、80后的WhatsApp、中老年人的Nextdoor;公域的Facebook、Ins、twitter、YouTube等,也对应各个年龄段。

图片

这意味着,TikTok很难像抖音冲击微博们那样,撼动Facebook们原有的社交链

因此当Facebook们集中上线短视频,且做到同样沉迷时,大家会偏向于小姐妹在哪里,就流向哪里——截至2023年7月,YouTube Shorts每月登录用户超过20亿;Facebook系也一样。

当然,不止朋友,创作者也影响着用户的流向。

数据显示,2021年7月-2022年7月,TikTok上超百万粉丝的创作者数量从2000左右,下降至1200-1300,流失了近800人。

图片

而逃离的原因之一在于,TikTok“捞钱”不易。如头部网红汉克格林在受访时提到:相同的视频,发布在Facebook、Ins、TikTok和Youtube上,TikTok的收益是最低的。

毕竟,相比Facebook、Youtube的中年用户居多,13-24岁用户占比近半的TikTok,很年轻,但也“穷”——TikTok的广告转化率为0.7%-3%;Facebook达到9.21%。

种种因素叠加影响下,可以看到,2023年初开始,TikTok的用户增速就基本处于四家末尾。

图片

对TikTok警惕不已的Facebook,也就此解除警报——2023Q1以来的业绩会上,TikTok以及竞争问题很少再被提及。

不过,被扎克伯格视为眼中钉的不止TikTok,还有苹果。

绕过苹果隐私新规,广告业务重新上桌

2022年,北美广告业笼罩在一片愁云惨淡中。

无论是各大广告公司,还是广告代理机构的专家,分享的观点都绕不开对环境的“不确定”和“担忧”情绪。

图片

甚至Meta每一次的业绩交流会上,扎克伯格的保留节目就是播报:这一季的状况看起来比上一季更糟。

然而跨了一个年后,整个行业集体口风大变。

2023Q2财报季,Meta高管兴奋表示:今年的广告需求趋于稳定。谷歌高管也难掩激动称:我们对搜索广告收入增长的加速,感到满意。

态度大逆转的原因,可以用6个字概括:感谢中国电商。

《华尔街日报》报道,2023年Temu在Meta打了近20亿美元广告,为其贡献了10%的广告收入;同时,还跻身谷歌广告客户前五。

类似的“散财童子”还有Shein,跃居美国第16大广告商,广告支出同比增长120%。

说白了,中国电商出海拯救了北美大厂。不过,这只能解一时之困,毕竟Temu们不可能一直这个烧法。

而相比宏观经济的影响,Meta更核心的矛盾是:如何应对苹果隐私条例的冲击

2020年12月,Facebook一口气在《纽约时报》《华尔街日报》《华盛顿邮报》上打了三整版广告,宣称“要为世界各地小企业站出来反对苹果霸权”。

同时,还在自家平台上写“小作文”,“阴阳”苹果的用户隐私保护政策不过是为了私利。

之所以不惜撕破脸“撒泼打滚”,在于苹果持续推出的隐私新规,在北美圈里,对Meta影响最大

可以看到,隐私新规下,当App试图跨平台收集个人数据时,手机会有提示,用户有权拒绝。

图片

而行业调查问卷数据显示,接近80%的iOS用户,选择禁止App跨平台追踪数据。

这极大削弱了个性化推荐广告的精准度,给依赖信息流广告的平台带来了沉重打击。

如下图,2021Q2之后,Meta、谷歌的广告收入增速都有下滑,但Meta的下滑幅度远大于以搜索广告为主的谷歌。

图片

甚至在信息流平台里,Meta也是首当其冲的那个——与服务大品牌的Snapchat不同,Meta的客户以中小型企业为主,很难快速适应这一轮行业变化。

比如,精准度降低下,想要达到之前的广告效果,意味着花更多的预算。

眼科公司Pearle Vision高管就透露,2021年在Ins上开展广告营销的费用,相比上一年高出15%-30%。

长此以往,财大气粗的大品牌们或能支撑,中小商家却耗不起。

这样来看,也就不难理解,Facebook为何抨击苹果最积极。

然而苹果不是TikTok,“撒泼”没有用不说,还被库克贴脸输出,“ Facebook仍可以像过去一样在应用和网站跟踪用户”。

刚不过的Meta,试图开拓新赛道。如把Facebook、Ins、WhatsApp都挂上“小黄车”;将广告商迁入元宇宙等。

但这些都需要时间,远水解不了近渴。

一筹莫展之际,AI的爆火送来了转机——更精准的数据分析能力、更自动化的素材投放、更有针对性的人群对标等,无不意味着AI对于广告行业的技术迭代

于是乎,广告巨头们一窝蜂卷向AI技术进化。

图片

Meta也不例外,内部员工透露,其在改造AI广告能力上所花费的资金,比扎克伯格花费在元宇宙上的还多。

可以看到,GPT4刷屏后不久,Meta就推出了AI广告产品Advantage+。

有了这个工具,广告商可以将自己的受众范围、整体广告预算、预期销量目标、宣传广告素材等,一次性提交给平台,由AI分析如何投放、投放什么素材等。

图片

这样一来,既简化了广告商的工作,也提升了投流精准度。

如营销机构iProspect的高管表示,通过该产品,每花费1美元就会产生7美元的回报——几乎与苹果隐私政策出台前一样高。

2023Q1财报电话会上,Meta一整个扬眉吐气:我们在减轻苹果隐私政策的直接影响方面,取得了肯定进展

而2023年8月的数据显示,与6个月前相比,每周使用Advantage+的广告商数量已经增加了3倍。

还值得注意的是,当初绊倒Meta广告业务的,除了外在影响,还有它自身的经营节奏。

可以看到,Ins引入Reels短视频广告之后,广告收入增速持续下滑,甚至2022Q1给出历史新低的指引。

图片

拆解测算收入会发现,根源出在流量和广告变现错位:短视频挤压了主站用户时长,导致整体广告曝光量下降;其自身生态又未培育起来,广告加载率有限,广告收入一整个青黄不接。

不过,测算模型也显示,这种收入增速下滑只是短中期阵痛,在长期维度上(三年以上),短视频项目会“厚积薄发”大幅拉升广告收入。

图片

而就时间看,Meta显然来到了广告收入增速释放期

如下图,广告加载率一直处于上升状态。花旗集团分析表示,Reels2024Q1的平均广告加载率已经达20%。

图片

深陷泥潭的广告业务转身成功,无论是市场还是Meta自己都喘了一口气。更何况,受益的不止老业务。

大模型开源,让开发者为Meta“打工”

事实上,AI之于Meta,一定程度上是无心插柳。

2021年夏天,在爱达荷州太阳谷的科技和媒体大亨会议上,面对谷歌CEO桑达尔·皮查伊对Facebooke在AI领域技术突破的盛赞,扎克伯格一头雾水——满心都是元宇宙的他,并不知道皮查伊在说什么。

强装镇定地应付完会议,扎克伯格立马回到总部,召集人工智能研究小组FAIR,要求听取所有最新工作简介。之后,更是开始了「大量的自学」。

“一把手”注意力回归,Meta有惊无险待在了牌桌上。

风投机构Thundermark Capital的测算显示,2022年Meta的“AI研究指数”在全球企业中位居第三,仅次于谷歌和微软。

而时间迈入到GPT时代,有船票在手的Meta,又成了“一条好汉”。

2023年5月,一位谷歌工程师的备忘录《我们(谷歌)没有护城河,OpenAI也一样》,刷屏新闻头条。

其认为,在Meta开源生态(Llama2大模型)的冲击下,封闭的谷歌、OpenAI将输掉这场游戏。

这样的论调,虽然不是所有人都认同,但开源的威力确实不容忽视。

如下图,Llama2在推理任务上的性能,和GPT3.5差不多,但其模型训练成本,却比GPT3.5低得多。

图片

原因无他,纯粹是开源模型的训练、调用等成本,都碾压闭源大模型

图片

拿调用来说,闭源大模型用一次,会产生大量调用成本——通俗理解就是,锅焊死在OpenAI的灶上,你做饭得用OpenAI的燃气等,OpenAI虽然会收你费用,但这点钱难以覆盖它的成本。

而开源模型通常可以自由下载和使用,相当于使用者将锅拿回家用自己的灶做,Meta不会产生燃气等成本。

这传导到开发者端可以看到,开源模式下,不仅调用价格更低。

数据显示,Llama270b的调用价为4美元/100万token;性能类似的GPT-3.5则需要8美元/100万token。

开发者还可以根据市场趋势随时换灶,避免在底层技术路线换方向时“掉队”。

图片

这一时间,引得众多中小开发者和研究人员蜂拥而来。据统计,截止到2023年9月,Llama模型在全球最大开源社区平台Hugging Face上的下载量,超过3000万次。

围绕Llama,各种开源数据集以及新模型开始涌现。

比如,国内清华、交大、浙大等高校的开发者,汇聚在Llama2的中文社区,不仅诞生了很多基于Llama的中文开源大模型,还为其贡献数据进行“中文特训”。

这进一步降低了Meta的大模型迭代成本。

图片

说白了,开源生态会让全世界的机构和研究员都参与进来,给大模型的迭代和进化免费“打工”

自己成了“炸子鸡”不说,AI还带动一众兄弟“升咖”。比如,上述提到的社交和广告业务,还有备受质疑的元宇宙。

可以看到,Meta的头显正从主打高端走向大众化:新推出的Quest3,起售价499美元,行业内同等规格下相当便宜;与此同时,旧款也在陆续降价。

图片

Quest3如此定价的小心思在于,其VR设备尝鲜期后,第一轮加速渗透似乎就在眼前。

要知道,虽然iPhone开启了智能机时代,但真正让它在国内快速普及的,是把价格打到千元以下的OV和小米们。

而造就这一反转的推手,仍然是AI。

此前,市场对元宇宙最大的疑虑,在于软件端研发氪金数额巨大不说,落地应用前景也成迷。

元宇宙沉浸式体验对软硬件高要求:虚拟场景渲染、人机交互,甚至虚拟人物建模的瑕疵,在元宇宙里都会被无限放大。

但现实是,软件端一塌糊涂。比如,扎克伯格亲自下场、卖力推销的元宇宙版脸书Horizon Worlds,呈现出来的质量让人“梦回上世纪90年代”。

图片

嫌弃声一片下,Meta内部文件显示,到2021Q3活跃用户已不足20万人。

而囿于“入门后的荒凉”,VR硬件也长期处于尝鲜期,销量有限。

图片

AI大模型出现后,一切开始不一样了。可以看到,无论人机交互、肢体定位,还是内容创作,AI技术都上了一个台阶

图片

以肢体定位来说,过去由于视场覆盖问题,VR头显难以捕捉下半身动作,Horizon Worlds中的人都只有诡异的上半身。

而利用AI算法,不仅能实现“四肢自由”,还能更准确预测全身动作。如当数据显示用户身下是一把椅子时,可以预测其向下的姿势不一定为下蹲,而是坐到椅子上。

图片

跨越式改变下,好玩不鸡肋的应用程序越来越多。

比如,Quest3新上架的《PILLOW枕头》就像XR版的漂流瓶,可以在重力反转的天花板上钓鱼、拆信;《Drop Dead:The Cabin》游戏中,僵尸甚至会进到玩家房子里,进行袭击。

图片

可用场景增加,又进一步拉动了硬件设备的用户接受度以及渗透率。

数据显示,2023Q4Quest的出货量超过30万副,甚至黑色星期五期间,Quest在亚马逊的销量超过了AirPods。

总的来看,AI掀翻了Meta的旧牌局,拉着所有人重开了一局新游戏。

2014年Oculus知识产权纠纷的庭审现场,被告席上全程板着脸的扎克伯格,突然在众人惊疑的目光中,开始了深情演讲:

“几个月前,我的女儿马克斯迈出了自己的第一步,我在虚拟现实中记录下了整个场景,这样我就可以把它发送给父母,可以与世界分享。人们可以亲身体验其中的情形,就像身处我们家的客厅一样。”

那是元宇宙概念雏形的首次问世,而扎克伯格在一开始,就坚信这会是“下一代互联网”。

然而在华尔街眼里,在技术创新不确定的赛道里坚持“长期主义”,是极其不明智的。毕竟资本向来是“不见兔子不撒鹰”。

如这轮里,有确定信号落地,上演五倍大反转;可一旦出现不明朗苗头,马上做鸟兽散——扎克伯格“不惜重金把Meta打造为全球领先人工智能公司”的话音刚落,市值就蒸发了2000亿美元。

马斯克粉丝看完都忍不住感慨:“和‘画饼大师’马斯克相比,扎克伯格的‘讲故事’能力有待加强。”

参考资料:

彭博社:《How AI Replaced the Metaverse as Zuckerberg’s Top Priority》

新智元:《Meta AI意外成功,助小扎爬出元宇宙大坑!》

远川研究院:《从Facebook到Meta,一本700亿美元的反面教材》

机器之心:《李飞飞团队年度报告揭底大模型成本》

Dwarkesh Patel:《Mark Zuckerberg-Llama3,$10B Models, Caesar Augustus, &1GW Datacenters》

举报

  • 相关推荐
  • 大家在看
  • Mistly:自动记录和分析产品反馈,快速构建更好的产品。

    Mistly是一个AI产品管理工具,能够自动从Slack频道、Zoom通话等地方记录产品反馈,并通过AI技术提供深入的洞察。它可以帮助团队快速了解用户需求,提取功能请求和bug报告,从而加速产品迭代和改进。Mistly还提供每周反馈总结和发布更新通知功能,使客户感到被重视,增强产品与用户之间的联系。

  • Omi:智能合同和文档管理平台

    Omi是一个集中化的平台,提供对财务、合同和供应商的全面监督和管理。它简化了采购流程,实现了财务控制,并通过自动化和实时数据提供决策支持,帮助企业提高效率、节约成本,并确保合规性。

  • iPadOS 18:,带来全新的工作方式和个性化体验。

    iPadOS 18是苹果公司为iPad设备推出的最新操作系统,它通过Apple Pencil、应用程序体验和个性化定制等新功能,进一步增强了iPad的生产力和创造力。该系统利用Apple Intelligence技术,根据用户的个人上下文提供最有帮助和相关的智能服务。

  • 雅意信息抽取大模型:基于大规模数据的高质量信息抽取模型

    雅意信息抽取大模型(YAYI-UIE)由中科闻歌算法团队研发,是一款在百万级人工构造的高质量信息抽取数据上进行指令微调的模型。它能够统一训练信息抽取任务,包括命名实体识别(NER)、关系抽取(RE)和事件抽取(EE),覆盖了通用、安全、金融、生物、医疗、商业等多个场景的结构化抽取。该模型的开源旨在促进中文预训练大模型开源社区的发展,并通过开源共建雅意大模型生态。

  • macOS Sequoia:Mac体验新高度,智能化与生产力的飞跃。

    macOS Sequoia是苹果公司推出的下一代桌面操作系统,它通过iPhone镜像、Safari浏览器的更新、苹果智能技术以及一系列新游戏,为Mac带来了全新的工作方式和变革性的智能特性。它利用了苹果芯片和神经引擎的强大能力,提供了深度集成的个人智能系统,注重隐私保护,并简化了日常任务。

  • iOS 18:iPhone个性化、功能强大、智能化的新高度。

    iOS 18是苹果公司推出的最新操作系统,它通过全新的个性化选项、前所未有的照片应用重设计、强大的连接方式更新以及苹果智能(Apple Intelligence)个人智能系统,为iPhone带来更深层次的个性化体验和智能化功能。

  • Invisibility:您的个人助手,集成到您的操作系统中。

    Invisibility 是一款集成到操作系统中的个人助手应用程序,它通过简单的键盘快捷键,允许用户快速与AI进行交互,提高工作效率。该应用提供了一个平台,结合了所有最新的高级模型,用户无需为多个工具或订阅付费。Invisibility 的设计理念在于简化用户与技术的互动,提供流畅的体验,无需在不同的标签和应用程序之间切换。

  • TeamCreate AI:AI助手,快速构建理想团队

    TeamCreate AI是一个在线平台,提供AI助手来帮助企业在销售、市场、财务、产品和更多领域快速构建团队。这些AI助手是无代码且可定制的,可以快速适应并执行特定任务,帮助企业在没有财务限制和繁琐招聘流程的情况下迅速扩展。

  • Midjourney Personalization:个性化图像生成工具

    Midjourney是一个独立的研究实验室,专注于探索新的思想媒介和扩展人类想象力。它是一个自筹资金的小团队,专注于设计、人类基础设施和人工智能。Midjourney Personalization通过用户对图像对的评分来学习用户的偏好,并根据这些偏好生成个性化的图像。

  • YaFSDP:高效的分布式数据并行框架,专为大型语言模型设计。

    YaFSDP是一个分布式数据并行框架,专为与transformer类神经网络结构良好协作而设计。它在预训练大型语言模型(Large Language Models, LLMs)时比传统的FSDP快20%,并且在高内存压力条件下表现更佳。YaFSDP旨在减少通信和内存操作的开销。

  • Onboard:客户管理的AI邮件平台

    Onboard AI Email Platform是一个专为客户管理设计的AI邮件平台。它集成了先进的AI技术,帮助企业精准地将邮件发送到每个客户的主收件箱,提高邮件的到达率和客户的互动率。该平台通过AI技术对客户进行细分,自动生成个性化内容,并创建AI生成的落地页来驱动客户采取行动。

  • SmartEReply:智能提升您的LinkedIn™互动

    SmartEReply是一个AI驱动的助手,旨在增强您的LinkedIn™互动,通过个性化评论、优化帖子和轻松管理私信来提升您的网络机会。它通过AI生成的内容建议,帮助您快速创建更具吸引力和优化的内容。

  • Freepik Designer:在线设计编辑器,无需设计技能。

    Freepik Designer是一个在线设计编辑器,允许用户无需专业设计技能或软件即可创建或编辑设计作品。它提供了大量的可编辑模板,支持AI工具和功能,如AI写作助手、背景移除、AI翻译器等,以简化工作流程。Freepik Designer由Freepik Company S.L.开发,总部位于阳光明媚的马拉加。

  • Source.Plus:AI训练数据的搜索、整理和丰富工具

    Source.Plus是一个专业的AI训练数据搜索平台,它允许用户通过高级搜索操作符来精确地搜索、筛选和整理所需的数据集。它支持多种数据来源,包括Wikimedia Commons、NMNH - Botany Dept.等,提供广泛的图像和文档资源。平台还具备文件上传功能,使用户能够进一步自定义和丰富自己的数据集。Source.Plus的主要优点包括其强大的搜索能力、数据来源的多样性以及对AI训练数据的特别优化。

  • Awesome-ChatTTS:ChatTTS项目的入门指南和资源汇总。

    Awesome-ChatTTS是一个开源项目,旨在为ChatTTS项目提供常见问题解答和相关资源汇总,帮助用户快速入门并解决在使用过程中可能遇到的问题。该项目不仅整理了详细的安装指南和参数说明,还提供了多种音色种子的示例,以及视频教程等辅助材料。

  • DenseAV:一种自监督的视听特征对齐模型。

    DenseAV是一种新颖的双编码器定位架构,通过观看视频学习高分辨率、语义有意义的视听对齐特征。它能够无需明确定位监督即可发现单词的“意义”和声音的“位置”,并且自动发现并区分这两种关联类型。DenseAV的定位能力来自于一种新的多头特征聚合操作符,它直接比较密集的图像和音频表示进行对比学习。此外,DenseAV在语义分割任务上显著超越了先前的艺术水平,并且在使用参数少于一半的情况下,在跨模态检索上超越了ImageBind。

  • ChatTTS-Forge:基于ChatTTS模型的文本到语音转换项目

    ChatTTS-Forge是一个围绕TTS生成模型ChatTTS开发的项目,实现了API服务器和基于Gradio的WebUI,能够提供全面的API服务,支持生成1000字以上的长文本,保持一致性,并通过内置32种不同风格进行风格管理。

  • WorldDreamer:视频生成的前沿模型

    WorldDreamer是一个创新的视频生成模型,它通过预测遮蔽的视觉令牌来理解并模拟世界动态。它在图像到视频合成、文本到视频生成、视频修复、视频风格化以及动作到视频生成等多个方面表现出色。该模型借鉴了大型语言模型的成功经验,将世界建模视为一个无监督的视觉序列建模挑战,通过将视觉输入映射到离散的令牌并预测被遮蔽的令牌来实现。

  • VividDream:从单一图像或文本生成可探索的3D场景

    VividDream是一项创新技术,能够从单一输入图像或文本提示生成具有环境动态的可探索4D场景。它首先将输入图像扩展为静态3D点云,然后使用视频扩散模型生成动画视频集合,并通过优化4D场景表示来实现一致性运动和沉浸式场景探索。这项技术为生成基于多样真实图像和文本提示的引人入胜的4D体验提供了可能。

  • LlamaGen:自回归模型在可扩展图像生成领域的新突破

    LlamaGen是一个新的图像生成模型家族,它将大型语言模型的原始下一个token预测范式应用于视觉生成领域。该模型通过适当的扩展,无需对视觉信号的归纳偏差即可实现最先进的图像生成性能。LlamaGen重新审视了图像分词器的设计空间、图像生成模型的可扩展性属性以及它们的训练数据质量。

今日大家都在搜的词:

热文

  • 3 天
  • 7天