首页 > AI头条  > 正文

小模型逆袭!港科大快手联手打造"进化搜索"技术,让AI作画告别"大力出奇迹"

2025-06-10 15:11 · 来源: AIbase基地

在AI作画领域,一直以来都存在一个普遍认知:想要生成高质量的图片和视频,就必须依赖更大的模型、更多的参数和更强的算力。然而,来自香港科技大学和快手科技的研究团队最近提出的EvoSearch(进化搜索)技术,正在彻底颠覆这一固有观念。

image.png

这项技术最令人震撼的表现是:仅有865M参数的Stable Diffusion2.1模型在使用EvoSearch后,生成质量竟然超越了强大的GPT-4o;而1.3B参数的Wan模型配合EvoSearch,甚至能够与比它大10倍的14B模型平分秋色。

现有AI生成模型的困境

目前主流的AI生成模型主要分为两大类:扩散模型和流模型。扩散模型通过逐步去除噪声来生成清晰图像,类似于将模糊照片逐渐变清晰的过程;流模型则通过一系列平滑变换,直接将随机噪声塑造成目标图像。

为了提升这些模型的表现,业界普遍采用两种策略。一是在训练阶段不断增大模型规模、喂入更多数据,但这种"大力出奇迹"的方法成本极高,已经接近资源上限。二是在推理阶段进行优化,包括Best-of-N采样(生成N张图片选最好的一张)和粒子采样(维护多个候选方案并筛选优秀个体)等方法。

image.png

然而,这些现有方法都存在明显缺陷:Best-of-N方法效率低下,大量计算被浪费在生成"废品"上;粒子采样方法过于保守,容易困在局部最优解中,缺乏主动探索能力;其他微调方法要么需要额外训练,要么容易导致生成样本缺乏多样性。

EvoSearch:AI作画领域的"进化论"

EvoSearch的核心创新在于将达尔文进化论的思想引入AI生成过程。该方法将图像生成视为一个物种进化过程:首先生成初始"种群"(随机噪声),然后通过"适应度评估"对半成品进行打分,接着进行"优胜劣汰"选择优秀个体,最后通过专门设计的"变异"操作产生新的候选方案。

这种变异操作是EvoSearch的关键技术突破。对于初始噪声,系统通过添加适量高斯噪声实现变异;对于去噪过程中的中间状态,则借鉴随机微分方程采样的随机性注入方式,给中间状态引入可控扰动。这种设计既能探索新区域,又能保持优秀"基因"。

与传统方法相比,EvoSearch具有三大优势:主动探索而非被动筛选,能够跳出初始候选池限制;有效平衡探索与利用,避免过早收敛到局部最优;通用性强,适用于各种扩散模型和流模型,无需修改模型结构或额外训练。

实验结果:全方位"降维打击"

研究团队在图像和视频生成任务上进行了全面测试,结果显示EvoSearch在各项指标上都显著优于现有基线方法。

在图像生成方面,随着推理计算量增加,EvoSearch生成的图片质量和文本匹配度持续稳定提升,而其他方法很快达到瓶颈。对于复杂或容易产生歧义的提示词,EvoSearch能够更准确理解并生成符合要求的图片,同时在背景、姿态等方面展现出更丰富的多样性。

视频生成方面的表现更为惊人。无论使用万象Wan1.3B模型还是混元HunyuanVideo13B模型,EvoSearch的生成质量都显著超越基线方法。最令人印象深刻的是,当为Wan1.3B模型分配与Wan14B模型相同的推理时间预算时,前者配合EvoSearch的组合效果竟能与后者打平甚至超越。

值得注意的是,即使评价指标与EvoSearch搜索时使用的奖励函数不完全一致,该方法依然表现出良好的泛化能力,不容易被特定奖励函数误导。在人工评估中,EvoSearch生成的视频在视觉质量、动作质量、文本对齐和整体质量方面都获得了更高的胜率。

技术启示与未来展望

EvoSearch的成功为AI生成领域带来了重要启示。首先,在训练成本日益高昂的今天,通过在推理阶段投入更多计算来提升模型性能是一条极具价值的探索路径。其次,将生物进化中的选择和变异思想引入AI生成领域,能够有效克服传统搜索方法的局限性。

更重要的是,这项技术的成功离不开对扩散和流模型去噪过程的深入理解。EvoSearch真正掌握了这些模型在去噪过程中的状态空间结构特征,据此设计了针对性的变异策略,从而能够更有效地探索巨大的可能性空间。

当然,EvoSearch也存在进一步优化的空间。研究团队指出,未来的改进方向包括设计更智能的变异策略、更好地平衡探索和计算效率等。

这项技术向我们展示了一个重要趋势:即使不盲目追求更大的模型和更多的训练数据,通过在推理阶段运用更智慧的搜索策略,我们依然可以挖掘出AI模型更深层次的潜力。EvoSearch正在开启AI创作的"智能进化"时代,让小模型也能创造出令人惊艳的作品。

项目主页:https://tinnerhrhe.github.io/evosearch/

代码:https://github.com/tinnerhrhe/EvoSearch-codes

论文:https://arxiv.org/abs/2505.17618

  • 相关推荐
  • 铁牛逆袭记:从修拖拉机到百万主播,在快手实现滚烫人生

    吉林松原农民牛海军从拖拉机维修工转型为快手头部农机主播,凭借29年农机维修经验和东北人特有的朴实真诚,在快手电商平台实现单场GMV从十万到百万级的跃升。他拒绝套路营销,坚持"买得放心、用得舒心"的服务理念,免费为农户维修农机十余年,赢得乡亲们信任。2020年疫情期间首次直播就卖出几十台拖拉机,如今公司已组建质检、法务和售后团队,合作线下门店超300家。牛海军认为产品、人品和服务是立足根本,计划优化供应链提升服务质量,希望带动更多农技主播成长,让实用农机知识惠及更多农民。

  • 快手可灵AI上线2.1系列模型:生成5秒视频不到1分钟

    快手旗下可灵AI发布2.1系列模型,包含720p标准版和1080p高品质版,在性价比、生成速度和质量三大维度实现突破。新模型生成5秒视频仅需20-35灵感值,与上代保持相同成本;1080p视频生成时间不到1分钟,快于行业同级产品2-3倍。模型在动态表现、物理模拟和语义理解方面均有优化,人物动作更真实自然。可灵AI自发布以来发展迅猛,全球用户突破2200万,月活增长25倍,累计生成1.68亿视频和3.44亿图片。商业化进程加速,2025年Q1营收超1.5亿元人民币,展现强劲市场潜力。

  • 在快手,“聊”生意

    在快手,本地商家的生意靠“聊”出来。 5月份,由快手官方汽车主机厂和经销商发起的“共聊一辆车”私信活动,得到广泛响应,快手老铁们日均参与次数超过60万次。数字的背后,是一个个具备真实需求的消费者与品牌、商家的高频互动。 类似的例子比比皆是,聊着聊着就完成“下单”,在快手更是家常便饭。 专业律师隔着手机对话框,初步给来咨询的人群指出方向,�

  • 模型能力卷不过Google、快手,但这家视频生成创企却可能最先赚到钱?

    去年4月,我们曾经在《这个 AI 赛道,一个月内融资4笔,一大半的创始人是华人》选题中观察过 AI 视频赛道,彼时赛道 Top 级玩家还是 Pika、Pixverse、Haiper 等华人创企。

  • 快手二次元打造“和童年搭子一起过六一”活动 带老铁开启怀旧狂欢

    快手在六一儿童节期间推出"和童年搭子一起过六一"主题活动,通过联合央视新闻、经典动漫IP打造怀旧短片,发起创意挑战和周边抽奖等活动,带领用户重温童年时光。活动亮点包括:1)与《巴啦啦小魔仙》《超级飞侠》等国民IP合作推出情怀短片;2)设置cos变装、创意手绘等互动玩法;3)推出限定点赞特效、表情包等趣味内容;4)通过AI技术还原童年动画场景。活�

  • Q1强势增长后,快手直播再蓄大招

    ​快手交出一份亮眼财报。其中,直播业务的表现让业内眼前一亮。 2025年第一季度,快手直播业务收入恢复同比正向增长,较2024年同期的86亿元增长14.4%达98亿元。 直播业务的强势增长,离不开平台长期的精细化运营和内容生态建设。本季度,快手进一步加强对大舞台、多人直播、格斗游戏等优势品类的建设,并深化与游戏厂商的合作。供给上,则持续加强公会和主播引入�

  • 快手连续三年斩获中国专利奖 持续引领行业技术创新

    快手凭借"电子订单生成"和"消息交互"两项专利技术,连续三年斩获8项中国专利奖。其中"电子订单生成"专利通过截图指令自动识别生成订单,将商品订单创建时间从10分钟缩短至6秒,发布成功率提升至99.8%;"消息交互"专利首创公屏消息接入客服入口,实现观众信息分流管理。截至今年6月,快手已获授权发明专利突破6000件,并牵头制定《电子商务智能客服系统技术要求》团体标准,展现出在直播电商领域的技术创新实力。中国专利奖是我国知识产权领域的最高荣誉,彰显了知识产权对经济高质量发展的重要作用。

  • 快手电商AI上场,打的就是效率牌

    增长的业绩背后,离不开快手AI战略的持续落地与赋能。 快手的AI战略主要分为两部分: 一是视频生成大模型可灵,在财报中,快手单独披露了可灵AI的Q1营业收入 ——超过1.5亿元。目前,可灵AI已广泛应用于广告营销、短剧、智能终端等多个行业。 二是AI能力与其核心业务的深度融合,尤其体现在电商与广告两大支柱业务上。当多数企业仍在探索AI落地场景时,快手的AI能力�

  • 快手亮相第九届成都国际非物质文化遗产节,数字技术助力非遗项目传承

    第九届中国成都国际非遗节于5月28日至6月3日在成都举行,主题为"增进交流互鉴 激发传承活力"。快手平台通过AI技术展示、数字化留存、公益项目等多种形式参与,展现科技赋能非遗的创新实践。平台推出"非遗传习学堂"公益项目,已扶持20余位困境传承人,覆盖刺绣、剪纸等技艺,惠及1.5万人。数据显示,快手非遗创作者超1100万,深度兴趣用户超9500万。数字技术正为非遗注入新活力,让传统技艺在新时代焕发光彩。

  • 快手颜廷贵的铁牛江湖:卖得是中国制造,更是中国骄傲

    颜廷贵是山东徐蒲坦村人,从小对农机充满兴趣,长大后进入二手拖拉机销售行业。2018年转型快手主播,凭借专业知识和接地气的讲解风格,成为拥有50万粉丝的"农机专家"。他通过短视频直播推广国产农机,带动家乡农机销售,95%销售产品为中国制造。颜廷贵认为国产农机更适合中国多样化的土地类型,价格实惠且维修方便。他坚持用通俗语言讲解农机知识,建立客户信任,带动村民加入线上农机销售。未来他希望能让更多人认识中国制造的农机,推动农机行业创新发展。

今日大家都在搜的词: