近日,美国生命科学公司Tahoe Bio(前身为Vevo Therapeutics)正式发布其重磅AI基础模型——Tahoe-x1(Tx1),一个专为解码基因、细胞与药物三者复杂关系而生的30亿参数大模型。该模型的推出,标志着AI正式从“辅助工具”升级为“生命系统建模引擎”,为癌症靶点发现与个性化疗法开辟全新路径。

架构革新:30亿参数,专为单细胞世界而生
Tahoe-x1基于Transformer编码器架构,采用掩码语言建模(MLM)进行预训练,训练数据涵盖惊人的2.66亿单细胞转录组谱,其中包括Tahoe Bio自建的Tahoe-100M扰动数据集——该数据集记录了上千种分子对癌症细胞系的扰动响应,已被全球科研社区下载近20万次。
为兼顾性能与实用性,模型家族提供多尺寸版本(如Tx1-70M),并通过FlashAttention v2等优化技术,实现比同类细胞模型高3至30倍的计算效率,即便在普通GPU上也能高效运行,极大降低科研门槛。
能力一:精准锁定癌症“命门”,超越现有所有模型
在基因必需性(Gene Essentiality)预测任务中,Tahoe-x1在权威DepMap数据集上全面超越现有模型,能准确识别不同癌症亚型中维持肿瘤生存的“核心驱动基因”。这一能力可帮助研究人员快速锁定高价值靶点,大幅缩短从发现到验证的周期,尤其适用于异质性强的难治性癌症。
能力二:自动还原癌变通路,揭示分子协同网络
模型不仅能识别单个基因,更能捕捉癌变过程中协同激活的信号通路。在MSigDB数据库测试中,Tahoe-x1对“癌变标志通路”(hallmark programs)的还原准确率居首,可自动解析如细胞周期失控、DNA修复缺陷等关键生物学程序,为多靶点联合疗法提供系统性洞见。
能力三:零样本预测药效,虚拟临床试验成为现实
最令人振奋的是Tahoe-x1的零样本泛化(zero-shot generalization)能力——即使面对从未见过的细胞类型或患者样本,模型也能基于已有知识“类比推理”,预测其对特定药物的反应。这意味着,未来药物研发可在计算机中先行模拟成千上万种治疗方案,筛选出最有潜力的组合,再进入实验室或临床阶段,显著降低试错成本与失败率。
结合后训练框架,该模型还可适配多样化患者背景,加速个性化癌症疗法的落地。
AIbase观察:开源+数据驱动,生物AI生态加速成熟
Tahoe Bio已累计融资4200万美元,正构建目标达10亿数据点的全球最大单细胞扰动图谱。此次Tahoe-x1不仅开源模型权重(Hugging Face)、代码(GitHub),还提供交互式演示,预印本亦已上线bioRxiv,全面拥抱科研社区协作。
AIbase认为,Tahoe-x1的真正突破,在于它让AI从“统计相关性”迈向“机制理解力”。当模型能像生物学家一样思考基因如何调控、药物如何干预、细胞如何响应,药物研发范式将从“试错式”全面转向“预测式”。
未来,随着数据规模持续扩展,Tahoe-x1或将成为精准医疗的基础设施——在虚拟世界中预演千万种治疗可能,只为在现实世界中,为患者赢得那一次最有效的治疗机会。
