Google 推出医学治疗通用大模型 Tx-LLM,多项任务超越 SOTA
引言:药物研发的挑战与 AI 机遇
医生和科学家若想开发一种新的疗法,这通常是一个漫长且昂贵的过程。新药研发需要满足许多不同的标准,包括与目标病灶有效互动、具备良好的药效和临床疗效,同时确保无毒性和具有理想的药物特性,如溶解性、渗透性以及合适的药代动力学等。
据统计,90% 的候选药物在临床试验阶段会失败,而那些成功的药物从研发到获批上市通常需要耗费 10 至 15 年时间及 10 亿至 20 亿美元的资金。在临床试验中,意外的非靶向效应或药物间相互作用可能会抵消原本有前景的候选药物的效果。因此,药物研发面临着巨大的挑战。
目前大多数人工智能方法只能解决一组定义狭窄的任务,通常局限于特定领域。为了弥补这一差距,Google 团队提出了 Tx-LLM,这是一种通用大型语言模型(LLM),由 PaLM-2 微调而成,可编码有关各种治疗方式的知识。
Tx-LLM 核心架构与数据基础
Tx-LLM 专为加速药物发现流程而设计。该模型通过处理包含 709 个数据集的 TxT 集合,覆盖药物发现管线中的 66 项任务,能够编码关于多种治疗方式的知识。这些数据集的中位数大小为 11,000 条数据点。Tx-LLM 排除了少量 TDC 数据集以确保质量。
TxT 数据集结构
TxT 数据集的每个组成部分都设计成包含四部分的文本提示,旨在让模型理解复杂的生物化学背景:
- 指令 (Instruction):一个简短的句子,描述了要执行的具体任务,例如「回答有关药物属性的问题」。
- 上下文 (Context):提供了额外的自由文本描述,用于将问题置于相关生物化学背景中。上下文通常由 2-3 句话组成,来源自 TDC 数据集的描述,并根据主题的文献检索进行了人工补充。对于描述特定实验条件的专门测试,如 ToxCast,上下文的额外信息来源于公开的测试描述。
- 问题 (Question):一个简洁的询问,明确指出了所询问的特定属性,如「以下分子是否能穿过血脑屏障?」问题中穿插了基于文本的治疗剂表示。
- 答案 (Answer):格式因任务类型而异。
任务类型与标签处理
TxT 数据集主要分为三类:
- 二元分类问题:预测治疗剂的单一属性,给出两种可能的答案,如药物是否有毒性。
- 回归问题:预测治疗剂在连续尺度上的单一属性,例如药物与目标的结合亲和力。
为了适应基于 token 而非浮点数表示的语言模型,回归任务的标签被均匀地划分为 0 到 1000 之间的区间,指示 Tx-LLM 预测区间标签。在评估时,预测的区间标签会被转换回原始的数值标签空间。整个设计确保了 Tx-LLM 能够全面地处理药物发现流程中的多样化任务。
性能表现与优势分析
Tx-LLM 使用单一权重集同时处理多样化的化学和生物实体(小分子、蛋白质、核酸、细胞系、疾病)与自由文本的组合,预测这些实体的广泛相关属性。
综合性能评估
在 66 项任务中,Tx-LLM 的表现如下:
- 媲美 SOTA:在 43 项任务上达到了与最先进水平相当的表现。
- 超越 SOTA:在 22 项任务上甚至超越了现有最佳模型。
多模态融合能力
特别是在结合分子 SMILES 表示与文本(如细胞系名称或疾病名称)的任务上,Tx-LLM 表现尤为突出,这可能得益于预训练期间学到的上下文信息。SMILES 是简化分子线性输入规范,常用于表示化学结构,将其与自由文本结合是药物发现中的难点,因为需要模型同时理解化学结构和生物学语义。
此外,研究人员还发现了不同类型药物任务之间存在正面的知识迁移,例如小分子和蛋白质任务间的相互促进。这表明模型学习到的特征具有泛化性,而非死记硬背特定数据集。
技术意义与未来展望
这些结果表明,Tx-LLM 是朝着将生物化学知识编码进大型语言模型方向迈出的重要一步。传统的药物筛选往往依赖特定的计算化学工具,而 Tx-LLM 提供了一种统一的接口来处理不同类型的生物实体。
未来,Tx-LLM 有可能在整个药物发现和开发过程中扮演关键角色。它不仅能辅助预测药物属性,还能帮助科学家理解不同治疗方式之间的潜在联系,从而缩短研发周期,降低失败风险。通过将广泛的化学和生物知识整合到一个模型中,AI 有望成为新药研发中不可或缺的合作伙伴,推动医疗技术的进步。


