Google 推出医学治疗通用大模型 Tx-LLM,多项任务超越 SOTA
Google 团队发布 Tx-LLM 医学治疗通用大模型,基于 PaLM-2 微调。该模型在 66 个任务中 43 个媲美 SOTA,22 个超越 SOTA。它能处理化学与生物实体及自由文本交织的信息,加速药物发现流程。Tx-LLM 采用 TxT 数据集,包含指令、上下文、问题和答案四部分,并通过区间划分处理回归任务。研究发现不同类型药物任务间存在正面知识迁移,表明模型具备泛化能力,未来有望在药物研发中发挥关键作用。

Google 团队发布 Tx-LLM 医学治疗通用大模型,基于 PaLM-2 微调。该模型在 66 个任务中 43 个媲美 SOTA,22 个超越 SOTA。它能处理化学与生物实体及自由文本交织的信息,加速药物发现流程。Tx-LLM 采用 TxT 数据集,包含指令、上下文、问题和答案四部分,并通过区间划分处理回归任务。研究发现不同类型药物任务间存在正面知识迁移,表明模型具备泛化能力,未来有望在药物研发中发挥关键作用。

医生和科学家若想开发一种新的疗法,这通常是一个漫长且昂贵的过程。新药研发需要满足许多不同的标准,包括与目标病灶有效互动、具备良好的药效和临床疗效,同时确保无毒性和具有理想的药物特性,如溶解性、渗透性以及合适的药代动力学等。
据统计,90% 的候选药物在临床试验阶段会失败,而那些成功的药物从研发到获批上市通常需要耗费 10 至 15 年时间及 10 亿至 20 亿美元的资金。在临床试验中,意外的非靶向效应或药物间相互作用可能会抵消原本有前景的候选药物的效果。因此,药物研发面临着巨大的挑战。
目前大多数人工智能方法只能解决一组定义狭窄的任务,通常局限于特定领域。为了弥补这一差距,Google 团队提出了 Tx-LLM,这是一种通用大型语言模型(LLM),由 PaLM-2 微调而成,可编码有关各种治疗方式的知识。
Tx-LLM 专为加速药物发现流程而设计。该模型通过处理包含 709 个数据集的 TxT 集合,覆盖药物发现管线中的 66 项任务,能够编码关于多种治疗方式的知识。这些数据集的中位数大小为 11,000 条数据点。Tx-LLM 排除了少量 TDC 数据集以确保质量。
TxT 数据集的每个组成部分都设计成包含四部分的文本提示,旨在让模型理解复杂的生物化学背景:
TxT 数据集主要分为三类:
为了适应基于 token 而非浮点数表示的语言模型,回归任务的标签被均匀地划分为 0 到 1000 之间的区间,指示 Tx-LLM 预测区间标签。在评估时,预测的区间标签会被转换回原始的数值标签空间。整个设计确保了 Tx-LLM 能够全面地处理药物发现流程中的多样化任务。
Tx-LLM 使用单一权重集同时处理多样化的化学和生物实体(小分子、蛋白质、核酸、细胞系、疾病)与自由文本的组合,预测这些实体的广泛相关属性。
在 66 项任务中,Tx-LLM 的表现如下:
特别是在结合分子 SMILES 表示与文本(如细胞系名称或疾病名称)的任务上,Tx-LLM 表现尤为突出,这可能得益于预训练期间学到的上下文信息。SMILES 是简化分子线性输入规范,常用于表示化学结构,将其与自由文本结合是药物发现中的难点,因为需要模型同时理解化学结构和生物学语义。
此外,研究人员还发现了不同类型药物任务之间存在正面的知识迁移,例如小分子和蛋白质任务间的相互促进。这表明模型学习到的特征具有泛化性,而非死记硬背特定数据集。
这些结果表明,Tx-LLM 是朝着将生物化学知识编码进大型语言模型方向迈出的重要一步。传统的药物筛选往往依赖特定的计算化学工具,而 Tx-LLM 提供了一种统一的接口来处理不同类型的生物实体。
未来,Tx-LLM 有可能在整个药物发现和开发过程中扮演关键角色。它不仅能辅助预测药物属性,还能帮助科学家理解不同治疗方式之间的潜在联系,从而缩短研发周期,降低失败风险。通过将广泛的化学和生物知识整合到一个模型中,AI 有望成为新药研发中不可或缺的合作伙伴,推动医疗技术的进步。
Google 发布的 Tx-LLM 展示了通用大语言模型在垂直科学领域的巨大潜力。通过精细的数据构建和微调策略,该模型成功跨越了传统 AI 方法的局限性,实现了在多个药物发现任务上的卓越性能。随着技术的进一步成熟,这类模型将为生物医药行业带来革命性的效率提升。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online