从'看细胞'到'预测细胞',人工智能正在怎样改写细胞生物学?
过去几年,人工智能在生命科学中最出圈的应用,往往集中在蛋白质结构预测、分子设计和药物筛选上。AlphaFold 让人们第一次如此直观地感受到:原来一个看似极度复杂的生物问题,真的可能被大规模数据、模型架构和计算能力共同推进到'范式改变'的节点。可如果把视角从蛋白质拉回实验室,从分子层面的结构预测,回到细胞生物学研究者每天面对的培养箱、显微镜、图像、单细胞测序矩阵和反复调参的分析脚本,你会发现另一场同样深刻、却更贴近日常科研的变化,也已经开始发生。
这场变化的核心,不只是工具迭代,而是研究范式的迁移——从完全依赖人工观察和定性描述,转向数据驱动的定量建模与预测。
十几年前,想要分析一张免疫荧光图片,意味着在 ImageJ 里手动描边、数亮点、统计平均荧光强度,整个下午都花在几百个细胞上。后来有了 CellProfiler,能批量处理,但阈值得靠经验死磕。现在,一个基于 U-Net 的预训练模型,两分钟内完成细胞核分割、轮廓提取、蛋白共定位分析,最后直接输出统计表格。更关键的是,那些让你纠结的'这个染色算阳性还是背景'的问题,逐渐被概率输出替代——模型会告诉你每个像素属于信号的置信度,而不是替你武断地做个二分类。
这还只是静态图像。活细胞成像产生的时间序列,传统分析靠手动追踪每个细胞的迁移轨迹,几百帧下来谁都得崩溃。现在可以用粒子追踪算法加卡尔曼滤波,或者直接上 Transformer 做全局轨迹关联,把细胞分裂、迁移、死亡事件整理得清清楚楚,甚至能预测未来几帧的运动方向。我身边做癌细胞迁移的同行,十年前一个实验的分析要两周,现在脚本跑一晚上就能出全部分析,剩下时间都用来琢磨生物学意义。
单细胞转录组学的爆发更是典型。十年前,一次实验测几百个细胞就敢发 Nature Communications,现在随便一个 10x Genomics 的样本就是几千上万个细胞,产出几百万个基因表达数据点。靠传统的 PCA 加二维可视化已经不足以理解高维空间的真实结构,于是 scVI、Harmony 这些深度生成模型开始成为标配。它们不仅能把批次效应清干净,还能对细胞类型进行概率聚类——不再是'这个细胞属于 T 细胞',而是'它有 82% 的概率是 CD8+ 效应 T 细胞,13% 是耗竭 T 细胞'。这种在不确定性中做推断的能力,恰好符合生物学自身的模糊边界。
更前沿的方向在虚拟染色和空间组学。病理切片不用真的滴苏木精-伊红,拍张多光谱成像,用 cGAN 直接生成虚拟 HE 染色图像,不仅免了试剂,还能在同一张切片上同时得到马松染色和免疫组化信息。空间转录组学里,组织位置和基因表达的联合建模,让研究者可以在三维空间里画出细胞通讯网络,这完全颠覆了以往'磨碎组织测表达'的思路。
当然,这些技术不是银弹。深度学习模型的可解释性依然是个坑——细胞分割的精确边界到底依据什么特征,模型往往说不清,这让追求机制研究的生物学家心里打鼓。算力门槛也摆在那里:一个稍复杂的细胞分类模型,在实验室的 3090 上微调可能还行,但遇到百万级图像数据集,没有集群根本别想。另外,数据质量和标注的一致性,仍是瓶颈中的瓶颈。一个荧光蛋白标记的差异、一点固定时间的变化,都可能让模型产生偏见,而这类细节在材料方法里往往被轻描淡写。
但不管怎样,趋势已经清晰:AI 不是在取代细胞生物学家,而是在推着他们把精力从手工作坊式的图像测量和统计处理中释放出来,去做更核心的假设提出和实验验证。说到底,显微镜看过多少张片子,还是在回答'细胞长什么样';而真正的兴趣,始终在于'细胞为什么会这样'。当计算能更好地描述'什么样',我们才有更多时间思考'为什么'。


