Transformer 结构及应用详解:GPT、BERT、MT-DNN、GPT-2 | 极客日志