大模型中 Attention 机制的常见问题与优化方案 | 极客日志