偏好对齐 RLHF:OpenAI、DeepMind 与 Anthropic 对比分析 | 极客日志