LLM 评估指标详解:如何客观对比 LLaMA-3 与 GPT-4 能力 | 极客日志