S1: 仅 1k 样本,测试时扩展超越 OpenAI o1-preview 性能 | 极客日志