TeleQnA：评估大型语言模型电信知识的基准数据集

摘要

我们介绍了 TeleQnA，这是第一个用于评估通信中大型语言模型（LLM）知识的基准数据集。该数据集包含 10000 个问题和答案，来自不同的来源，包括标准和研究文章。本文概述了负责创建该数据集的自动问题生成框架，以及如何在各个阶段整合人力输入以确保问题的质量。然后，使用所提供的数据集，进行评估以评估 LLM 的能力，包括 GPT-3.5 和 GPT-4。研究结果强调，这些模型难以解决复杂的标准相关问题，但在解决一般通信相关问题方面表现出了熟练程度。此外，我们的研究结果展示了结合通信知识背景如何显著提高其性能，从而揭示了对专业通信基础模型的需求。最后，数据集与活跃的通信专业人员共享，他们的性能随后与 LLM 的性能进行基准测试。研究结果表明，LLM 在通信知识方面的表现可以与活跃的专业人员相媲美，这要归功于他们处理大量信息的能力，突显了 LLM 在该领域的潜力。该数据集已公开访问。