TeleQnA:评估大型语言模型电信知识的基准数据集
摘要
我们介绍了 TeleQnA,这是第一个用于评估通信中大型语言模型(LLM)知识的基准数据集。该数据集包含 10000 个问题和答案,来自不同的来源,包括标准和研究文章。本文概述了负责创建该数据集的自动问题生成框架,以及如何在各个阶段整合人力输入以确保问题的质量。然后,使用所提供的数据集,进行评估以评估 LLM 的能力,包括 GPT-3.5 和 GPT-4。研究结果强调,这些模型难以解决复杂的标准相关问题,但在解决一般通信相关问题方面表现出了熟练程度。此外,我们的研究结果展示了结合通信知识背景如何显著提高其性能,从而揭示了对专业通信基础模型的需求。最后,数据集与活跃的通信专业人员共享,他们的性能随后与 LLM 的性能进行基准测试。研究结果表明,LLM 在通信知识方面的表现可以与活跃的专业人员相媲美,这要归功于他们处理大量信息的能力,突显了 LLM 在该领域的潜力。该数据集已公开访问。

