大语言模型参数配置与 Llama3 模型构建实战

大语言模型微调中，参数配置是基础。本文基于 Hugging Face 库，展示了如何定义 ModelArguments、DataTrainingArguments 及自定义 TrainingArguments。通过 HfArgumentParser 解析命令行参数，进而实现 Llama3 模型的加载与分词器初始化。内容涵盖量化配置、Flash Attention 支持及设备映射策略，为实际训练提供可直接参考的代码框架。

SparkGeek发布于 2025/1/140 浏览

前言

在明确了 Hugging Face 的参数传递理论后，接下来我们进入实践环节。本文将结合 Llama3 模型，演示如何构建参数对象、实例化模型与分词器，并整合 Trainer 进行训练准备。

参数体系构建

在大模型开发中，参数管理通常分为模型配置、数据处理和训练控制三类。虽然具体字段随项目需求变化，但核心结构保持一致。

模型参数配置

这部分主要涉及模型路径、版本控制及加载时的精度设置。例如，指定预训练权重位置或覆盖默认配置项：

@dataclass
class ModelArguments:
    """ Arguments pertaining to which model/config/tokenizer we are going to fine-tune, or train from scratch. """
    model_name_or_path: Optional[str] = field(
        default=None,
        metadata={"help": ("The model checkpoint for weights initialization. Don't set if you want to train a model from scratch.")}
    )
    tokenizer_name_or_path: Optional[str] = field(
        default=None,
        metadata={
            "help": (
                "The tokenizer for weights initialization.Don't set if you want to train a model from scratch."
            )},
    )
    model_type: Optional[str] = field(
        default=None
    )
    config_overrides: Optional[str] = field(
        default=None,
        metadata={"help": (
            "Override some existing default config settings when a model is trained from scratch. Example: "
            "n_embd=10,resid_pdrop=0.2,scale_attn_weights=false,summary_type=cls_index"
        )},
    )
    cache_dir: Optional[str] = field(
        default=None,
        metadata={"help": "Where do you want to store the pretrained models downloaded from huggingface.co"}
    )
    model_revision: str = field(
        default=,
        metadata={: }
    )
    use_auth_token:  = field(
        default=,
        metadata={
            : (
                
                
            )
        }
    )
    torch_dtype: [] = field(
        default=,
        metadata={
            : (
                
                
            ),
            : [, , , ],
        }
    )
    low_cpu_mem_usage:  = field(
        default=,
        metadata={
            : (
                
                
            )
        }
    )

相关免费在线工具

加密/解密文本

使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online

RSA密钥对生成器

生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online

Mermaid 预览与可视化编辑

基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online

curl 转代码

解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

Base64 字符串编码/解码

将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

Base64 文件转换器

将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

@dataclass class DataTrainingArguments: """ Arguments pertaining to what data we are going to input our model for training and eval. """ dataset_dir: Optional[str] = field(default=None, metadata={"help": "The name of the dataset to use (via the datasets library)."}) dataset_config_name: Optional[str] = field(default=None, metadata={"help": "The configuration name of the dataset to use (via the datasets library)."}) train_file: Optional[str] = field(default=None, metadata={"help": "The input training data file (a text file)."}) validation_file: Optional[str] = field( default=None, metadata={"help": "An optional input evaluation data file to evaluate the perplexity on (a text file)."}, ) max_train_samples: Optional[int] = field( default=None, metadata={ "help": ( "For debugging purposes or quicker training, truncate the number of training examples to this " "value if set." ) } ) max_eval_samples: Optional[int] = field( default=None, metadata={ "help": ( "For debugging purposes or quicker training, truncate the number of evaluation examples to this " "value if set." ) } ) streaming: bool = field(default=False, metadata={"help": "Enable streaming mode"}) block_size: Optional[int] = field( default=None, metadata={ "help": ( "Optional input sequence length after tokenization. " "The training dataset will be truncated in block of this size for training. " "Default to the model max input length for single sentence inputs (take into account special tokens)." ) } ) overwrite_cache: bool = field(default=False, metadata={"help": "Overwrite the cached training and evaluation sets"}) preprocessing_num_workers: Optional[int] = field( default=None, metadata={"help": "The number of processes to use for the preprocessing."} ) keep_linebreaks: bool = field(default=True, metadata={"help": "Whether to keep line breaks when using TXT files or not."}) data_cache_dir: Optional[str] = field(default="./data_cache", metadata={"help": "数据加载缓冲处理"}) max_length: Optional[int] = field( default=1024, metadata={"help": "文本最长长度."} ) def __post_init__(self): if self.streaming: require_version("datasets>=2.0.0", "The streaming feature requires `datasets>=2.0.0`")

大语言模型参数配置与 Llama3 模型构建实战

前言

参数体系构建

模型参数配置

更多推荐文章

相关免费在线工具

数据处理参数

训练参数扩展

参数解析

模型与分词器初始化

分词器加载

模型加载

更多推荐文章

相关免费在线工具

大语言模型参数配置与 Llama3 模型构建实战

前言

参数体系构建

模型参数配置

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

数据处理参数

训练参数扩展

参数解析

模型与分词器初始化

分词器加载

模型加载

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具