概述
在 AI 领域如 NLP/CV 等,做实验时经常需要用到 HuggingFace 上的开源模型或数据集,同时依赖远程服务器提供算力。为避免手动下载并传输文件的繁琐过程,可使用官方命令行工具直接在远程服务器下载。
操作步骤
1. 连接服务器
无需额外操作。
2. 安装 huggingface_hub 库
pip install -U huggingface_hub
3. 配置国内镜像
为防止连接超时,需设置环境变量。
# 编辑配置文件 vim ~/.bashrc
# 在末尾添加 export HF_ENDPOINT="https://hf-mirror.com"
# 使更改生效 source ~/.bashrc
4. 下载模型
使用以下命令,模型 ID 可从网页复制。
huggingface-cli download --resume-download {模型 ID} --local-dir {目标目录}
例如下载 RoBERTa 模型:
huggingface-cli download --resume-download FacebookAI/roberta-base --local-dir ./roberta-base
5. 下载数据集
下载数据集需增加 --repo-type dataset 参数。
huggingface-cli download --repo-type dataset --resume-download {数据集 ID} --local-dir {目标目录}
若需下载数据集中的特定文件,可在数据集 ID 后追加文件名:
huggingface-cli download --repo-type dataset --resume-download {数据集 ID} {文件名} --local-dir {目标目录}


