环境配置

torch>=1.13.0已经不在支持CUDA11.3以下的版本了,CUDA版本必须升级,可以查看

nvidia-smi

在conda虚拟环境中安装的cuda版本必须<=CUDA Version

多GPU跑

config,位置/.cache/huggingface/accelerate

compute_environment: LOCAL_MACHINE
distributed_type: MULTI_GPU
downcast_bf16: 'no'
gpu_ids: 0,1,2,3,4,5,6,7
machine_rank: 0
main_training_function: main
mixed_precision: fp16
num_machines: 1
num_processes: 6
rdzv_backend: static
same_network: true
tpu_env: []
tpu_use_cluster: false
tpu_use_sudo: false
use_cpu: false

.sh文件

CUDA_VISIBLE_DEVICES=2,3,4,5,6,7 accelerate launch src/train_bash.py \
    --stage sft \
    --model_name_or_path /mnt/ganyang/bloomz-560m \
    --do_train \
    --dataset alpaca_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --lora_target query_key_value \
    --output_dir /mnt/ganyang/outputs/bloomz_560m_gpus \
    --overwrite_cache \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 5e-5 \
    --num_train_epochs 3.0 \
    --plot_loss \
    --fp16

Logo

鸿蒙生态一站式服务平台。

更多推荐