简介：本文详细解析LLaMA Factory单机微调的全流程，涵盖环境配置、数据准备、模型训练与评估等关键环节，提供可复用的代码示例与操作建议，助力开发者高效完成本地化模型优化。

LLaMA Factory单机微调的实战教程

一、环境准备：构建稳定的微调基础

LLaMA Factory的单机微调依赖Python 3.8+环境，推荐使用conda创建独立虚拟环境以避免依赖冲突。首先安装基础依赖：

conda create -n llama_factory python=3.9
conda activate llama_factory
pip install torch==2.0.1 transformers==4.30.2 datasets==2.12.0 accelerate==0.20.3

关键点说明：

CUDA版本匹配：若使用GPU训练，需确保PyTorch版本与本地CUDA驱动兼容。可通过nvidia-smi查看驱动版本，在PyTorch官网选择对应版本。

LLaMA Factory安装：通过git克隆最新代码库，避免使用过时版本：

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e .

硬件要求验证：单机微调建议至少配备16GB显存的GPU（如NVIDIA RTX 3090），若显存不足可通过--gradient_accumulation_steps参数分批计算梯度。

二、数据准备：构建高质量微调数据集

数据质量直接影响模型性能，需遵循以下原则：

数据清洗：去除重复样本、低质量内容（如广告、无意义回复），建议使用正则表达式过滤特殊字符：

import re
def clean_text(text):
    text = re.sub(r'\s+', ' ', text).strip()  # 合并多余空格
    return re.sub(r'[^\w\s]', '', text)  # 移除标点（根据任务需求调整）

数据格式转换：将数据转换为LLaMA Factory支持的JSONL格式，每行包含prompt和response字段：

{"prompt": "解释量子计算的基本原理", "response": "量子计算利用..."}
{"prompt": "用Python实现快速排序", "response": "def quick_sort(arr):..."}

数据划分：按8

1比例划分训练集、验证集、测试集，确保分布一致性。可使用sklearn的train_test_split：

from sklearn.model_selection import train_test_split
train_data, temp_data = train_test_split(all_data, test_size=0.2)
val_data, test_data = train_test_split(temp_data, test_size=0.5)

三、模型微调：参数配置与训练优化

LLaMA Factory支持LoRA（低秩适应）和全参数微调两种方式，推荐从LoRA开始以降低计算成本。

1. LoRA微调配置

核心参数说明：

--lora_rank 16：LoRA矩阵的秩，通常设为8/16/32，值越大效果越好但计算量越大。
--lora_alpha 32：缩放因子，与lora_rank共同控制适应强度。
--lora_dropout 0.1：防止过拟合的Dropout率。

示例命令：

python llama_factory/src/train_lora.py \
  --model_name_or_path meta-llama/Llama-2-7b-hf \
  --data_path ./data/train.json \
  --output_dir ./output/lora \
  --lora_rank 16 \
  --lora_alpha 32 \
  --num_train_epochs 3 \
  --per_device_train_batch_size 4 \
  --gradient_accumulation_steps 8 \
  --learning_rate 2e-5 \
  --warmup_steps 100 \
  --fp16

2. 全参数微调（进阶）

当数据量充足（>10万样本）且硬件允许时，可尝试全参数微调：

python llama_factory/src/train_full.py \
  --model_name_or_path meta-llama/Llama-2-7b-hf \
  --data_path ./data/train.json \
  --output_dir ./output/full \
  --num_train_epochs 5 \
  --per_device_train_batch_size 2 \
  --gradient_accumulation_steps 16 \
  --learning_rate 1e-5 \
  --weight_decay 0.01 \
  --bf16

关键差异：

批次大小需减小（全参数微调显存占用更高）
学习率通常低于LoRA（1e-5 vs 2e-5）
需启用权重衰减（--weight_decay）防止过拟合

四、模型评估与迭代优化

训练完成后需通过以下指标评估模型：

损失曲线分析：观察训练集/验证集损失是否收敛，若验证集损失回升则可能过拟合。

生成质量测试：使用generate.py脚本生成样本，人工评估相关性、流畅性：

python llama_factory/src/generate.py \
  --model_name_or_path ./output/lora \
  --prompt "解释光合作用的过程" \
  --max_new_tokens 200

量化评估：计算BLEU、ROUGE等指标（需准备参考答案集）：

from datasets import load_metric
metric = load_metric("rouge")
predictions = [model_output]
references = [ground_truth]
results = metric.compute(predictions=predictions, references=references)

常见问题解决方案

显存不足错误：
- 减小per_device_train_batch_size
- 增加gradient_accumulation_steps
- 启用--gradient_checkpointing节省显存
训练速度慢：
- 确保使用fp16或bf16混合精度
- 启用--use_flash_attn（需安装flash-attn库）
- 使用nvidia-smi监控GPU利用率，若低于80%可能存在I/O瓶颈
模型不收敛：
- 检查学习率是否过高（尝试降低至1e-6）
- 增加warmup_steps（如从100增至500）
- 验证数据是否包含噪声（如重复样本）

五、部署与应用：将微调模型投入生产

微调完成后，可通过以下方式部署：

本地推理：

from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("./output/lora", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")
inputs = tokenizer("解释机器学习", return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

API服务化：使用FastAPI构建REST接口：

from fastapi import FastAPI
import torch
from transformers import pipeline
app = FastAPI()
generator = pipeline("text-generation", model="./output/lora", device=0 if torch.cuda.is_available() else "cpu")
@app.post("/generate")
async def generate(prompt: str):
    result = generator(prompt, max_length=100, do_sample=True)
    return {"text": result[0]["generated_text"]}

六、进阶技巧：提升微调效率

多轮微调策略：先在小数据集上快速验证方案，再逐步扩大数据量。
参数继承：将前一轮微调的LoRA权重作为下一轮的初始参数：
```
--lora_weights ./output/lora/checkpoint-1000
```

动态批次调整：根据GPU显存自动计算最大批次大小：

def get_max_batch_size(model, tokenizer, max_length=512):
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    batch_size = 1
    while True:
        try:
            inputs = tokenizer([" "] * batch_size, return_tensors="pt", padding=True, max_length=max_length).to(device)
            _ = model(**inputs)
            batch_size *= 2
        except RuntimeError:
            return batch_size // 2

通过以上系统化的实战教程，开发者可掌握LLaMA Factory单机微调的核心方法，从环境搭建到模型部署形成完整闭环。实际项目中建议结合具体任务（如问答、代码生成）调整超参数，并通过A/B测试对比不同微调策略的效果。

LLaMA Factory单机微调全流程指南：从零到一的实战手册