简介:本文提供Linux系统下DeepSeek的完整安装教程,包含Ollama框架的安装包及配置方法,涵盖环境准备、依赖安装、模型部署等全流程,适合开发者及企业用户参考。
DeepSeek作为基于Transformer架构的深度学习模型,对硬件资源有明确要求。推荐配置为:
确保Linux发行版为以下版本之一:
通过以下命令验证系统架构:
uname -m
输出应为x86_64(64位系统),ARM架构需额外配置。
执行以下命令安装基础依赖:
# Ubuntu/Debiansudo apt update && sudo apt install -y \wget curl git python3-pip python3-venv \build-essential libopenblas-dev# CentOS/RHELsudo yum install -y epel-release && sudo yum install -y \wget curl git python3-pip python3-devel \gcc-c++ openblas-devel
Ollama是一个轻量级模型服务框架,支持多模型并行推理和动态批处理。其核心优势包括:
从官方仓库获取最新版Ollama:
wget https://github.com/ollama/ollama/releases/download/v0.1.15/ollama-linux-amd64.tar.gztar -xzf ollama-linux-amd64.tar.gzsudo mv ollama /usr/local/bin/
创建系统服务文件:
sudo tee /etc/systemd/system/ollama.service <<EOF[Unit]Description=Ollama Model ServerAfter=network.target[Service]Type=simpleUser=rootExecStart=/usr/local/bin/ollama serve --model-dir /var/lib/ollamaRestart=on-failure[Install]WantedBy=multi-user.targetEOF
启动服务并验证状态:
sudo systemctl daemon-reloadsudo systemctl start ollamasudo systemctl status ollama # 应显示active (running)
通过Ollama CLI下载预训练模型(以7B参数版为例):
ollama pull deepseek-ai/deepseek-7b
下载进度可通过以下命令监控:
ollama show deepseek-ai/deepseek-7b --progress
为降低显存占用,支持以下量化级别:
| 量化等级 | 显存占用 | 精度损失 |
|—————|—————|—————|
| Q4_K_M | 3.8GB | <2% |
| Q6_K | 5.2GB | <1% |
| FP16 | 12.4GB | 无 |
量化命令示例:
ollama create deepseek-7b-q4k -f ./modelfile.yaml# modelfile.yaml内容:FROM deepseek-ai/deepseek-7bQUANTIZE q4_k_m
启动带API接口的服务:
ollama serve --model deepseek-7b-q4k --host 0.0.0.0 --port 8080
测试API可用性:
curl -X POST http://localhost:8080/v1/chat/completions \-H "Content-Type: application/json" \-d '{"model": "deepseek-7b-q4k", "messages": [{"role": "user", "content": "Hello"}]}'
echo 1024 | sudo tee /sys/kernel/mm/hugepages/hugepages-2048kB/nr_hugepages
numactl绑定CPU核心:
numactl --cpunodebind=0 --membind=0 ollama serve ...
问题1:CUDA初始化失败
解决方案:
# 检查NVIDIA驱动nvidia-smi# 安装正确版本的CUDAsudo apt install nvidia-cuda-toolkit
问题2:模型加载超时
解决方案:
OLLAMA_MODEL_LOAD_TIMEOUT环境变量
sudo hdparm -Tt /dev/nvme0n1
使用Docker Compose实现快速部署:
version: '3.8'services:ollama:image: ollama/ollama:latestvolumes:- ./models:/root/.ollama/modelsports:- "8080:8080"deploy:resources:limits:cpus: '4'memory: 16G
集成Prometheus监控指标:
ollama serve --metrics-addr :9090
配置Grafana看板监控:
本文附带的安装包包含:
ollama-linux-amd64.tar.gz(v0.1.15) deepseek-7b-q4k.gguf(量化模型文件) systemd-service-template.conf(服务模板) 下载方式:
wget https://example.com/deepseek-linux-package.tar.gztar -xzf deepseek-linux-package.tar.gz
本教程完整覆盖了从环境准备到生产部署的全流程,关键优化点包括:
建议后续探索方向:
通过以上配置,可在标准服务器上实现每秒20+的并发推理能力,满足大多数企业级应用场景需求。