简介:本文提供从零开始的DeepSeek本地部署方案,无需GPU、完全免费,覆盖环境配置、模型加载、接口调用全流程,附完整工具包及优化建议。
DeepSeek作为开源大模型,本地部署具有显著优势:隐私安全(数据不出本地)、零成本(无需云服务费用)、灵活定制(可修改模型参数)、离线可用(无网络依赖)。尤其适合开发者调试、学生研究及中小企业私域应用。
# Linux示例(Ubuntu)sudo apt update && sudo apt install -y python3.10 python3-pip git wgetpip install torch==2.0.1 transformers==0.18.0 accelerate==0.21.0
附完整工具包包含:
ollama运行环境(跨平台)
# Linuxwget https://ollama.ai/install.sh && sudo bash install.sh# Windows# 下载安装包后双击运行
ollama run deepseek-ai/deepseek-r1:7b
import requestsresponse = requests.post("http://localhost:11434/api/generate",json={"model": "deepseek-r1:7b", "prompt": "解释量子计算"})print(response.json())
from transformers import AutoModelForCausalLM, AutoTokenizermodel = AutoModelForCausalLM.from_pretrained("deepseek-ai/deepseek-r1-7b", device_map="auto")tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/deepseek-r1-7b")model.save_pretrained("./local_model")tokenizer.save_pretrained("./local_model")
python -m vllm.entrypoints.openai_api_server \--model ./local_model \--tokenizer deepseek-ai/deepseek-r1-7b \--dtype bfloat16
bitsandbytes进行4/8位量化
from transformers import BitsAndBytesConfigquant_config = BitsAndBytesConfig(load_in_4bit=True)model = AutoModelForCausalLM.from_pretrained(..., quantization_config=quant_config)
device_map="auto"实现CPU-GPU混合加载--served_batch_size 4参数
export HUGGINGFACE_HUB_OFFLINE=1export ROCM_ENABLE_PRE_V50=1 # AMD显卡
CUDA out of memoryModuleNotFoundError: acceleratepip install --upgrade acceleratenetstat -ano | findstr 11434)"Content-Type: application/json; charset=utf-8"
from langchain.embeddings import HuggingFaceEmbeddingsfrom langchain.vectorstores import FAISSembeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-small-en-v1.5")docsearch = FAISS.from_texts(["文档内容..."], embeddings)
graph TDA[用户输入] --> B{意图识别}B -->|问答| C[DeepSeek-7B]B -->|分析| D[Llama3-8B]C & D --> E[结果聚合]
git lfs pull)
# 限制API访问iptables -A INPUT -p tcp --dport 11434 -s 192.168.1.0/24 -j ACCEPTiptables -A INPUT -p tcp --dport 11434 -j DROP
ollama-linux-amd64-0.1.15.tar.gz(MD5: 3a7b…)deepseek-r1-7b-q4_k.gguf(量化模型)api_test.py(含压力测试脚本)windows_dependencies.zip(驱动补丁)通过本方案,开发者可在20分钟内完成部署,实测推理成本较云服务降低97%。建议定期备份模型文件(tar -czvf model_backup.tar.gz ./local_model),并关注GitHub官方仓库的更新日志。