简介：本文深入探讨如何利用Spring AI框架与Ollama工具链，构建并调用deepseek-r1大模型的API服务。通过详细的步骤解析与代码示例，帮助开发者快速实现模型部署与接口调用。

一、技术选型与架构设计

1.1 技术组件解析

Spring AI作为Spring生态中专注于AI开发的子项目，提供模型服务化、流式处理、多模型适配等核心能力。其与Spring Boot的深度整合，可快速构建RESTful API服务。Ollama则是开源的本地化模型运行框架，支持通过Docker容器部署LLM模型，提供高性能的推理服务。

1.2 架构设计思路

采用分层架构设计：

表现层：Spring Boot Web构建REST API
业务层：Spring AI处理模型交互逻辑
数据层：Ollama容器运行deepseek-r1模型
通信层：gRPC协议实现高效服务调用

这种设计兼顾开发效率与运行性能，特别适合需要本地化部署的私有化AI服务场景。

二、环境准备与模型部署

2.1 开发环境配置

需准备以下环境：

JDK 17+
Maven 3.8+
Docker 24.0+
Ollama最新版本

建议使用Linux服务器（Ubuntu 22.04+）以获得最佳性能，Windows/macOS需通过WSL2或Docker Desktop配置。

2.2 Ollama模型部署

安装Ollama：

curl -fsSL https://ollama.com/install.sh | sh

下载deepseek-r1模型（以7B参数版为例）：
```
ollama pull deepseek-r1:7b
```

验证模型加载：

ollama run deepseek-r1:7b "测试指令"

关键参数配置建议：

显存需求：7B模型建议12GB+
推理参数：--num-gpu 1 --temperature 0.7
持久化存储：通过-v /path/to/models:/models挂载卷

三、Spring AI服务实现

3.1 项目初始化

使用Spring Initializr创建项目，添加以下依赖：

<dependencies>
    <dependency>
        <groupId>org.springframework.ai</groupId>
        <artifactId>spring-ai-ollama-starter</artifactId>
        <version>0.8.0</version>
    </dependency>
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>
</dependencies>

3.2 核心配置

application.yml配置示例：

spring:
  ai:
    ollama:
      base-url: http://localhost:11434
      model-id: deepseek-r1:7b
    chat:
      prompt-template: "用户：{{prompt}}\nAI："

3.3 服务层实现

创建ChatService接口：

public interface ChatService {
    String chat(String prompt);
    Stream<String> streamChat(String prompt);
}

实现类使用Spring AI的OllamaClient：

@Service
public class OllamaChatService implements ChatService {
    private final OllamaChatClient chatClient;
    public OllamaChatService(OllamaChatClient chatClient) {
        this.chatClient = chatClient;
    }
    @Override
    public String chat(String prompt) {
        ChatRequest request = ChatRequest.builder()
            .messages(Collections.singletonList(
                AiMessage.builder().content(prompt).build()))
            .build();
        ChatResponse response = chatClient.call(request);
        return response.getGeneration().getContent();
    }
    @Override
    public Stream<String> streamChat(String prompt) {
        // 实现流式响应逻辑
    }
}

3.4 控制器层实现

REST API端点示例：

@RestController
@RequestMapping("/api/chat")
public class ChatController {
    @Autowired
    private ChatService chatService;
    @PostMapping
    public ResponseEntity<String> chat(
            @RequestBody ChatRequestDto request) {
        String response = chatService.chat(request.getPrompt());
        return ResponseEntity.ok(response);
    }
    @GetMapping("/stream")
    public ResponseEntity<StreamingResponseBody> streamChat(
            @RequestParam String prompt) {
        // 实现SSE流式响应
    }
}

四、高级功能实现

4.1 流式响应实现

使用Spring的StreamingResponseBody：

public ResponseEntity<StreamingResponseBody> streamChat(
        @RequestParam String prompt) {
    StreamingResponseBody stream = outputStream -> {
        // 通过Ollama的SSE接口获取流式数据
        // 逐块写入outputStream
    };
    return ResponseEntity.ok()
        .header(HttpHeaders.CONTENT_TYPE, "text/event-stream")
        .body(stream);
}

4.2 上下文管理

实现多轮对话的上下文保持：

public class ConversationManager {
    private Map<String, List<Message>> conversations = new ConcurrentHashMap<>();
    public List<Message> getConversation(String sessionId) {
        return conversations.computeIfAbsent(sessionId, k -> new ArrayList<>());
    }
    public void addMessage(String sessionId, Message message) {
        getConversation(sessionId).add(message);
    }
}

4.3 性能优化

关键优化点：

连接池配置：

spring:
ai:
 ollama:
   connection-pool:
     max-size: 10
     idle-timeout: 30000

批处理优化：

@Bean
public OllamaChatClient ollamaChatClient(OllamaProperties properties) {
 return new OllamaChatClientBuilder(properties)
     .batchSize(512)  // 最大token批处理
     .build();
}

五、部署与运维

5.1 Docker化部署

Dockerfile示例：

FROM eclipse-temurin:17-jdk-jammy
WORKDIR /app
COPY target/*.jar app.jar
EXPOSE 8080
ENTRYPOINT ["java","-jar","app.jar"]

docker-compose.yml配置：

version: '3.8'
services:
  ollama:
    image: ollama/ollama
    volumes:
      - ./models:/models
    ports:
      - "11434:11434"
  api:
    build: .
    ports:
      - "8080:8080"
    depends_on:
      - ollama

5.2 监控方案

推荐监控指标：

请求延迟（P99 < 500ms）
错误率（< 0.1%）
模型加载时间
显存使用率

Prometheus配置示例：

scrape_configs:
  - job_name: 'spring-ai'
    metrics_path: '/actuator/prometheus'
    static_configs:
      - targets: ['api:8080']

六、实践建议

模型选择策略：
- 7B模型适合边缘设备
- 33B模型需要专业GPU
- 考虑量化版本降低显存需求
安全实践：
- 实现API密钥认证
- 输入内容过滤
- 输出内容审计
扩展方案：
- 多模型路由（根据请求复杂度选择模型）
- 缓存层设计（Redis缓存常见问答）
- 异步处理队列（RabbitMQ/Kafka）

七、常见问题解决

连接超时：
- 检查Ollama服务是否运行
- 验证网络防火墙设置
- 增加连接超时时间配置
显存不足：
- 降低batch_size
- 使用更小参数量的模型
- 启用交换空间（Swap）
流式响应卡顿：
- 检查网络带宽
- 优化SSE分块大小（建议512-1024字节）
- 增加服务器资源

通过以上技术方案，开发者可以快速构建基于Spring AI和Ollama的deepseek-r1模型服务，实现从本地部署到API服务化的完整链路。该方案特别适合需要数据主权控制的金融、医疗等行业应用场景。

Spring AI + Ollama 实现 deepseek-r1 的API服务和调用