使用Ollama部署大语言模型
更新时间:2024-08-27
Ollama是一个开源的大模型管理工具,它提供了丰富的功能,包括模型的训练、部署、监控等。 您可以通过Ollama轻松地管理本地的大模型,提高模型的训练速度和部署效率。 百舸轻量服务预置了Ollama镜像模板,您可以使用模板快速搭建Ollama服务,使用Ollama进行大语言模型推理。
准备环境和资源
进入 资源池>轻量资源,点击 添加节点 按钮,将已开通的云服务器添加到百舸平台中用于快速部署Ollama。若轻量资源中已添加云服务器节点,可跳过此步骤。
安装 Ollama
在轻量服务模版市场选择Ollama模版,点击 创建服务 按钮,使用轻量资源快速部署Ollama;根据需要部署的模型参数量,选择使用卡数量,至少需要选择1张卡,点击 确定 启动服务,等待服务启动。
部署模型
您可以在官方模型仓库https://ollama.com/library 找到您想部署的模型,通过JuypterLab部署模型。 除了官方模型仓库提供的模型,您也可以直接加载下载到本地的模型文件。模型文件存储到 OLLAMA_MODELS=/root/ollama/ollama_cache/models 路径。
- 通过JupyterLab登录
在服务详情中,点击 登录 查看JupyterLab访问地址和SSH登录信息,
您可以在浏览器中打开JupyterLab或使用其他工具通过SSH登录
- 启动Ollama服务
启动服务
#启动ollama服务
ollama serve
- 下载模型
以部署Llama3 模型为例,使用此命令下载模型
ollama pull llama3
下载成功示例:
- 其他命令
#启动ollama服务
ollama serve
#从模型文件创建模型
ollama create
#显示模型信息
ollama show
#运行模型
ollama run 模型名称
#从注册表中拉去模型
ollama pull 模型名称
#将模型推送到注册表
ollama push
#列出模型
ollama list
#复制模型
ollama cp
#删除模型
ollama rm 模型名称
#获取有关ollama任何命令的帮助信息
ollama help
模型测试验证
命令行测试模型
使用此命令启动模型,进行在线测试。
ollama run llama3
通过API调用模型
- 获取OpenAPI 地址
单击 登录,查看OpenAPI地址
- 调用API
使用以下代码通过API调用模型。
#Generate a response
curl http://106.12.158.93:8028/api/generate -d '{
"model": "llama3",
"prompt":"Why is the sky blue?",
"stream": false
}'
#Chat with a model
curl http://106.12.158.93:8028/api/chat -d '{
"model": "llama3",
"messages": [
{ "role": "user", "content": "why is the sky blue?" }
],
"stream": false
}'
更多API信息可以查看Ollama官方文档 https://github.com/ollama/ollama/blob/main/docs/api.md