大模型应用开发平台Dify为很多模型服务商提供原生支持,其中就包括ollama,支持LLM和Text Embedding,Ollama 是一款跨平台推理框架客户端(MacOS、Windows、Linux),专为无缝部署大型语言模型(LLM)(如deepseek、 Llama 2、Mistral、Llava 等)而设计。通过一键式设置,Ollama 可以在本地运行 LLM,将所有交互数据保存在自己的机器上,从而提高数据的私密性和安全性。
首先我们使用前几篇文档中提到的那台英伟达GeForce GTX 1080 Ti服务器,跑一下ollama,首先执行命令ollama serve:
然后执行命令ollama run deepseek-r1:1.5b,运行一个参数量比较小的模型:
模型会跑在11434端口上面,可以通过curl -v http://127.0.0.1:11434,测试一下:
Ollama is running,ollama服务运行了,下面我们就打开dify平台,找到设置中的模型供应商,把ollama服务集成进去:
接下来我们就可以来创建一个聊天助手,使用ollama启动的模型服务:
问题:当我们在服务器上启动ollama服务,通过ip+端口访问不了,而能通过127.0.0.01+端口能访问,这是因为Ollama 服务默认仅绑定到本地回环接口(localhost),未对外开放。我们可以通过环境变量配置,在启动命令或配置文件中添加export OLLAMA_HOST="0.0.0.0"即可,这时候ollama启动,就可以通过ip+端口对外提供服务了。