您现在的位置是:网站首页> AI人工智能
大模型本地化部署相关技术收集
- AI人工智能
- 2025-11-16
- 20人已阅读
大模型本地化部署相关技术收集
*本地模型部署工具部署模型,用Agent框架调用部署工具接口实现调用模型*

Ollama相关(点击进入Ollama官网)
第一次用 Ollama 跑视觉模型:Qwen2.5-VL 7B
Ollama打开网络服务

第一次用 Ollama 跑视觉模型:Qwen2.5-VL 7B
前几天在 Mac 上安装了 Ollama,并下载了 Qwen2.5-VL 7B 做了一些测试,整个过程还挺有意思,分享给大家。
1 Mac 安装 Ollama
进入 Ollama 官网 ,我的电脑是 Mac Studio ,所以选择 MacOS 下载 。

下载完成后,双击安装 ,安装完成后界面如下图:

2 下载 Qwen 2.5 VL 7B
Qwen 2.5-VL 是阿里巴巴通义千问团队开发的一款开源的旗舰级视觉语言模型。
它能够处理文本、图像和视频,并具备强大的视觉理解和交互能力。该模型有不同参数规模(如 3B、7B 和 72B),适用于从边缘 AI 到高性能计算的多种场景 。
下载 Qwen 2.5 VL 有两种方式 :
1、通过命令行请求
ollama pull qwen2.5vl:7b
2、通过 Ollama GUI 界面安装

在 GUI 界面选择模型 ,若未下载会显示下载图标,然后在对话框中输入任意文本即可自动下载。
3 文本/图片体验
下载完模型后,即可在对话框中进行对话。

当然我们也可以通过 ollama 启动模型后展开对话:
ollama run qwen2.5vl:7b
接下来,进行图片检测,图片如下:

检测结果:

我们也可以通过该模型识别图像中的文字、公式或抽取票据、证件、表单中的信息,支持格式化输出文本:

4 程序调用分析图片
我们也可以编写 python 调用 Ollama 接口,同样是分析图片:

同样,Ollama 也支持兼容 OpenAI 的接口协议 ,可以实现流式对话,见下图:
curl http://localhost:11434/api/chat -d '{
"model": "qwen2.5vl:7b",
"messages": [
{ "role": "user", "content": "写一段代码" }
]
}'
效果见下图 :

5 总结
Qwen 2.5-VL 7B 简直就是“本地视觉小钢炮”,各种图像信息都能一把抓,无论给它截图、票据、图表还是复杂场景,它都能有所作为。
笔者认为它尤其适合在如下场景中发挥作用:
文档和票据解析:发票、合同、报表、扫描件,一次推理即可提取文字并生成结构化数据
表格与图表解析:财务报表、统计图表,快速提取表头和数据,方便后续分析
图片场景理解:仓库、机房、办公室等照片,自动识别物体和整体场景
多模态问答:结合图片和文本内容回答问题,支持科研、教育或产品原型
内容审核与合规检测:识别敏感文字或违规图像,本地部署保护隐私
Ollama的配置修改与接口调用
一、修改环境变量
1.1 配置远程访问
在我们本地部署好ollama之后,仅支持本机访问,我们可以通过修改环境变量让其他人可以远程访问。
在wins电脑上增加环境变量:
OLLAMA_HOST 0.0.0.0:11434

1.2 配置本地模型路径
1.2.1 本地模型默认路径
wins本地模型默认路径:C:\Users\%username%\.ollama\models。
这里 %username% 是当前登录的用户名。例如,如果用户名为 Smqnz,则模型文件的默认存储路径可能是 C:\Users\Smqnz\.ollama\models。
以我的电脑为例:
C:\Users\admin\.ollama\models

1.2.2 修改本地模型默认路径
wins上的环境变量增加:
OLLAMA_MODELS 你想要存放的路径
以下为修改示例:

修改后,重启ollama即可。
1.3 配置允许的http请求来源
OLLAMA_ORIGINS 是 Ollama 中用于配置跨域资源共享(CORS)的环境变量,可以指定哪些来源(域名、IP 地址等)可以访问 Ollama 提供的 API 服务。
如果我们想让它接收任何来源(IP)的http请求的话,我们需要将其设置为*。
OLLAMA_ORIGINS *

这里一定要注意,以上修改的环境变量名称必须为大写,不要随意修改。
二、ollama常用API请求
一般来说,我们可以通过打开命令行窗口直接进行对话。
但是这种方式对于开发者来说并不实用,一般我们需要通过其API进行访问与开发,本次我们就来详细聊一下ollama常见的API
2.1 文本生成API
Ollama 提供了一套功能丰富的文本生成接口,方便用户与本地部署的模型进行交互,以下是其主要的文本生成接口及功能介绍:
接口路径:POST /api/generate
功能:向模型发送提示(prompt),生成文本回复。
请求参数:
model:模型名称,如 “deepseek-r1:7b”。
prompt:输入的提示文本。
stream:是否启用流式输出,默认为 false。
options:可选参数,包括:
temperature:控制生成文本的多样性,取值范围通常为 0 到 1。
max\_tokens:最大生成的 token 数量。
top\_p:Top-p 采样参数。

2.2 对话聊天API
接口路径:POST /api/chat
功能:支持多轮对话,模型会记住上下文。
请求参数:
model:模型名称。
messages:消息列表,包含用户输入和模型回复,格式为 {“role”: “user”, “content”: “用户输入内容”}。
stream:是否启用流式输出,默认为 false。
options:可选参数,与生成文本接口类似。

三、ollama兼容openai的请求
3.1 单轮对话

3.2 多轮对话

可以看到,多轮对话可以通过维护问答列表能够很好地理解上下文的含义。
上一篇:通过AI学习AI编程