使用文档

MT Copilot

产品概述

MT Copilot 是 MT Photos 照片管理器的 AI 扩展，旨在提供业界领先的的 CLIP 语义搜索、OCR 文字识别和人脸识别能力。本文档涵盖安装配置、功能说明

CLIP 语义搜索

将图片和文本转换为向量嵌入，支持以图搜图、以文搜图。支持 Google Gemini 和阿里百炼两种 Embedding 模型。

OCR 文字识别

从图片中提取文字内容，使用 PaddleOCR-vl-1.6模型。

人脸识别

基于人脸识别模型检测图片中的人脸并提取特征向量，支持 Direct ML 加速。

识别逻辑

MT Copilot 通过云端请求调用 AI 能力，结果写入 MT Photos PostgreSQL 数据库。

安装与启动

环境要求

Windows 10/11 64 位系统
MT Photos 已安装并运行
至少 4GB 可用内存

配置说明

所有配置通过项目根目录的 .env 文件管理。以下是关键配置项：

环境变量

变量	默认值	说明
`HTTP_PORT`	`8060`	后端服务端口
`API_AUTH_KEY`	`mt_photos_ai_extra`	MT Photos 调用时的鉴权 Key

Embedding 模型配置

变量	默认值	说明
`CLIP_MODEL`	`qwen3-vl-embedding`	Embedding 模型选择
`EMBED_DIMENSION`	`768`	向量维度（128~4096）
`USE_THUMBNAIL`	`true`	使用缩略图加速处理
`FUSION_MODE`	`false`	融合向量模式（OCR+视觉特征）

人脸与 OCR 配置

变量	默认值	说明
`FORCE_CUDA`	`true`	是否使用 GPU 加速人脸识别

数据库配置

变量	默认值	说明
`MT_DB_HOST`	`127.0.0.1`	MT Photos PostgreSQL 地址
`MT_DB_PASSWORD`	自动读取	数据库密码（留空自动从安装目录获取）

CLIP 识别

CLIP 识别将图片和文本转换为高维向量，通过向量相似度实现语义级别的搜索。

工作流程

1MT Copilot 从 MT Photos的数据库里面读取当前所有图片的识别信息
2后端调用 Embedding 模型生成图片向量
3MT Copilot将识别结果写入数据库，并将这张照片在数据库里面的识别状态修改为已完成状态

支持的模型

模型
`qwen3-vl-embedding`
`gemini-embedding-002`

融合向量模式

开启该功能后，系统会将图片的 OCR 文字特征与视觉特征融合为单个向量，显著提升以文搜图的精度。

OCR 文字识别

从图片中提取文字内容，支持多种图片格式和 PDF 文件。

说明

由于MT Photos 数据库限制，超过2500字节的文字将会被截断。

人脸识别

使用业界最新的人脸模型提取特征向量。

GPU 加速

设置 FORCE_CUDA=true 可启用 CUDA 加速人脸检测。需要安装 CUDA Toolkit 和对应的 ONNX Runtime。

提示

人脸识别在本地运行，不消耗云端 Token，不产生额外费用。

前端界面

首页仪表盘

访问 http://localhost:5173 查看服务运行概览：

请求总数和计算设备信息（CPU/GPU）
缓存向量数量
当前模型配置（向量维度、推理后端、CLIP 模型、OCR 后端）

任务管理

在「任务」页面可以：

启动/停止三阶段批处理流水线
实时查看日志，了解处理进度
监控每阶段的处理速度和剩余数量

数据库浏览

在「数据库」页面可以：

查看 MT Photos PostgreSQL 连接状态和识别统计
浏览照片列表，支持按分类、关键字筛选和分页
查看照片详情：缩略图、OCR 内容、CLIP 状态、AI 分类
手动编辑并保存 OCR 文本

系统设置

在「设置」页面可以调整：

向量维度（128~4096 滑块）
是否使用缩略图
融合向量开关

修改配置后需点击「保存并重启」使配置生效。

常见问题

人脸识别需要付费吗？

人脸识别在本地运行，不消耗云端 Token，不产生额外费用