云端智能图片检索

为 MT Photos 提供先进的 AI 识别能力

通过 CLIP 语义搜索、OCR 文字识别和人脸识别，让你的照片库拥有智能检索能力。支持 gemini-embedding-2、qwen3-vl-embedding 云端 API。

核心能力

访问先进的 embedding 模型，获得专业图片理解能力。

基于 Google Gemini Embedding / qwen3-vl-embedding 的向量检索，支持自然语言描述搜索图片，准确理解语义。

基于 PaddleOCR-VL 引擎，精准提取图片文字内容，并可与视觉特征融合提升检索准确率。

基于本地人脸识别模型检测图片中的人脸并提取特征向量，本地运行，不消耗云端额度。

灵活适配不同使用场景，从个人照片库到更大规模的批处理任务。

开发中

使用自己的 Google / 阿里 API Key，支持实时 API 调用。

人脸识别在客户端本地运行，不消耗云端 Token，不产生额外费用。

它适合截图、票据、文档照片等含文字图片。系统会把 OCR 文字与视觉特征一起向量化，提高以文搜图的命中率。

为你的照片库注入智能搜索能力。