一个支持语音、文本、图片多模态输入的本地 AI 搜索桌面应用

源码资源网 · 发表于 2026-1-25 19:05:33

一个支持语音、文本、图片多模态输入的本地 AI 搜索桌面应用
一款专为知识工作者、内容创作者和技术开发者设计的跨平台本地桌面应用（Windows/MacOS/Linux）。通过集成的AI模型，支持语音输入（30秒内）、文本输入、图片输入等多种方式，将用户的查询转换为语义进行智能搜索，实现对本地文件的深度检索。
核心特性

多模态输入：支持语音录音、文本输入、图片上传
深度检索：支持视频（mp4、avi）、音频（mp3、wav）、文档（txt、markdown、office、pdf）的内容和文件名搜索
AI增强：集成BGE-M3、FasterWhisper、CN-CLIP、OLLAMA等先进AI模型
高性能：基于Faiss向量搜索和Whoosh全文搜索的混合检索架构
隐私安全：本地运行，数据不上传云端，支持隐私模式
现代界面：基于Electron + Vue 3 + TypeScript的现代化桌面应用

技术栈

前端技术

框架: Electron + Vue 3 + TypeScript
UI库: Ant Design Vue
状态管理: Pinia
构建工具: Vite

后端技术

框架: Python 3.10 + FastAPI + Uvicorn
AI模型: BGE-M3 + FasterWhisper + CN-CLIP + Ollama
搜索引擎: Faiss (向量搜索) + Whoosh (全文搜索)
数据库: SQLite + 索引文件

环境要求

操作系统: Windows/MAC OS/Linux
Python: 3.10.11+
Node.js: 21.x+
内存: 建议8GB以上

准备模型: 系统默认模型说明：

ollama：qwen2.5:1.5b
嵌入模型：BAAI/bge-m3
语音识别模型：Systran/faster-whisper-base
视觉模型：OFA-Sys/chinese-clip-vit-base-patch16

注意：建议先准备默认模型，先成功启动应用后，再更换模型。

ollama模型： ollama pull qwen2.5:1.5b （根据情况自行选择）

所有模型下载地址：（百度盘）链接: https://pan.baidu.com/s/1jRcTztvjf8aiExUh6oayVg?pwd=ycr5 提取码: ycr5

嵌入模型：

模型根目录：data/models/embedding
将下载的模型直接解压放入到根目录即可，以下是对应关系
- data/models/embedding/BAAI/bge-m3
- data/models/embedding/BAAI/bge-small-zh
- data/models/embedding/BAAI/bge-large-zh

语音识别模型：

模型根目录：data/models/faster-whisper
将下载的模型直接解压放入到根目录即可，以下是对应关系
- data/models/faster-whisper/Systran/faster-whisper-base
- data/models/faster-whisper/Systran/faster-whisper-small
- data/models/faster-whisper/Systran/faster-whisper-medium
- data/models/faster-whisper/Systran/faster-whisper-large-v3

视觉模型：

模型根目录：data/models/cn-clip
将下载的模型直接解压放入到根目录即可，以下是对应关系
- data/models/cn-clip/OFA-Sys/chinese-clip-vit-base-patch16
- data/models/cn-clip/OFA-Sys/chinese-clip-vit-large-patch14

一个支持语音、文本、图片多模态输入的本地 AI 搜索桌面应用

链接: https://pan.baidu.com/s/1gfXlBUSQafdJTLc_r_Hkhw
提取码下载：

文件名称:提取码下载.txt
下载次数:0 文件大小:17 Bytes 售价:29金钱 [记录]
下载权限: 不限 [购买VIP] [充值] [在线充值] 【VIP会员6折；永久VIP4折】

安全检测，请放心下载

		自动登录	找回密码
密码			立即注册

一个支持语音、文本、图片多模态输入的本地 AI 搜索桌面应用

相关帖子

浏览过的版块