Qdrant 向量数据库性能优化，系统内存占用降低 75%

geekbing2025-08-04AIRAG

起因

Chat2Reportopen in new window 上线之后，服务器成本就一直让我头疼。项目赚不了多少钱，每个月账单却要 400 多。问题的根源是向量数据库太吃内存了。。。

第一版大概有 14 万份财报，全部向量化塞进 Qdrantopen in new window 之后，内存直接干到 44G 以上。偏偏财报还在每天不停地增加，新的解析完就嵌入，内存一路往上涨，根本停不下来。没办法，只好咬牙买了台 64G 内存的服务器。

技术债务

当初选嵌入模型的时候，用的是 Jina Embeddings v3open in new window。5.7 亿参数、8K 输入长度、多语言支持，在 MTEB 上的性能甚至超过了 OpenAI 和 Cohere 最新的专有嵌入模型。最关键的是便宜，当时每百万 token 才 $0.02（现在已经涨到 $0.05 了），要向量化这么多财报，感觉赚到了。

为了追求检索准确率，我把嵌入维度设成了 1024，就是这个决定，给后来的高额服务器费用埋下了雷。

后来也试过用 Qdrant 的量化配置把原始向量存到磁盘，内存是降了一些，但还是很高。现在回头想想，怎么当时就没想到把嵌入维度降下来呢？维度低一点，检索准确率其实没差多少（这个后面我会单独写一篇聊），真想回去扇自己两巴掌。