在 Elasticsearch 中落地 Learning to Rank(LTR)
1 为什么要引入 LTR?
常规检索(BM25、语义检索、Hybrid、RRF …)往往只能基于少量信号(关键词命中、向量相似度)排序。
Learning-to-Rank 通过机器学习模型把多维度特征(文档属性、查询属性、查询-文档相关特征)融合为一个“最终得分”,在 Top-K 结果里做二阶段重排,可显著提升业务相关性。
经典场景:
1.1 Judgment List(标注集)
-
内容:
-
来源:人工标注 / 点击转化日志(加权采样)
-
平衡性:
- 各查询类型(标题、演员、品牌…)样本数要均衡
- 正负样本比例适当(例如 1:4),防止模型倾向“认为全是相关”
1.2 特征工程
match
分数、向量相似度在 ES 中用 templated query 把一段 DSL 转成特征抽取器,既用于离线生成训练集,也用于线上推理。
[ { \"query_extractor\": { \"feature_name\": \"title_bm25\", \"query\": { \"match\": { \"title\": \"{{query}}\" } } } }, { \"query_extractor\": { \"feature_name\": \"price_norm\", \"query\": { \"script_score\": { \"script\": \"doc[\'price\'].value / 1000\" } } } }]
2 训练 LTR 模型(LambdaMART)
-
生成训练 TSV/CSV
relevance qid:123 1:title_bm25 2:price_norm 3:clicks ...
-
XGBoost/LGBM 训练
- Objective 设为
rank:pairwise
或rank:ndcg
- 评估指标:nDCG@10、MAP 等
- Objective 设为
-
导出模型 (
model.json
)
📦 eland 工具一键上传:
eland_import_hub_model --url $ES --model_id my_ltr --task text_similarity --model_path model.json
3 在 Elasticsearch 中部署 reranker
POST _inference/_deployments{ \"inference_id\": \"my-ltr-reranker\", \"task_type\": \"text_similarity\", \"model_id\" : \"my_ltr\"}
4 检索 + LTR 二阶段重排示例
POST /products/_search{ \"size\": 10, // 最终返回 10 条 \"retriever\": { // Stage-1 召回 \"rrf\": { \"retrievers\": [ { \"standard\": { \"query\": { \"match\": { \"title\": \"wireless headset\" } }, \"k\": 100 } }, { \"standard\": { \"query\": { \"semantic\": { \"field\": \"semantic_text\", \"query\": \"wireless headset\" } }, \"k\": 100 } } ] } }, \"reranker\": { // Stage-2 LTR \"text_similarity_reranker\": { \"model_id\": \"my-ltr-reranker\", \"field\": \"{{{features}}}\", // 模板内包含多特征拼接 \"max_passages\": 10 } }}
- retriever:先用 Hybrid + RRF 召回 100 条文档
- text_similarity_reranker:调用 cross-encoder LambdaMART 模型重新排序
返回字段 _rank
即为 LTR 排名,_score
为 LTR 预测分。
5 常见问题与优化
text_similarity
;XGBoost 转 eland 时指定正确输入维度6 小结
- Judgment list → Feature → GBDT 训练
- eland 上传模型 → Inference Endpoint
- Retriever 首召回 + LTR rerank 单请求搞定
借助 Elasticsearch 9.x 内置的 text_similarity_reranker,你无需改动索引结构,即可把成熟的 LambdaMART/XGBoost 排序模型接入查询链路,在百毫秒级实时重排 Top-K 结果,轻松获得更贴近用户意图的搜索体验 🚀