RAG面试内容整理-4. 语义表示与向量化(BERT、DPR、ColBERT 等)
语义表示指将文本转换为能捕捉其语义信息的向量(嵌入)表示,以便进行相似度计算和检索。在RAG系统中,优秀的语义表示模型至关重要,因为检索器需要将查询和文档映射到同一向量空间中,使得相关的问答对距离更近。早期的表示方法如词袋模型无法表达上下文语义,而近年来的预训练语言模型(如BERT)提供了强大的上下文编码能力。BERT(Bidirectional Encoder Representations from Transformers)可以将一个句子编码成高维向量(通常取[CLS]标记输出或平均池化得到)作为其语义表示。未经微调的BERT生成的向量在检索任务上未必最佳,但通过有监督训练可以极大提升效果。例如,DPR(Dense Passage Retrieval)