查询处理

概述

查询处理系统将自然语言用户查询转换为优化的搜索表达式，这些表达式可以在 Elasticsearch 或 Infinity 文档存储上执行。该系统处理多语言文本（中文和英文），应用术语加权算法，并生成结合了向量和基于分词的匹配的混合相似度分数。

来源： rag/nlp/query.py26-278 rag/nlp/rag_tokenizer.py31-476 rag/nlp/term_weight.py27-245

FulltextQueryer 类是查询处理的主要协调器，它实现了将用户查询转换为搜索表达式的核心 question() 方法。

组件	目的	关键方法
`FulltextQueryer`	主查询处理器	`question()`, `hybrid_similarity()`, `paragraph()`
`term_weight.Dealer`	术语加权和评分	`weights()`, `split()`, `pretoken()`
`synonym.Dealer`	同义词扩展	`lookup()`
`RagTokenizer`	文本分词	`tokenize()`, `fine_grained_tokenize()`

来源： rag/nlp/query.py26-39 rag/nlp/query.py85-217

系统将查询映射到具有加权重要性分数的特定文档字段

来源： rag/nlp/query.py30-38

系统在分词前应用多个标准化步骤

来源： rag/nlp/query.py86-96 rag/nlp/query.py75-83 rag/nlp/query.py45-53

RagTokenizer 实现了使用动态规划优化进行正向和反向最大匹配的复杂分词算法

来源： rag/nlp/rag_tokenizer.py61-89 rag/nlp/rag_tokenizer.py249-271 rag/nlp/rag_tokenizer.py273-294

术语加权系统结合多个因素来衡量分词的重要性