本文档介绍了 Earlybird(Twitter 的实时搜索服务)与基于 TensorFlow 的推荐推文排名之间的集成。该集成能够实现高性能搜索功能,并利用机器学习驱动的相关性排名来识别推荐候选推文。
有关使用此集成功能的更广泛 CR-Mixer 推荐系统的信息,请参阅 CR-Mixer。
Earlybird 集成将 Twitter 的搜索基础设施与机器学习模型相结合,以高效地检索和排名推文。该系统利用 Earlybird 的快速搜索能力来识别候选推文,同时利用 TensorFlow 模型根据相关性对这些候选进行评分。
来源
连接 CR-Mixer 与 Earlybird 搜索服务并应用基于 TensorFlow 排名的核心组件
来源
相似性引擎构建具有针对推荐用例优化的特定参数的 Earlybird 搜索请求。
| 参数 | 描述 |
|---|---|
serializedQuery | 核心搜索查询参数 |
fromUserIDFilter64 | 过滤来自特定用户 ID 的推文 |
numResults | 要返回的最大推文数量 |
rankingMode | 设置为 Relevance 以进行机器学习排名 |
relevanceOptions | 相关性评分的配置 |
collectorParams | 控制结果收集行为 |
facetFieldNames | 要获取的元数据字段(提及、标签) |
resultMetadataOptions | 其他元数据选项 |
来源
该集成利用 TensorFlow 模型对推文候选进行高级排名。
来源
下图说明了请求通过 Earlybird 集成的流程。
来源
搜索查询配置了特定的相关性选项以优化推文推荐。
| 选项 | 值 | 目的 |
|---|---|---|
proximityScoring | true | 启用基于距离的文本评分 |
maxConsecutiveSameUser | 2 | 限制来自同一用户的连续推文 |
rankingParams | 基于 TensorFlow | 配置机器学习排名 |
maxHitsToProcess | 500 | 限制处理以提高性能 |
maxUserBlendCount | 3 | 控制推文多样性 |
proximityPhraseWeight | 9.0 | 距离短语的权重 |
returnAllResults | true | 返回所有匹配结果 |
来源
基于 TensorFlow 的排名使用以下参数进行配置。
| 参数 | 值 | 目的 |
|---|---|---|
类型 | ThriftScoringFunctionType.TensorflowBased | 指定 TensorFlow 评分 |
selectedTensorflowModel | "timelines_rectweet_replica" | 要使用的特定模型 |
minScore | -1.0e100 | 分数的最小阈值 |
applyBoosts | false | 禁用额外增强 |
来源
Earlybird 集成位于更广泛的推荐管道中。
来源
Earlybird 集成提供了一种强大的机制,利用搜索技术和机器学习来检索和排名推文候选。它使推荐系统能够高效地查找来自指定用户的相关推文,应用复杂的排名,并提供多样化、个性化的内容推荐。
刷新此 Wiki
最后索引时间2025 年 4 月 18 日(72eda9)