菜单

Earlybird 集成

相关源文件

目的与范围

本文档介绍了 Earlybird(Twitter 的实时搜索服务)与基于 TensorFlow 的推荐推文排名之间的集成。该集成能够实现高性能搜索功能,并利用机器学习驱动的相关性排名来识别推荐候选推文。

有关使用此集成功能的更广泛 CR-Mixer 推荐系统的信息,请参阅 CR-Mixer

概述

Earlybird 集成将 Twitter 的搜索基础设施与机器学习模型相结合,以高效地检索和排名推文。该系统利用 Earlybird 的快速搜索能力来识别候选推文,同时利用 TensorFlow 模型根据相关性对这些候选进行评分。

来源

关键组件

EarlybirdTensorflowBasedSimilarityEngine

连接 CR-Mixer 与 Earlybird 搜索服务并应用基于 TensorFlow 排名的核心组件

来源

搜索查询配置

相似性引擎构建具有针对推荐用例优化的特定参数的 Earlybird 搜索请求。

参数描述
serializedQuery核心搜索查询参数
fromUserIDFilter64过滤来自特定用户 ID 的推文
numResults要返回的最大推文数量
rankingMode设置为 Relevance 以进行机器学习排名
relevanceOptions相关性评分的配置
collectorParams控制结果收集行为
facetFieldNames要获取的元数据字段(提及、标签)
resultMetadataOptions其他元数据选项

来源

TensorFlow 排名集成

该集成利用 TensorFlow 模型对推文候选进行高级排名。

来源

请求流程

下图说明了请求通过 Earlybird 集成的流程。

来源

配置详情

相关性选项

搜索查询配置了特定的相关性选项以优化推文推荐。

选项目的
proximityScoringtrue启用基于距离的文本评分
maxConsecutiveSameUser2限制来自同一用户的连续推文
rankingParams基于 TensorFlow配置机器学习排名
maxHitsToProcess500限制处理以提高性能
maxUserBlendCount3控制推文多样性
proximityPhraseWeight9.0距离短语的权重
returnAllResultstrue返回所有匹配结果

来源

TensorFlow 排名配置

基于 TensorFlow 的排名使用以下参数进行配置。

参数目的
类型ThriftScoringFunctionType.TensorflowBased指定 TensorFlow 评分
selectedTensorflowModel"timelines_rectweet_replica"要使用的特定模型
minScore-1.0e100分数的最小阈值
applyBoostsfalse禁用额外增强

来源

与推荐流程的集成

Earlybird 集成位于更广泛的推荐管道中。

来源

总结

Earlybird 集成提供了一种强大的机制,利用搜索技术和机器学习来检索和排名推文候选。它使推荐系统能够高效地查找来自指定用户的相关推文,应用复杂的排名,并提供多样化、个性化的内容推荐。