Robots 协议禁止的字典

目的与范围

Robots 禁止词表是路径、参数和URL模式的集合，网站所有者明确禁止搜索引擎在其robots.txt文件中抓取这些内容。这些词表对安全研究人员和渗透测试人员很有价值，因为它们通常指向网站的敏感区域或所有者希望保持未被发现的区域。本文档解释了SecLists存储库中维护的robots禁止词表的组织结构、内容和用例。有关这些词表如何保持最新状态的详细信息，请参阅词表更新器。

文件组织

目录结构

Robots 禁止词表采用分层方法组织，包含三个大小递增的文件

来源：Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-100.txt、Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-1000.txt、Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-10000.txt

文件内容概览

每个词表都包含从网络上robots.txt文件中Disallow:指令中发现的模式

文件	大小	描述	常见内容类型
`top-100.txt`	约216个条目	最常见的禁止路径	查询参数、API端点、常见管理路径
`top-1000.txt`	约1,000个条目	中等大小列表，适用于平衡测试	CMS路径、跟踪参数、搜索功能
`top-10000.txt`	约10,000个条目	综合列表，适用于彻底测试	复杂模式、带特殊字符的文件路径、应用程序特定路径

内容分析

条目类型和模式

这些词表包含多样化的条目类型

来源：Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-1000.txt

示例条目

以下是词表中的代表性示例

# Common administrative paths
/admin
/wp-admin
/dashboard

# Authentication-related
/login
/logout
/auth

# API and services
/api
$rpc/google.internal.maps.mapsjs.v1.MapsJsInternalService
/graphql

# Parameters
&_cookie-check=
&fbclid=
?utf8=

# Special characters and patterns
%7B%7Burl%7D%7D
*source=

来源：Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-100.txt、Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-1000.txt

与SecLists集成

Robots 禁止词表与SecLists存储库的其他组件集成，特别是在安全测试的发现阶段。

来源：.bin/wordlist-updaters/status.json

更新系统

这些词表通过自动化更新系统维护，该系统定期刷新内容。

status.json 文件记录了词表上次更新的时间。

来源：.bin/wordlist-updaters/status.json

用例

安全测试工作流

这些词表在安全测试的发现阶段特别有价值。