Robots 禁止词表是路径、参数和URL模式的集合,网站所有者明确禁止搜索引擎在其robots.txt文件中抓取这些内容。这些词表对安全研究人员和渗透测试人员很有价值,因为它们通常指向网站的敏感区域或所有者希望保持未被发现的区域。本文档解释了SecLists存储库中维护的robots禁止词表的组织结构、内容和用例。有关这些词表如何保持最新状态的详细信息,请参阅词表更新器。
Robots 禁止词表采用分层方法组织,包含三个大小递增的文件
来源:Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-100.txt、Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-1000.txt、Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-10000.txt
每个词表都包含从网络上robots.txt文件中Disallow:指令中发现的模式
| 文件 | 大小 | 描述 | 常见内容类型 |
|---|---|---|---|
top-100.txt | 约216个条目 | 最常见的禁止路径 | 查询参数、API端点、常见管理路径 |
top-1000.txt | 约1,000个条目 | 中等大小列表,适用于平衡测试 | CMS路径、跟踪参数、搜索功能 |
top-10000.txt | 约10,000个条目 | 综合列表,适用于彻底测试 | 复杂模式、带特殊字符的文件路径、应用程序特定路径 |
来源:Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-100.txt、Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-1000.txt、Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-10000.txt
这些词表包含多样化的条目类型
来源:Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-1000.txt
以下是词表中的代表性示例
# Common administrative paths
/admin
/wp-admin
/dashboard
# Authentication-related
/login
/logout
/auth
# API and services
/api
$rpc/google.internal.maps.mapsjs.v1.MapsJsInternalService
/graphql
# Parameters
&_cookie-check=
&fbclid=
?utf8=
# Special characters and patterns
%7B%7Burl%7D%7D
*source=
来源:Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-100.txt、Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-1000.txt
Robots 禁止词表与SecLists存储库的其他组件集成,特别是在安全测试的发现阶段。
来源:.bin/wordlist-updaters/status.json
这些词表通过自动化更新系统维护,该系统定期刷新内容。
status.json 文件记录了词表上次更新的时间。
来源:.bin/wordlist-updaters/status.json
这些词表在安全测试的发现阶段特别有价值。
来源:Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-100.txt、Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-1000.txt
Web内容发现
工具集成
针对性测试
分层测试
top-100.txt开始,进行快速初步发现top-1000.txt进行中等深度测试top-10000.txt进行全面扫描参数筛选
与其他词表结合
来源:Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-100.txt、Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-1000.txt、Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-10000.txt
Robots 禁止词表通过聚合网站所有者明确试图向搜索引擎隐藏的路径和参数,为安全专业人员提供了宝贵的资源。这些列表提供了对Web应用程序和服务潜在敏感区域的洞察,使其成为安全测试发现阶段的重要组成部分。
这种三层方法(100、1,000和10,000个条目)允许根据测试要求和时间限制灵活使用。当与SecLists中的其他词表结合使用时,它们为全面的Web应用程序安全测试创建了一个强大的工具包。