菜单

Robots 协议禁止的字典

相关源文件

目的与范围

Robots 禁止词表是路径、参数和URL模式的集合,网站所有者明确禁止搜索引擎在其robots.txt文件中抓取这些内容。这些词表对安全研究人员和渗透测试人员很有价值,因为它们通常指向网站的敏感区域或所有者希望保持未被发现的区域。本文档解释了SecLists存储库中维护的robots禁止词表的组织结构、内容和用例。有关这些词表如何保持最新状态的详细信息,请参阅词表更新器

文件组织

目录结构

Robots 禁止词表采用分层方法组织,包含三个大小递增的文件

来源:Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-100.txtDiscovery/Web-Content/trickest-robots-disallowed-wordlists/top-1000.txtDiscovery/Web-Content/trickest-robots-disallowed-wordlists/top-10000.txt

文件内容概览

每个词表都包含从网络上robots.txt文件中Disallow:指令中发现的模式

文件大小描述常见内容类型
top-100.txt约216个条目最常见的禁止路径查询参数、API端点、常见管理路径
top-1000.txt约1,000个条目中等大小列表,适用于平衡测试CMS路径、跟踪参数、搜索功能
top-10000.txt约10,000个条目综合列表,适用于彻底测试复杂模式、带特殊字符的文件路径、应用程序特定路径

来源:Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-100.txtDiscovery/Web-Content/trickest-robots-disallowed-wordlists/top-1000.txtDiscovery/Web-Content/trickest-robots-disallowed-wordlists/top-10000.txt

内容分析

条目类型和模式

这些词表包含多样化的条目类型

来源:Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-1000.txt

示例条目

以下是词表中的代表性示例

# Common administrative paths
/admin
/wp-admin
/dashboard

# Authentication-related
/login
/logout
/auth

# API and services
/api
$rpc/google.internal.maps.mapsjs.v1.MapsJsInternalService
/graphql

# Parameters
&_cookie-check=
&fbclid=
?utf8=

# Special characters and patterns
%7B%7Burl%7D%7D
*source=

来源:Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-100.txtDiscovery/Web-Content/trickest-robots-disallowed-wordlists/top-1000.txt

与SecLists集成

Robots 禁止词表与SecLists存储库的其他组件集成,特别是在安全测试的发现阶段。

来源:.bin/wordlist-updaters/status.json

更新系统

这些词表通过自动化更新系统维护,该系统定期刷新内容。

status.json 文件记录了词表上次更新的时间。

来源:.bin/wordlist-updaters/status.json

用例

安全测试工作流

这些词表在安全测试的发现阶段特别有价值。

来源:Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-100.txtDiscovery/Web-Content/trickest-robots-disallowed-wordlists/top-1000.txt

实际应用

  1. Web内容发现

    • 识别隐藏的管理界面
    • 定位认证端点
    • 发现文档中未提及的API端点
  2. 工具集成

    • 作为诸如Gobuster、Dirbuster或Ffuf等工具的输入
    • 用于目标扫描的自定义词表
    • 与SecLists中的其他词表结合,以实现全面覆盖
  3. 针对性测试

    • 根据特定技术(例如WordPress、Drupal)筛选条目
    • 为特定测试场景创建自定义词表
    • 与CMS专用词表结合,进行平台测试

有效使用

  1. 分层测试

    • top-100.txt开始,进行快速初步发现
    • 接着使用top-1000.txt进行中等深度测试
    • 时间允许时,使用top-10000.txt进行全面扫描
  2. 参数筛选

    • 提取特定参数类型(例如,所有以“&”或“?”开头的条目)
    • 关注特定技术指示符(例如,'wp-'、'admin'、'api')
  3. 与其他词表结合

    • 与CMS专用词表结合,进行目标测试
    • 与通用发现列表合并,以实现更广泛的覆盖
    • 合并多个列表时去除重复条目

来源:Discovery/Web-Content/trickest-robots-disallowed-wordlists/top-100.txtDiscovery/Web-Content/trickest-robots-disallowed-wordlists/top-1000.txtDiscovery/Web-Content/trickest-robots-disallowed-wordlists/top-10000.txt

结论

Robots 禁止词表通过聚合网站所有者明确试图向搜索引擎隐藏的路径和参数,为安全专业人员提供了宝贵的资源。这些列表提供了对Web应用程序和服务潜在敏感区域的洞察,使其成为安全测试发现阶段的重要组成部分。

这种三层方法(100、1,000和10,000个条目)允许根据测试要求和时间限制灵活使用。当与SecLists中的其他词表结合使用时,它们为全面的Web应用程序安全测试创建了一个强大的工具包。