本文档提供了关于监控 Base 节点健康、性能和状态的详细指南。它涵盖了可用的指标端点、同步状态监控、日志分析以及与外部监控工具的集成。有关节点特定问题的故障排除信息,请参阅故障排除。
Base 节点公开了多个监控接口,允许操作员跟踪节点健康和性能。监控架构集成了 op-node(共识客户端)和执行客户端组件。
来源:.env.mainnet27-30 .env.sepolia24-27 README.md112-122
Base 节点公开了多个接口,用于监控其健康和性能。
| 组件 | 接口 | 默认端口 | 目的 |
|---|---|---|---|
| op-node | Metrics 端点 | 7300 | Prometheus 指标 |
| op-node | RPC 端点 | 8545 | 状态查询和节点控制 |
| op-node | 日志 | 不适用 | 调试和操作信息 |
| 执行客户端 | RPC 端点 | 8545 | 以太坊 JSON-RPC API |
| 执行客户端 | WebSocket | 8546 | 实时更新 |
| 执行客户端 | 评估指标 | 因客户端而异 | 性能指标 |
| 执行客户端 | EthStats | 可选 | 网络可视化 |
来源:.env.mainnet27-30 .env.mainnet7-10 .env.sepolia7-10
op-node 和执行客户端都公开了兼容 Prometheus 的指标端点,可以对其进行抓取以获取详细性能数据。
在主网和测试网环境中,op-node 指标端点默认启用,具有以下配置:
OP_NODE_METRICS_ADDR=0.0.0.0
OP_NODE_METRICS_ENABLED=true
OP_NODE_METRICS_PORT=7300
此配置在所有网络接口上通过端口 7300 公开指标端点。
来源:.env.mainnet27-30 .env.sepolia24-27
每个支持的执行客户端都有不同的指标功能。
/debug/metrics/prometheus 端点上公开 Prometheus 指标。监控同步状态对于确保您的节点正确跟踪 Base 链至关重要。op-node 公开了一个专门的 RPC 方法来实现此目的。
optimism_syncStatus RPC 方法您可以使用以下命令查询节点的同步状态:
这将返回有关当前同步状态的详细信息,包括:
README 中提供了一个有用的脚本,用于检查您的节点落后了多少。
该脚本计算当前时间与最后同步的 L2 块之间的时间戳之间的差值,以分钟为单位提供延迟。
日志提供了对节点运行的宝贵见解,并有助于解决问题。
op-node 的日志级别在环境文件中配置。
OP_NODE_LOG_LEVEL=info
来源:.env.mainnet23 .env.sepolia23
来源:.env.mainnet23 .env.sepolia23
对于生产节点,强烈建议集成外部监控工具。
用于抓取 Base 节点指标的基本 Prometheus 配置
对于 Geth,您可以通过在环境文件中取消注释并配置以下行来启用 EthStats 报告:
OP_GETH_ETH_STATS=nodename:secret@host:port
对于 Nethermind,您可以通过以下方式启用 EthStats:
OP_NETHERMIND_ETHSTATS_ENABLED=true
OP_NETHERMIND_ETHSTATS_NODE_NAME=YourNodeName
OP_NETHERMIND_ETHSTATS_ENDPOINT=ethstats_endpoint
来源:.env.mainnet7-10 .env.sepolia7-10
下图说明了监控 Base 节点的完整数据流,包括指标收集、日志聚合和警报生成。
来源:.env.mainnet7-10 .env.mainnet27-30 README.md112-122
在为 Base 节点设置监控时,请关注以下关键指标:
| 类别 | 指标 | 描述 | 警告信号 |
|---|---|---|---|
| 同步状态 | 同步延迟 | 当前时间与最新区块之间的时间差 | 滞后超过 10 分钟 |
| 系统资源 | CPU 使用率 | 处理器利用率 | 持续高于 80% |
| 系统资源 | 内存使用 | RAM 消耗 | 超过 90% 的可用内存 |
| 系统资源 | 磁盘使用情况 | 存储消耗 | 超过 85% 的可用空间 |
| 系统资源 | 磁盘 I/O | 读/写操作 | 高延迟(>100 毫秒) |
| 网络 | 对等节点数量 | 连接的对等节点数 | 少于 3 个对等节点 |
| 网络 | 带宽 | 网络流量(入/出) | 持续高使用率 |
| 性能 | 区块处理时间 | 处理新区块的时间 | 随时间推移而增加 |
| 错误(Errors) | 错误率 | 日志中的错误计数 | 任何突然增加 |
对于生产环境的 Base 节点,我们推荐:
有效的监控对于维护可靠的 Base 节点至关重要。通过监控同步状态、系统资源和网络连接,您可以及早发现并解决问题,防止其影响性能或可靠性。
op-node 和执行客户端内置的监控接口提供了用于跟踪节点健康和性能的全面数据。对于生产环境,强烈建议集成 Prometheus 和 Grafana 等外部监控工具,以确保可靠运行。