Firecrawl

OpenClaw 可以使用 Firecrawl 作为 web_fetch 的回退提取器。它是一个托管的内容提取服务,支持机器人规避和缓存,有助于处理重 JS 的网站或阻止普通 HTTP 获取的页面。

获取 API 密钥

  1. 创建 Firecrawl 账户并生成 API 密钥。
  2. 将其存储在 gateway 配置环境变量中设置 FIRECRAWL_API_KEY

配置 Firecrawl

{
  tools: {
    web: {
      fetch: {
        firecrawl: {
          apiKey: "FIRECRAWL_API_KEY_HERE",
          baseUrl: "https://api.firecrawl.dev",
          onlyMainContent: true,
          maxAgeMs: 172800000,
          timeoutSeconds: 60,
        },
      },
    },
  },
}

注意?

  • 当存?API 密钥时,firecrawl.enabled 默认?true?
  • maxAgeMs 控制缓存结果可以有多旧(毫秒)。默认是 2 天?

隐形 / 机器人规?

Firecrawl 暴露了一?*代理模式**参数用于机器人规避(basicstealth ?auto)? OpenClaw 始终?Firecrawl 请求使用 proxy: "auto" 加上 storeInCache: true? 如果省略代理,Firecrawl 默认?autoauto 如果基础尝试失败会使用隐形代理重试,这可能比仅使用基础抓取消耗更多积分?

web_fetch 如何使用 Firecrawl

web_fetch 提取顺序?

  1. Readability(本地)
  2. Firecrawl(如果已配置?
  3. 基本 HTML 清理(最后回退?

有关完整的网页工具设置,见网页工具?