Zillow 是最难采集的房产门户——Imperva 反爬加上近乎无用的 API 上限。下面讲清真正拦住你的是什么,以及能拿到干净房源数据的方案。
Zillow 运行 Imperva/Incapsula(JS 挑战 + 指纹识别 + IP 黑名单),其 官方 API 被限制在约 每天 1,000 次调用且禁止采集。要做任何规模的采集,你需要在 美国住宅或移动 IP 上驱动一个真实浏览器—— 数据中心 IP 在页面渲染前就因其 ASN 被标记。让指纹与 IP 匹配,以类人节奏运行,并遵守 Zillow 条款与法律。
Zillow 的防御叠了三层。IP 层(Imperva 信誉)立刻丢弃已知的数据中心和滥用段。挑战层发出非浏览器客户端无法求解的 JavaScript 难题。指纹层检查你的 TLS/JA4 与 浏览器信号是否与真实 Chrome/Firefox 一致。攻克一层,其余仍会抓住你——它们按一致性评分, 正如 2026 指纹识别栈所述。
官方 API 也救不了一个数据项目:每天约 1,000 次调用对点查没问题,但对系统化的房源或价格历史采集毫无用处, 且条款禁止绕过它去采集。
Zillow 位于 Imperva(Incapsula)之后,它结合了 JavaScript 挑战、浏览器/TLS 指纹识别和 IP 信誉黑名单。数据中心 IP 在页面渲染之前就因其 ASN 被标记,原始 HTTP 客户端则无法通过 JS 挑战。你需要一个到达时使用住宅或移动 IP 的真实浏览器引擎,让网络层和客户端层看起来都像真正的访客。
只适合小体量。Zillow 的开发者 API 上限极严——大致是每天 1,000 次调用——且开发者条款禁止采集并要求遵守其反爬控制。对于更广泛的房源或价格历史采集,API 远远不够,这就是为何团队会在公开站点上用浏览器自动化结合可信 IP(在各网站条款与法律范围内)。
美国的住宅或 4G/5G 移动 IP。它们的运营商/ISP ASN 携带 Zillow 的 IP 检查所寻找的信誉,而 CGNAT 后的移动 IP 对任何网站而言都尤其难以屏蔽。数据中心 IP 是这里唯一会稳定失败的类型。