在采集门户之前,先问问你能否改为许可获取数据。下面讲清 MLS 数据源如何运作、何时优于采集,以及代理在何处仍有用武之地。
| RESO / IDX 数据源 | 门户采集 | |
|---|---|---|
| 访问 | 获许可(中介/经纪人/供应商) | 公开页面,遵各网站条款 |
| 反爬 | 无(已授权) | 重型(Imperva、IP 屏蔽) |
| 结构 | 标准化(OData/RESO) | 需自行解析的 HTML/JSON |
| 代理 | 基本不需要 | 住宅/移动,地理定向 |
| 最适合 | 核心获许可房源数据 | 覆盖缺口、门户独有信号 |
RESO Web API 是访问 MLS 数据的现代标准化方式,由房地产标准组织(RESO)定义。它取代了较旧的 RETS 协议,以一致的基于 OData 的格式在参与的各 MLS 间提供房源。如果你是获许可方(中介、经纪人或获批的技术供应商),它是最干净、最可靠的来源——没有反爬、结构化数据、官方条款。
如果你能取得许可,就用数据源。IDX(互联网数据交换)数据源和 RESO Web API 提供结构化、获授权的数据,其防御远比 Zillow 这类消费门户轻。仅当你无法为所需覆盖取得数据源,或需要用门户独有信号补充数据源时,才采集公开门户——并且要在各网站条款范围内通过住宅/移动 IP 进行。
对数据源本身需求较小,因为它是经过认证和授权的。当你用数据源未覆盖的公开门户数据(Zillow/Redfin/Rightmove)补充,或跨需要本地 IP 的地区采集时,代理才有意义。许多房产数据管道会把获许可的数据源与地理定向的公开采集结合起来。