Zillow 数据集示例(常见房产数据集样本展示)
Zillow(美国著名房地产平台)公开或通过爬取/竞赛分享的数据集主要有两类:
- 宏观聚合数据:如 ZHVI(Zillow Home Value Index,房屋价值指数),这是 Zillow Research 每月发布的 CSV,追踪区域中位房价趋势。
- 微观房产级数据:如 Kaggle “Zillow Prize” 竞赛数据集(2017 年),包含单个房产的特征 + 实际售价误差;或第三方爬取的 listing 数据(zpid、地址、卧室数、价格、Zestimate 等)。
下面给你几个典型示例(基于公开来源的样本行或结构描述):
1. Zillow Research ZHVI 示例(区域房价指数,宏观聚合型)
这是最官方的公开数据集之一,格式为 CSV,每行是一个地区(如 Metro、City、Zip)的月度中位房价估算。
典型列(部分):
- RegionID
- RegionName (e.g., Metro name or Zip code)
- SizeRank
- RegionType (e.g., Metro, City, Zip)
- StateName
- 然后是大量日期列:2000-01-31, 2000-02-29, …, 最新月
示例行(简化,假设 Metro 数据):
| New York-Newark-Jersey City | NY | 682400 | 685200 | 688900 | … |
| Los Angeles-Long Beach-Anaheim | CA | 912500 | 918000 | 923700 | … |
| Chicago-Naperville-Elgin | IL | 345600 | 347800 | 350200 | … |
下载地址示例:https://www.zillow.com/research/data/(每月更新,选择 ZHVI → Metro 等)。
2. Kaggle Zillow Prize 数据集示例(房产级,微观 + 预测误差)
这是最经典的机器学习数据集(2017 竞赛),目标是预测 log-error = log(实际售价) – log(Zestimate)。
properties_2016.csv(房产特征,主表,约 3M 行,58 列)
典型列(部分):
- parcelid(房产唯一 ID)
- bathroomcnt(浴室数)
- bedroomcnt(卧室数)
- calculatedfinishedsquarefeet(计算完工面积)
- latitude / longitude
- lotsizesquarefeet(地块面积)
- yearbuilt(建造年份)
- taxvaluedollarcnt(税评估价值)
- regionidcity / regionidzip 等
示例前几行(简化,基于公开 notebook 描述):
| 10754147 | 0.0 | 0.0 | NaN | NaN | 9.0 | 34144442 | -118654084 | … |
| 10759547 | 3.0 | 4.0 | 3560.0 | 1951.0 | 1023282.0 | 34140436 | -118625360 | … |
| 10805063 | 2.0 | 2.0 | 730.0 | 1949.0 | 464000.0 | 34171012 | -118414328 | … |
train_2016_v2.csv(训练标签,只有部分房产有):
| 10754147 | 2016-01-01 | 0.0276 |
| 10759547 | 2016-01-01 | -0.1685 |
| … | … | … |
这个数据集现在在 Kaggle 上还能下载:https://www.kaggle.com/c/zillow-prize-1/data
3. 第三方爬取的 Zillow Listing 数据示例(常见商业/研究样本)
很多第三方(如 Bright Data、PromptCloud)提供或分享的 Zillow listing 样本,字段更贴近当前网页显示。
典型字段(部分):
- zpid(Zillow Property ID)
- url
- address / street
- city / state / zip
- beds / baths
- sqft
- price(售价或租金)
- zestimate(Zillow 估价)
- rentZestimate(租金估价)
- year_built
- home_status(For Sale / Sold / Rent 等)
- latitude / longitude
示例行(基于公开样本,如 Bright Data 或 Actowiz 的预览):
| 12345678 | 123 Main St | Manhattan | NY | 10019 | 2 | 2 | 1200 | 3290000 | 3350000 | 2010 | For Sale |
| 87654321 | 456 Broadway | Astoria | NY | 11105 | 2 | 1 | 900 | 275000 | 280000 | 1995 | Sold |
| 11223344 | 789 Ocean Ave | Los Angeles | CA | 90001 | 3 | 2.5 | 1800 | 950000 | 980000 | 2005 | For Rent |
这些是常见样本结构,实际数据量从几千到上百万行不等。
如果你需要:
- 下载具体文件(ZHVI 或 Kaggle 数据)
- 用 Python/Pandas 加载示例代码
- 某个特定字段的分布/分析示例
告诉我你的用途(机器学习建模?房价预测?数据分析?),我可以给你更针对性的代码或链接~
网硕互联帮助中心




评论前必须登录!
注册