Zillow 数据集示例

Zillow 数据集示例（常见房产数据集样本展示）

Zillow（美国著名房地产平台）公开或通过爬取/竞赛分享的数据集主要有两类：

宏观聚合数据：如 ZHVI（Zillow Home Value Index，房屋价值指数），这是 Zillow Research 每月发布的 CSV，追踪区域中位房价趋势。
微观房产级数据：如 Kaggle “Zillow Prize” 竞赛数据集（2017 年），包含单个房产的特征 + 实际售价误差；或第三方爬取的 listing 数据（zpid、地址、卧室数、价格、Zestimate 等）。

下面给你几个典型示例（基于公开来源的样本行或结构描述）：

1. Zillow Research ZHVI 示例（区域房价指数，宏观聚合型）

这是最官方的公开数据集之一，格式为 CSV，每行是一个地区（如 Metro、City、Zip）的月度中位房价估算。

典型列（部分）：

RegionID
RegionName (e.g., Metro name or Zip code)
SizeRank
RegionType (e.g., Metro, City, Zip)
StateName
然后是大量日期列：2000-01-31, 2000-02-29, …, 最新月

示例行（简化，假设 Metro 数据）：

RegionNameStateName2025-01-312025-02-282025-03-31…

New York-Newark-Jersey City	NY	682400	685200	688900	…
Los Angeles-Long Beach-Anaheim	CA	912500	918000	923700	…
Chicago-Naperville-Elgin	IL	345600	347800	350200	…

下载地址示例：https://www.zillow.com/research/data/（每月更新，选择 ZHVI → Metro 等）。

2. Kaggle Zillow Prize 数据集示例（房产级，微观 + 预测误差）

这是最经典的机器学习数据集（2017 竞赛），目标是预测 log-error = log(实际售价) – log(Zestimate)。

properties_2016.csv（房产特征，主表，约 3M 行，58 列）

典型列（部分）：

parcelid（房产唯一 ID）
bathroomcnt（浴室数）
bedroomcnt（卧室数）
calculatedfinishedsquarefeet（计算完工面积）
latitude / longitude
lotsizesquarefeet（地块面积）
yearbuilt（建造年份）
taxvaluedollarcnt（税评估价值）
regionidcity / regionidzip 等

示例前几行（简化，基于公开 notebook 描述）：

parcelidbathroomcntbedroomcntcalculatedfinishedsquarefeetyearbuilttaxvaluedollarcntlatitudelongitude…

10754147	0.0	0.0	NaN	NaN	9.0	34144442	-118654084	…
10759547	3.0	4.0	3560.0	1951.0	1023282.0	34140436	-118625360	…
10805063	2.0	2.0	730.0	1949.0	464000.0	34171012	-118414328	…

train_2016_v2.csv（训练标签，只有部分房产有）：

parcelidtransactiondatelogerror

10754147	2016-01-01	0.0276
10759547	2016-01-01	-0.1685
…	…	…

这个数据集现在在 Kaggle 上还能下载：https://www.kaggle.com/c/zillow-prize-1/data

3. 第三方爬取的 Zillow Listing 数据示例（常见商业/研究样本）

很多第三方（如 Bright Data、PromptCloud）提供或分享的 Zillow listing 样本，字段更贴近当前网页显示。

典型字段（部分）：

zpid（Zillow Property ID）
url
address / street
city / state / zip
beds / baths
sqft
price（售价或租金）
zestimate（Zillow 估价）
rentZestimate（租金估价）
year_built
home_status（For Sale / Sold / Rent 等）
latitude / longitude

示例行（基于公开样本，如 Bright Data 或 Actowiz 的预览）：

zpidaddresscitystatezipbedsbathssqftpricezestimateyear_builthome_status

12345678	123 Main St	Manhattan	NY	10019	2	2	1200	3290000	3350000	2010	For Sale
87654321	456 Broadway	Astoria	NY	11105	2	1	900	275000	280000	1995	Sold
11223344	789 Ocean Ave	Los Angeles	CA	90001	3	2.5	1800	950000	980000	2005	For Rent

这些是常见样本结构，实际数据量从几千到上百万行不等。

如果你需要：

下载具体文件（ZHVI 或 Kaggle 数据）
用 Python/Pandas 加载示例代码
某个特定字段的分布/分析示例

告诉我你的用途（机器学习建模？房价预测？数据分析？），我可以给你更针对性的代码或链接～

1. Zillow Research ZHVI 示例（区域房价指数，宏观聚合型）

2. Kaggle Zillow Prize 数据集示例（房产级，微观 + 预测误差）

3. 第三方爬取的 Zillow Listing 数据示例（常见商业/研究样本）

相关推荐

评论抢沙发

评论前必须登录！

热门标签

置顶推荐

热门文章

最新文章

1. Zillow Research ZHVI 示例（区域房价指数，宏观聚合型）

2. Kaggle Zillow Prize 数据集示例（房产级，微观 + 预测误差）

3. 第三方爬取的 Zillow Listing 数据示例（常见商业/研究样本）

相关推荐

评论 抢沙发

评论前必须登录！

热门标签

置顶推荐

热门文章

最新文章

评论抢沙发