云计算百科
云计算领域专业知识百科平台

Zillow 数据集示例

Zillow 数据集示例(常见房产数据集样本展示)

Zillow(美国著名房地产平台)公开或通过爬取/竞赛分享的数据集主要有两类:

  • 宏观聚合数据:如 ZHVI(Zillow Home Value Index,房屋价值指数),这是 Zillow Research 每月发布的 CSV,追踪区域中位房价趋势。
  • 微观房产级数据:如 Kaggle “Zillow Prize” 竞赛数据集(2017 年),包含单个房产的特征 + 实际售价误差;或第三方爬取的 listing 数据(zpid、地址、卧室数、价格、Zestimate 等)。

下面给你几个典型示例(基于公开来源的样本行或结构描述):

1. Zillow Research ZHVI 示例(区域房价指数,宏观聚合型)

这是最官方的公开数据集之一,格式为 CSV,每行是一个地区(如 Metro、City、Zip)的月度中位房价估算。

典型列(部分):

  • RegionID
  • RegionName (e.g., Metro name or Zip code)
  • SizeRank
  • RegionType (e.g., Metro, City, Zip)
  • StateName
  • 然后是大量日期列:2000-01-31, 2000-02-29, …, 最新月

示例行(简化,假设 Metro 数据):

RegionNameStateName2025-01-312025-02-282025-03-31…
New York-Newark-Jersey City NY 682400 685200 688900
Los Angeles-Long Beach-Anaheim CA 912500 918000 923700
Chicago-Naperville-Elgin IL 345600 347800 350200

下载地址示例:https://www.zillow.com/research/data/(每月更新,选择 ZHVI → Metro 等)。

2. Kaggle Zillow Prize 数据集示例(房产级,微观 + 预测误差)

这是最经典的机器学习数据集(2017 竞赛),目标是预测 log-error = log(实际售价) – log(Zestimate)。

properties_2016.csv(房产特征,主表,约 3M 行,58 列)

典型列(部分):

  • parcelid(房产唯一 ID)
  • bathroomcnt(浴室数)
  • bedroomcnt(卧室数)
  • calculatedfinishedsquarefeet(计算完工面积)
  • latitude / longitude
  • lotsizesquarefeet(地块面积)
  • yearbuilt(建造年份)
  • taxvaluedollarcnt(税评估价值)
  • regionidcity / regionidzip 等

示例前几行(简化,基于公开 notebook 描述):

parcelidbathroomcntbedroomcntcalculatedfinishedsquarefeetyearbuilttaxvaluedollarcntlatitudelongitude…
10754147 0.0 0.0 NaN NaN 9.0 34144442 -118654084
10759547 3.0 4.0 3560.0 1951.0 1023282.0 34140436 -118625360
10805063 2.0 2.0 730.0 1949.0 464000.0 34171012 -118414328

train_2016_v2.csv(训练标签,只有部分房产有):

parcelidtransactiondatelogerror
10754147 2016-01-01 0.0276
10759547 2016-01-01 -0.1685

这个数据集现在在 Kaggle 上还能下载:https://www.kaggle.com/c/zillow-prize-1/data

3. 第三方爬取的 Zillow Listing 数据示例(常见商业/研究样本)

很多第三方(如 Bright Data、PromptCloud)提供或分享的 Zillow listing 样本,字段更贴近当前网页显示。

典型字段(部分):

  • zpid(Zillow Property ID)
  • url
  • address / street
  • city / state / zip
  • beds / baths
  • sqft
  • price(售价或租金)
  • zestimate(Zillow 估价)
  • rentZestimate(租金估价)
  • year_built
  • home_status(For Sale / Sold / Rent 等)
  • latitude / longitude

示例行(基于公开样本,如 Bright Data 或 Actowiz 的预览):

zpidaddresscitystatezipbedsbathssqftpricezestimateyear_builthome_status
12345678 123 Main St Manhattan NY 10019 2 2 1200 3290000 3350000 2010 For Sale
87654321 456 Broadway Astoria NY 11105 2 1 900 275000 280000 1995 Sold
11223344 789 Ocean Ave Los Angeles CA 90001 3 2.5 1800 950000 980000 2005 For Rent

这些是常见样本结构,实际数据量从几千到上百万行不等。

如果你需要:

  • 下载具体文件(ZHVI 或 Kaggle 数据)
  • 用 Python/Pandas 加载示例代码
  • 某个特定字段的分布/分析示例

告诉我你的用途(机器学习建模?房价预测?数据分析?),我可以给你更针对性的代码或链接~

赞(0)
未经允许不得转载:网硕互联帮助中心 » Zillow 数据集示例
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!