【每天一个知识点】Dip 检验（Dip test）

Dip 检验（Dip test）是一种用于检验一维数据分布是否为单峰（unimodal）的非参数统计方法。该检验由 Hartigan 和 Hartigan 于 1985 年提出，通常用于探索性数据分析中，以判断数据是否仅具有一个峰值结构（即一个“主要集中区域”），或可能存在多个峰（多模态分布）。

Dip 检验的核心思想是衡量一个样本分布与最接近它的单峰分布之间的“最大偏差”。这个偏差称为 Dip 值（Dip statistic）。

输入数据：一维实数向量（如某特征值、投影值等）；

计算样本的经验分布函数（EDF）；

拟合最接近的单峰分布（即单峰包络）；

计算样本 EDF 与该单峰分布之间的最大偏差（Dip 值）；

通过重抽样（例如 Monte Carlo）获得 Dip 值的 p 值；

根据显著性水平（如 α=0.05）判断是否拒绝单峰性假设。

Dip 值（float）：样本分布与最接近单峰分布之间的最大偏差；
p 值（Dip-p value）：表示该 Dip 值在单峰假设下出现的概率；
- 若 p 值 < α（如 0.05），则认为数据不服从单峰分布，可能为多峰；
- 若 p 值较大，则支持单峰分布假设。

聚类分析中的验证工具（如 DipDECK 中用于判断两个聚类是否应合并）；

异常检测：识别是否存在多个模式或集群；

密度估计评估：判断估计分布是否有多个模式；

降维或投影后的结构验证。

优点局限