云计算百科
云计算领域专业知识百科平台

从像素到组件:用于视觉表征学习的特征向量掩蔽

文章目录

  • From Pixels to Components: Eigenvector Masking for Visual Representation Learning
    • 预备知识
    • 创新点
    • 方法实现
      • 步骤 1:数据预处理与 PCA 变换
      • 1.数据输入与标准化
      • 2. 全维度 PCA 变换(无损映射)
      • 步骤 2:基于 “方差占比” 的主成分掩码设计
      • (1) PMAE_ocl(Oracle 最优掩码)
      • (2) PMAE_rd(随机化掩码)
      • 步骤 3:PMAE 模型架构(适配 PC 空间的 ViT encoder-decoder)
      • 1. 编码器(Encoder):处理“可见成分的像素空间映射”
      • 2. 解码器(Decoder):重建“掩码主成分”
      • 3. 损失函数:PC 空间的 L2 损失
    • 实验

From Pixels to Components: Eigenvector Masking for Visual Representation Learning

论文:https://arxiv.org/abs/2502.06314 会议:https://so.csdn.net/so/search?q=ECCV&spm=1001.2101.3001.7020 年份:2025

预备知识

  • 自监督学习(Self-Supervised Learning, SSL) 无需人工标注,通过 “设计辅助任务” 从无标签数据中学习有意义的特征表示,目标是让学习到的表示能迁移到下游任务

  • 主成分分析(PCA) 一种线性降维 / 数据变换方法,目标是找到数据中 “方差最大的正交方向(主成分,PC)”,实现数据的低维表示或特征分解

  • 创新点

    1.从 “像素局部空间” 转向 “主成分全局空间”,解决语义丢失与冗余问题

    传统MIM采用像素块随机掩码(如固定掩码 75% 的 16×16 像素块),存在两大主要问题:

    (1)语义完全丢失:小目标(如图像中的小物体、医疗图像中的细胞)可能被掩码块完全覆盖,导致模型无法获取目标语义信息,(如图 1 右侧案例,掩码后图像无任何可识别的物体特征); 在这里插入图片描述图1. 像素空间中的掩码操作。左侧为原始图像,中间为施加随机空间掩码后部分相关信息被移除的图像,右侧为所有语义信息都被移除的图像。后者是一个掩码图像建模(MIM)可能无法学习到有用表征的例子

    (2)局部信息冗余:单个像素块常包含背景、纹理等无意义冗余信息,使得 “可见区域 – 掩码区域” 的共享信息与下游任务(如图像分类)所需的高层特征(如物体类别)错位。

    论文中的解决办法 首次提出在主成分(PC)空间进行掩码:通过 PCA 将图像从像素空间(局部、冗余)转换为 PC 空间(全局、去冗余),每个主成分对应图像的全局变化模式(如高特征值 PC 捕捉颜色分布、低特征值 PC 捕捉边缘结构,图 2),确保掩码后仍保留目标的部分语义信息,同时避免局部冗余。 vdv 在这里插入图片描述

    图2. 从主成分到空间特征。与主成分谱不同区域相关的空间特征概述;图像展示了顶部(浅蓝色)、中部(浅蓝)和底部(深蓝色)主成分所捕捉的特征

    利用 PCA 的数学特性实现 “信息的有意义划分”

    (1)无相关性与方差可解释性:PCA 生成的主成分彼此不相关,且每个主成分的方差贡献已知(方差占比与特征值成正比),可精准控制掩码的 “信息量”,而非像像素块掩码那样依赖模糊的 “块数量占比”;

    (2)全局特征承载:PC 空间的每个维度对应图像的全局特征(如整体亮度、物体轮廓),而非像素块的局部特征(如单个背景区域),使模型在重构掩码成分时必须学习高层全局特征,而非低层次纹理。

    2.基于 “方差占比” 的动态掩码,提升超参数鲁棒性与可解释性

    传统 MAE 的掩码比例以 “像素块数量” 为基准(如 75% 块掩码),存在两大问题: (1)数据集依赖性强:需针对不同数据集单独调优(如图 3 顶部,75% 掩码在 CIFAR10、TinyImageNet 等数据集上均非最优); 在这里插入图片描述

    图3. 掩码率的影响。不同掩码率下MAE(上)和PMAE(下)的线性探测准确率。掩码率是一个敏感且依赖数据的超参数。虽然很难为MAE提取明确的掩码指导原则,但对于PMAE,我们观察到在20%的数据方差被掩码时,其在各个数据集上的性能接近最优。(右)学习曲线。CIFAR10分类任务在训练轮次中的线性探测准确率。PMAE在200轮后超过了MAE的最终性能

    (2)信息量模糊:相同块占比在不同数据集(如简单的 CIFAR10 与复杂的 TinyImageNet)中对应完全不同的信息含量,无法统一解释

    论文提出以 “方差占比” 定义掩码比例:随机掩码一组主成分,使其累计贡献数据总方差的固定比例(如 20%),该比例直接对应任务复杂度(方差占比越高,需重构的信息越关键,任务越难)。例如:

    (1)在 PMAE_ocl( oracle 掩码)中,通过验证集线性探测性能确定最优方差掩码比例(多数数据集上 20% 方差掩码接近最优,图 3 底部);

    (2)在 PMAE_rd(随机化掩码)中,每个批次随机采样 10%-90% 的方差掩码比例,无需任何超参数调优。

    3.适配 PC 空间的 PMAE 设计,兼容多网络类型

    4.目标函数创新:PC 空间损失计算,避免像素空间约束过载

    方法实现

    步骤 1:数据预处理与 PCA 变换

    1.数据输入与标准化

    输入图像:均先按数据集训练集的均值和标准差进行标准化,消除像素值量级差异;

    数据增强:遵循 MAE 的通用策略,包括 “随机裁剪→双三次插值 resize 回原尺寸→水平翻转”,且训练和评估阶段均保留增强

    2. 全维度 PCA 变换(无损映射)

    • PCA计算:对标准化后的图像数据集,计算其经验协方差矩阵

      =

      X

      X

      \\sum = X^\\top X

      =XX

      X

      R

      N

      ×

      D

      X \\in \\mathbb{R}^{N \\times D}

      XRN×D

      N

      N

      N为样本数,

      D

      D

      D为像素维度,如

      32

      ×

      32

      ×

      3

      =

      3072

      32 \\times 32 \\times 3 = 3072

      32×32×3=3072),通过特征值分解得到:

      • 特征向量矩阵

        V

        R

        D

        ×

        D

        V \\in \\mathbb{R}^{D \\times D}

        VRD×D(列向量为各主成分方向);

      • 特征值矩阵

        Λ

        =

        d

        i

        a

        g

        (

        λ

        1

        ,

        ,

        λ

        D

        )

        \\Lambda = diag(\\lambda_1, \\dots, \\lambda_D)

        Λ=diag(λ1,,λD)

        λ

        1

        >

        λ

        2

        >

        >

        λ

        D

        \\lambda_1 > \\lambda_2 > \\dots > \\lambda_D

        λ1>λ2>>λD,特征值与主成分的方差贡献成正比)。

    • 图像到 PC 空间的映射:对单张图像

      x

      R

      D

      x \\in \\mathbb{R}^D

      xRD,通过

      x

      P

      C

      =

      x

      V

      x_{PC} = x \\cdot V

      xPC=xV转换为 PC 空间表示(

      x

      P

      C

      R

      D

      x_{PC} \\in \\mathbb{R}^D

      xPCRD),该过程为无损变换(保留图像全部信息,区别于 PCA 降维);

    • 逆变换准备:通过

      x

      =

      x

      P

      C

      V

      x = x_{PC} \\cdot V^\\top

      x=xPCV可将 PC 空间表示逆投影回像素空间,为后续编码器输入做准备。

    步骤 2:基于 “方差占比” 的主成分掩码设计

    传统 MAE 以“像素块数量占比”定义掩码比例(如 75% 块掩码),信息含量模糊且数据集依赖性强;PMAE 则以主成分的累计方差占比定义掩码比例(r),即:

    • 掩码一组主成分,使其累计贡献数据总方差的(100r%);
    • 剩余主成分(贡献(100(1 – r)%)方差)作为“可见成分”,用于重建掩码成分。

    方差占比直接对应 “信息重要性”,可解释性强(如掩码 20% 方差 = 重建 20% 关键信息),且无需针对不同数据集单独调优。

    两种掩码策略:

    (1) PMAE_ocl(Oracle 最优掩码)

    • 目标:为特定数据集找到最优方差掩码比例(r_{opt});
    • 实现:在验证集上通过“线性探测准确率”搜索最优(r)(搜索范围 10%-90%),最终发现多数数据集在(r = 20%)(掩码 20%方差的主成分)时性能接近最优(图 5 底部);
    • 示例:BloodMNIST 数据集通过 Oracle 搜索,确定(r_{opt} = 15%),即掩码累计贡献 15%方差的主成分。

    (2) PMAE_rd(随机化掩码)

    • 目标:无需超参数调优,验证方法鲁棒性;
    • 实现:每个训练批次独立从区间([0.1, 0.9])(即 10%-90%方差)中均匀采样掩码比例(r),随机选择对应方差占比的主成分进行掩码;
    • 优势:即使使用子最优(r),仍能在多数数据集上超越 MAE 的最优调优结果(如表 1,PMAE_rd 在 BloodMNIST 线性探测准确率达 90.0%,高于 MAE_ocl 的 78.6%)。

    步骤 3:PMAE 模型架构(适配 PC 空间的 ViT encoder-decoder)

    1. 编码器(Encoder):处理“可见成分的像素空间映射”

    • 输入转换:将“可见主成分

      m

      x

      P

      C

      m \\odot x_{PC}

      mxPC”通过 PCA 逆变换

      t

      1

      (

      )

      =

      V

      t^{-1}(\\cdot) = \\cdot \\cdot V^\\top

      t1()=V投影回像素空间,得到“平滑可见图像”(无传统 MAE 的“黑色块遮挡”,如图 1 底部);

    • ViT 编码器结构:采用 ViT-Tiny(ViT-T/8),即:

      • 图像分块:将逆投影后的像素图像划分为 8×8 像素的 patches(如 32×32 图像分 4×4=16 个 patch);
      • 嵌入层:每个 patch 通过线性层映射为 192 维嵌入向量(hidden size=192),并添加位置嵌入(捕捉空间位置信息);
      • 编码器层:6 层 Transformer(注意力头数 = 12,中间层维度 = 768),处理嵌入向量后输出全局特征(以 [CLS] token 作为最终表示)。

    2. 解码器(Decoder):重建“掩码主成分”

    • 输入:编码器输出的 [CLS] token 特征 + 掩码成分的位置嵌入(仅需掩码区域的位置信息,降低计算量);
    • 解码器结构:4 层 Transformer(与编码器参数独立),输出维度与“掩码主成分的维度”一致;
    • PC 空间投影:将解码器输出通过 PCA 正向变换

      t

      (

      )

      =

      V

      t(\\cdot) = \\cdot \\cdot V

      t()=V映射回 PC 空间,得到“预测的掩码主成分”。

    3. 损失函数:PC 空间的 L2 损失

    • 核心原则:仅惩罚“掩码成分”的重建误差,避免可见成分的冗余约束;
    • 损失计算:

      L

      P

      M

      A

      E

      (

      x

      ,

      m

      ;

      θ

      ,

      ϕ

      )

      =

      (

      1

      m

      )

      [

      t

      g

      θ

      f

      ϕ

      t

      1

      (

      m

      t

      (

      x

      )

      )

      t

      (

      x

      )

      ]

      2

      2

      \\mathcal{L}_{PMAE}(x, m; \\theta, \\phi) = \\left\\| (1 – m) \\odot \\left[ t \\circ g_\\theta \\circ f_\\phi \\circ t^{-1}(m \\odot t(x)) – t(x) \\right] \\right\\|_2^2

      LPMAE(x,m;θ,ϕ)=

      (1m)[tgθfϕt1(mt(x))t(x)]

      22 其中:

      • f

        ϕ

        f_\\phi

        fϕ为编码器(参数

        ϕ

        \\phi

        ϕ),

        g

        θ

        g_\\theta

        gθ为解码器(参数

        θ

        \\theta

        θ);

      • t

        (

        x

        )

        =

        x

        P

        C

        t(x) = x_{PC}

        t(x)=xPC(PCA 正向变换),

        t

        1

        (

        )

        t^{-1}(\\cdot)

        t1()为 PCA 逆变换;

      • (

        1

        m

        )

        (1 – m)\\odot \\cdot

        (1m)表示仅对掩码区域计算误差,确保模型聚焦于“缺失的关键信息”重建。

    在这里插入图片描述

    图4. 主掩码自编码器概述。主掩码自编码器(PMAE)与普通掩码自编码器(MAE)(He等人,2021)的不同之处在于,它在主成分空间而非像素空间中执行掩码操作。可见的主成分随后被投影回观测空间,并作为视觉Transformer(ViT)编码器-解码器架构的输入。被掩码的主成分则作为重构目标

    实验

  • 核心性能对比:PMAE vs MAE(线性探测) 在这里插入图片描述 PMAE全面超越 MAE:平均比 MAE 高 14 个百分点(38% 相对提升),比 MAE ocl高 9.5 个百分点(20.3% 相对提升);
  • 医疗图像提升最显著,因医疗图像全局特征(如细胞结构、病理纹理)更依赖 PC 空间的全局表示;

  • 非线性与微调性能验证 在这里插入图片描述 在这里插入图片描述
  • 图5. 掩码率的影响。不同掩码率下MAE(上)和PMAE(下)的线性探测准确率。掩码率是一个敏感且依赖数据的超参数。虽然很难为MAE提取明确的掩码指导原则,但对于PMAE,我们观察到在20%的数据方差被掩码时,其在各个数据集上的性能接近最优。(右)学习曲线。CIFAR10分类任务在训练轮次中的线性探测准确率。PMAE在200轮后超过了MAE的最终性能

    传统 MAE 的 “像素块掩码比例” 是敏感超参,而 PMAE 的 “方差掩码比例” 更鲁棒,结果如图 5 所示:

    • MAE(图 5 顶部):最优掩码比例随数据集剧烈波动 ——CIFAR10 最优约 60%,TinyImageNet 约 50%,DermaMNIST 约 40%,无通用规律,需逐数据集调优;
    • PMAE(图 5 底部):所有数据集在 “20% 方差掩码” 时接近最优 ——CIFAR10 达 58%,BloodMNIST 达 95%,PathMNIST 达 96%,超参范围 [10%-20%] 内性能稳定,大幅降低应用成本。

    PMAE 收敛更快:训练 200 epochs 时,PMAE 的线性探测准确率已超越 MAE 训练 800 epochs 的最终性能(CIFAR10:55% vs 50.7%); 原因:PC 空间掩码聚焦全局高层特征,模型无需学习冗余局部信息,梯度更新更高效。

    结论

  • PC 空间掩码优于像素空间:PMAE 通过 PCA 将图像映射到全局特征空间,避免 MAE “局部冗余”“语义丢失” 的缺陷,使表示更聚焦高层特征(如物体类别、病理结构),在 5 个数据集上均实现性能提升,尤其医疗图像提升显著(平均 + 15 个百分点)。
  • 方差掩码比例更鲁棒、可解释:传统 MAE 的 “像素块比例” 需逐数据集调优,而 PMAE 的 “方差比例” 在 [10%-20%] 内接近最优,且方差占比直接对应 “信息重要性”(如 20% 方差掩码 = 重建 20% 关键信息),解决 MAE 超参敏感的痛点。
  • PMAE 收敛更快、通用性强:PMAE 训练 200 epochs 即可超越 MAE 800 epochs 的性能,且兼容线性 / 非线性 / 微调多种评估场景;同时,PC 空间的平滑输入适配卷积网络,突破 MAE 仅能使用 ViT 的局限。
  • 赞(0)
    未经允许不得转载:网硕互联帮助中心 » 从像素到组件:用于视觉表征学习的特征向量掩蔽
    分享到: 更多 (0)

    评论 抢沙发

    评论前必须登录!