引用格式:Hollmann N, Müller S, Eggensperger K, et al. Tabpfn: A transformer that solves small tabular classification problems in a second[J]. arXiv preprint arXiv:2207.01848, 2022.
引用次数:186
Abstaract
我们提出了TabPFN,一种训练过的Transformer,可以在不到一秒的时间内对小表格数据集进行监督分类,不需要超参数调优,并且与最先进的分类方法具有竞争力。TabPFN执行上下文学习(in-context learning, ICL),它学习使用输入中给出的标记示例序列来进行预测,而不需要进一步的参数更新。TabPFN完全包含在我们的网络的权值中,它接受训练和测试样本作为集值输入,并在一次正向传递中产生对整个测试集的预测。TabPFN是一个先验数据拟合网络(PFN),它被离线训练一次,以对从我们的先验中提取的合成数据集进行近似的贝叶斯推理。这之前包含了因果推理的思想:它包含了大量的结构因果模型,并偏好于简单的结构。在OpenML-CC18套件中的18个数据集上,它们包含多达1 000个训练数据点,多达100个没有缺失值的纯数值特征,以及多达10个类,我们表明,我们的方法明显优于增强树(boosted trees),并执行性能与复杂的最先进的AutoML系统相当,高达230×的加速。当使用GPU时,这增加到5 700×。我们还在来自OpenML的另外67个小数值数据集上验证了这些结果。我们提供所有的代码在https://github.com/automl/TabPFN,包括训练的TabPFN,交互式浏览器演示和的Colab notebook。
1 Introduction
尽管表格数据是真实世界机器学习(ML)应用程序中最常见的数据类型,但长期以来一直被深度学习研究所忽视(Chui et al.,2018)。虽然深度学习方法在许多ML应用中领先,但表格数据分类问题仍然由梯度增强决策树主导(GBDT;Friedman,2001),很大程度上是由于其训练时间短和鲁棒性(Shwartz-Ziv和Armon,2022)。
M. Chui, J. Manyika, M. Miremadi, N. Henke, R. Chung, P. Nel, and S. Malh
评论前必须登录!
注册