云计算百科
云计算领域专业知识百科平台

TABFPN:A TRANSFORMER THAT SOLVES SMALLTABULAR CLASSIFICATION PROBLEMS IN A SECOND(一)

引用格式:Hollmann N, Müller S, Eggensperger K, et al. Tabpfn: A transformer that solves small tabular classification problems in a second[J]. arXiv preprint arXiv:2207.01848, 2022.

引用次数:186

Abstaract

我们提出了TabPFN,一种训练过的Transformer,可以在不到一秒的时间内对小表格数据集进行监督分类,不需要超参数调优,并且与最先进的分类方法具有竞争力。TabPFN执行上下文学习(in-context learning, ICL),它学习使用输入中给出的标记示例序列(x,f(x))来进行预测,而不需要进一步的参数更新。TabPFN完全包含在我们的网络的权值中,它接受训练和测试样本作为集值输入,并在一次正向传递中产生对整个测试集的预测。TabPFN是一个先验数据拟合网络(PFN),它被离线训练一次,以对从我们的先验中提取的合成数据集进行近似的贝叶斯推理。这之前包含了因果推理的思想:它包含了大量的结构因果模型,并偏好于简单的结构。在OpenML-CC18套件中的18个数据集上,它们包含多达1 000个训练数据点,多达100个没有缺失值的纯数值特征,以及多达10个类,我们表明,我们的方法明显优于增强树(boosted trees),并执行性能与复杂的最先进的AutoML系统相当,高达230×的加速。当使用GPU时,这增加到5 700×。我们还在来自OpenML的另外67个小数值数据集上验证了这些结果。我们提供所有的代码在https://github.com/automl/TabPFN,包括训练的TabPFN,交互式浏览器演示和的Colab notebook。

1 Introduction

尽管表格数据是真实世界机器学习(ML)应用程序中最常见的数据类型,但长期以来一直被深度学习研究所忽视(Chui et al.,2018)。虽然深度学习方法在许多ML应用中领先,但表格数据分类问题仍然由梯度增强决策树主导(GBDT;Friedman,2001)很大程度上是由于其训练时间短和鲁棒性(Shwartz-Ziv和Armon,2022)

M. Chui, J. Manyika, M. Miremadi, N. Henke, R. Chung, P. Nel, and S. Malh

赞(0)
未经允许不得转载:网硕互联帮助中心 » TABFPN:A TRANSFORMER THAT SOLVES SMALLTABULAR CLASSIFICATION PROBLEMS IN A SECOND(一)
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!