本文由Benjamin Hilprecht、Tiemo Bang、Muhammad El-Hindi、Benjamin Hättasch、Aditya Khanna、Robin Rehrmann、Uwe Röhm、Andreas Schmidt、Lasse Thostrup和Tobias Ziegler等多位作者共同撰写,分别来自德国达姆施塔特工业大学(TU Darmstadt)、印度孟买理工学院(IIT Bombay)、德国德累斯顿工业大学(TU Dresden)、澳大利亚悉尼大学(University of Sydney)和德国卡尔斯鲁厄理工学院(KIT)。该研究发表于2020年1月12日至15日在荷兰阿姆斯特丹举行的CIDR 2020会议,并发表在CIDR’20会议论文集中。
本文的研究领域是数据库管理系统(DBMS, Database Management System),特别是如何通过机器学习技术改进DBMS组件的性能。近年来,深度神经网络(DNNs, Deep Neural Networks)在许多复杂任务中表现出色,例如图像分类和机器翻译,并且在DBMS领域也得到了广泛应用。DNNs被用于自动数据库调优、替代传统的查询优化器、索引结构等组件。然而,尽管DNNs在这些任务中表现出色,商业数据库供应商仍然对将其引入DBMS持保留态度,主要原因包括DNNs的“黑箱”性质(缺乏可解释性)、对大量训练数据的需求以及对输入变化的敏感性。
本文提出了一种替代DNNs的方法,即通过可微分编程(Differentiable Programming)来“拟合”DBMS组件,而不是从头学习其行为。可微分编程是一种新兴的机器学习方法,它利用问题的结构信息,构建更简单、更透明的模型。本文通过一个案例研究,展示了如何通过拟合方法来估计查询计划的成本,并提供了初步的实验结果,证明了该方法的潜力。
本文的核心思想是构建可拟合的DBMS(Fittable DBMS),即通过可微分函数实现DBMS组件,使其能够根据具体的工作负载和硬件特性自动调整行为。与传统的DNNs不同,可拟合的DBMS组件不需要从头学习所有行为,而是通过可微分函数编码基本行为,并通过学习参数来适应具体的工作负载和硬件。
本文的研究流程主要包括以下几个步骤: 1. 可拟合DBMS的愿景:提出通过可微分函数实现DBMS组件的拟合,使其能够根据工作负载和硬件特性自动调整行为。 2. 案例研究:可拟合的成本模型:通过一个具体的案例,展示了如何通过拟合方法来估计查询计划的成本。本文设计了一个可拟合的成本模型,用于估计查询计划的执行时间。该模型通过可微分函数编码查询操作的基本成本函数,并通过梯度下降等优化方法拟合参数。 3. 实验验证:通过实验验证了可拟合成本模型的有效性,并与基于DNNs的成本模型进行了对比。实验结果表明,可拟合模型在准确性、数据效率和泛化能力方面均优于DNNs模型。
本文提出了通过可微分编程实现可拟合DBMS的愿景,并通过案例研究展示了其在成本估计中的潜力。与传统的DNNs相比,可拟合模型具有更高的数据效率、更好的可解释性和更强的泛化能力。本文的研究为DBMS组件的改进提供了一种新的思路,特别是在查询优化、索引结构等领域具有广泛的应用前景。
本文还讨论了可拟合DBMS的潜在研究方向,例如如何将可拟合模型与DNNs结合,构建更复杂的端到端学习模型。此外,本文还提出了如何通过可微分编程实现DBMS组件的自动调优,从而进一步提高数据库系统的性能。
总的来说,本文为DBMS领域的研究提供了新的思路和方法,具有重要的学术价值和实际应用意义。