该数据集是在 WikiSQL 和 Spider 的基础上构建而来。
数据集包含78,577个示例,其中包含自然语言查询、SQL CREATE TABLE语句和使用CREATE语句作为上下文来回答问题的SQL查询。该数据集的构建考虑了文本到SQL LLMs,旨在防止训练时出现对列和表名的错误解析。CREATE TABLE语句通常可以直接从不同的DBMS中复制并粘贴,其中包含表名、列名及其数据类型。通过仅提供CREATE TABLE语句作为上下文,我们可以为模型提供更好的基础,而无需提供实际的数据行,从而限制了标记使用和对私有、敏感或专有数据的暴露。
数据清洗和增强对合并的WikiSQL和Spider数据进行了数据清洗和增强。我使用 SQLGlot 对Spider和WikiSQL的查询进行了解析,将它们分成不同的表和列,然后根据使用">"、"