数据集:

tjaffri/wikisql-generate

英文

WikiSQL数据集(适用于生成模型的重新格式化)

这是与WikiSQL完全相同的数据集: https://huggingface.co/datasets/wikisql ,但其数据已重新格式化,以便与文本生成LLMs直接使用。原始数据集的许可证和原始数据集的鸣谢仍然有效。

具体而言,与标准的WikiSQL相比:

  • WikiSQL中的表详细信息被包括为字典,但是像 LangChain LlamaIndex 这样的工具使用SQL DESCRIBE来构建提示信息,该表详细信息在该数据集中作为table_info列。

  • 此外,删除了WikiSQL中一些不符合语法的SQL命令(例如,由于标识符未加引号)。具体而言,我们使用表的SQL DESCRIBE创建了内存中(SQLite)的表,然后针对这些内存中的表运行了可读的WikiSQL SQL查询。任何由于任何原因引发异常的SQL查询都被丢弃,而没有引发异常的查询将作为sql_cmd列包含在该数据集中。

  • 还使用 SQLParse 对sql_cmd列中的SQL查询进行了格式化,将关键字大写并进行了其他SQL的漂亮打印操作,以便对更小的模型进行更标准和更易于学习的SQL语句。

  • 建议使用方式

    此数据集可用于以下目的:

  • 结合SQL查询与基于文本的检索,使用类似 LlamaIndex SQLAutoVectorQueryEngine 的技术。

  • 对LLMs进行微调,以便根据自然语言输入生成SQL命令,给定表的SQL描述和各种行。这正是 LangChain SQLChain的使用案例,因此一旦进行了微调,这些LLMs可以直接与这些链一起使用,以获得理论上更好的结果(在撰写时尚未尝试)。

  • 少量样本的prompt seeding,用于生成SQL命令的LLMs。