数据集:
tjaffri/wikisql-generate
许可:
bsd-3-clause这是与WikiSQL完全相同的数据集: https://huggingface.co/datasets/wikisql ,但其数据已重新格式化,以便与文本生成LLMs直接使用。原始数据集的许可证和原始数据集的鸣谢仍然有效。
具体而言,与标准的WikiSQL相比:
WikiSQL中的表详细信息被包括为字典,但是像 LangChain 和 LlamaIndex 这样的工具使用SQL DESCRIBE来构建提示信息,该表详细信息在该数据集中作为table_info列。
此外,删除了WikiSQL中一些不符合语法的SQL命令(例如,由于标识符未加引号)。具体而言,我们使用表的SQL DESCRIBE创建了内存中(SQLite)的表,然后针对这些内存中的表运行了可读的WikiSQL SQL查询。任何由于任何原因引发异常的SQL查询都被丢弃,而没有引发异常的查询将作为sql_cmd列包含在该数据集中。
还使用 SQLParse 对sql_cmd列中的SQL查询进行了格式化,将关键字大写并进行了其他SQL的漂亮打印操作,以便对更小的模型进行更标准和更易于学习的SQL语句。
此数据集可用于以下目的:
结合SQL查询与基于文本的检索,使用类似 LlamaIndex SQLAutoVectorQueryEngine 的技术。
对LLMs进行微调,以便根据自然语言输入生成SQL命令,给定表的SQL描述和各种行。这正是 LangChain SQLChain的使用案例,因此一旦进行了微调,这些LLMs可以直接与这些链一起使用,以获得理论上更好的结果(在撰写时尚未尝试)。
少量样本的prompt seeding,用于生成SQL命令的LLMs。