为什么数据污染对LLM来说是一个大问题
康奈尔大学推出新的社交机器人,更柔软,更人性化
所以,能动手就别吵吵了
字节跳动旗下团队推出的免费AI英语写作助手
StabilityAI推出的文本到图像生成AI
GitHub AI编程工具
Adobe最新推出的AI图片生成工具
AI艺术和创意辅助平台
数据集:
Fraser/python-lines
从数据集 CodeSearchNet 中获取的单行Python代码数据集。
上下文
此数据集可用于通过测试多少随机/中间潜变量点可以贪心地解码为有效的Python代码来检查变分自动编码器潜空间的有效性。
内容
每行都有一行可解析的源代码。 {'text': '{python源代码行}'}
大多数行的长度小于100个字符,所有行都小于125个字符。
包含260万行。
所有代码都可以解析为Python3 ast。
作者:
数据集大小:
4.53 KB