数据集:

Fraser/mnist-text-small

英文

MNIST数据集适应文本表示。

将图像修改为原始面积的约1/4,通过最大池化完成。

这样可以测试Transformer-VAEs的插值质量。

该系统受到Matthew Rayfield的工作的很大启发 https://youtu.be/Z9K3cwSL6uM

通过将每个MNIST像素量化为64个字符之一来实现。

每个样本都有上下两个版本,以鼓励模型学习旋转不变特征。

使用.array_to_text()和.text_to_array()方法来测试生成的数据。

数据格式:

  • text:(16 x 14个标记,总共224个标记):MNIST数字的文本表示,例如:
00 down ! ! ! ! ! ! ! ! ! ! ! ! ! !
01 down ! ! ! ! ! ! ! ! ! ! ! ! ! !
02 down ! ! ! ! ! ! % % C L a ^ ! !
03 down ! ! ! - ` ` ` ` ` Y ` Q ! !
04 down ! ! ! % ` ` ` R ^ ! ! ! ! !
05 down ! ! ! ! $ G ` ! ! ! ! ! ! !
06 down ! ! ! ! ! # ` Y < ! ! ! ! !
07 down ! ! ! ! ! ! 5 ` ` F ! ! ! !
08 down ! ! ! ! ! ! ! % ` ` 1 ! ! !
09 down ! ! ! ! ! ! F ` ` ` ! ! ! !
10 down ! ! ! ! 1 ` ` ` ` 4 ! ! ! !
11 down ! ! L ` ` ` ` 5 ! ! ! ! ! !
12 down ! ! ` ` V B ! ! ! ! ! ! ! !
13 down ! ! ! ! ! ! ! ! ! ! ! ! ! !
  • label:与文本匹配的数字。