数据集:

harpomaxx/dga-detection

许可:

cc-by-2.0
英文

一个包含DGA和正常域名的数据集。正常域名来自Alexa百万顶级域名。另外,数据集中还包括由Bambenek Consulting Feed提供的3161个正常域名。这一组特别有趣,因为它包含了不是由DGA生成的可疑域名。因此,数据集中正常域名的总数为1,003,161个。DGA域名来源于 Andrey Abakumov John Bambenek 的DGA域名仓库。DGA域名的总数为1,915,335个,涵盖了51个不同的恶意软件家族。DGA域名由51个不同的恶意软件家族生成。其中约55%的DGA部分样本来自Banjori、Post、Timba、Cryptolocker、Ramdo和Conficker恶意软件。

恶意软件家族使用的DGA生成方案包括简单算术(A)和最新的基于单词(W)方案。在算术方案下,算法通常计算一系列具有直接可用于域名的ASCII表示的值。另一方面,基于单词的方案则是将一个或多个词表中的单词序列连接起来。