数据集:

zpn/zinc20

英文

Zinc20 数据集卡片

数据集概述

Zinc 是一个公开的数据库,汇集了商业可用和注释化合物。Zinc 提供可下载的2D和3D版本,以及一个能够快速查询分子和进行类似搜索的网站。Zinc 的化合物数量从2005年的不到100万个增长到目前近20亿个。本数据集总共包含约10亿个分子。我们已经筛选掉了无法从 SMILES 转换为 SELFIES 表示的化合物。

支持的任务和榜单

[需要更多信息]

语言

[需要更多信息]

数据集结构

数据实例

[需要更多信息]

数据字段

[需要更多信息]

数据拆分

数据集按照80%的训练集、10%的验证集和10%的测试集进行随机拆分(大致对应相同的百分比)。

源数据

数据收集和规范化

初始数据在 https://zinc20.docking.org/ 发布。我们已经下载并添加了一个 SELFIES 字段,并且筛选掉了所有无法转换成 SELFIES 表示的分子。

引用信息

@article{Irwin2020, doi = {10.1021/acs.jcim.0c00675}, url = { https://doi.org/10.1021/acs.jcim.0c00675} }, year = {2020}, month = oct, publisher = {American Chemical Society ({ACS})}, volume = {60}, number = {12}, pages = {6065--6073}, author = {John J. Irwin and Khanh G. Tang and Jennifer Young and Chinzorig Dandarchuluun and Benjamin R. Wong and Munkhzul Khurelbaatar and Yurii S. Moroz and John Mayfield and Roger A. Sayle}, title = {{ZINC}20{\textemdash}A Free Ultralarge-Scale Chemical Database for Ligand Discovery}, journal = {Journal of Chemical Information and Modeling}}

贡献

本数据集由 @zanussbaum 策划和添加。