数据集:
indonlp/indonlu
语言:
id计算机处理:
monolingual语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:1809.03391许可:
mitIndoNLU 基准是一套用于训练、评估和分析巴哈萨印度尼西亚语(印尼语)的自然语言理解系统的资源集合。IndoNLU 基准中包含了12个用于印尼语自然语言理解的数据集。
[需要更多信息]
印尼语
一个数据点由推特推文和标签组成。训练集中的一个示例如下:
{ 'tweet': 'Ini adalah hal yang paling membahagiakan saat biasku foto bersama ELF #ReturnOfTheLittlePrince #HappyHeeChulDay' 'label': 4, }
一个数据点由文本和标签组成。训练集中的一个示例如下:
{ 'text': 'warung ini dimiliki oleh pengusaha pabrik tahu yang sudah puluhan tahun terkenal membuat tahu putih di bandung . tahu berkualitas , dipadu keahlian memasak , dipadu kretivitas , jadilah warung yang menyajikan menu utama berbahan tahu , ditambah menu umum lain seperti ayam . semuanya selera indonesia . harga cukup terjangkau . jangan lewatkan tahu bletoka nya , tidak kalah dengan yang asli dari tegal !' 'label': 0, }
一个数据点由句子和多标签特征、机器、其他、部分、价格和服务组成。训练集中的一个示例如下:
{ 'sentence': 'Saya memakai Honda Jazz GK5 tahun 2014 ( pertama meluncur ) . Mobil nya bagus dan enak sesuai moto nya menyenangkan untuk dikendarai', 'fuel': 1, 'machine': 1, 'others': 2, 'part': 1, 'price': 1, 'service': 1 }
一个数据点由句子和多标签 ac、air_panas、bau、general、kebersihan、linen、service、sunrise_meal、tv 和 wifi 组成。训练集中的一个示例如下:
{ 'sentence': 'kebersihan kurang...', 'ac': 1, 'air_panas': 1, 'bau': 1, 'general': 1, 'kebersihan': 0, 'linen': 1, 'service': 1, 'sunrise_meal': 1, 'tv': 1, 'wifi': 1 }
一个数据点由前提、假设、类别和标签组成。训练集中的一个示例如下:
{ 'premise': 'Pada awalnya bangsa Israel hanya terdiri dari satu kelompok keluarga di antara banyak kelompok keluarga yang hidup di tanah Kanan pada abad 18 SM .', 'hypothesis': 'Pada awalnya bangsa Yahudi hanya terdiri dari satu kelompok keluarga di antara banyak kelompok keluarga yang hidup di tanah Kanan pada abad 18 SM .' 'category': 'menolak perubahan teks terakhir oleh istimewa kontribusi pengguna 141 109 98 87 141 109 98 87 dan mengembalikan revisi 6958053 oleh johnthorne', 'label': 0, }
一个数据点由词元和词性标签组成。训练集中的一个示例如下:
{ 'tokens': ['kepala', 'dinas', 'tata', 'kota', 'manado', 'amos', 'kenda', 'menyatakan', 'tidak', 'tahu', '-', 'menahu', 'soal', 'pencabutan', 'baliho', '.', 'ia', 'enggan', 'berkomentar', 'banyak', 'karena', 'merasa', 'bukan', 'kewenangannya', '.'], 'pos_tags': [11, 6, 11, 11, 7, 7, 7, 9, 23, 4, 21, 9, 11, 11, 11, 21, 3, 2, 4, 1, 19, 9, 23, 11, 21] }
一个数据点由词元和词性标签组成。训练集中的一个示例如下:
{ 'tokens': ['Kera', 'untuk', 'amankan', 'pesta', 'olahraga'], 'pos_tags': [27, 8, 26, 27, 30] }
一个数据点由词元和序列标签组成。训练集中的一个示例如下:
{ 'tokens': ['kamar', 'saya', 'ada', 'kendala', 'di', 'ac', 'tidak', 'berfungsi', 'optimal', '.', 'dan', 'juga', 'wifi', 'koneksi', 'kurang', 'stabil', '.'], 'seq_label': [1, 1, 1, 1, 1, 4, 3, 0, 0, 1, 1, 1, 4, 2, 3, 0, 1] }
一个数据点由词元和序列标签组成。训练集中的一个示例如下:
{ 'tokens': ['Setelah', 'melalui', 'proses', 'telepon', 'yang', 'panjang', 'tutup', 'sudah', 'kartu', 'kredit', 'bca', 'Ribet'], 'seq_label': [0, 1, 1, 2, 0, 0, 1, 0, 1, 2, 2, 1] }
一个数据点由词元和NER标签组成。训练集中的一个示例如下:
{ 'tokens': ['Kontribusinya', 'terhadap', 'industri', 'musik', 'telah', 'mengumpulkan', 'banyak', 'prestasi', 'termasuk', 'lima', 'Grammy', 'Awards', ',', 'serta', 'dua', 'belas', 'nominasi', ';', 'dua', 'Guinness', 'World', 'Records', ';', 'dan', 'penjualannya', 'diperkirakan', 'sekitar', '64', 'juta', 'rekaman', '.'], 'ner_tags': [5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5]}
一个数据点由词元和NER标签组成。训练集中的一个示例如下:
{ 'tokens': ['kepala', 'dinas', 'tata', 'kota', 'manado', 'amos', 'kenda', 'menyatakan', 'tidak', 'tahu', '-', 'menahu', 'soal', 'pencabutan', 'baliho', '.', 'ia', 'enggan', 'berkomentar', 'banyak', 'karena', 'merasa', 'bukan', 'kewenangannya', '.'], 'ner_tags': [9, 9, 9, 9, 2, 7, 0, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9] }
一个数据点由问题、短篇和序列标签组成。训练集中的一个示例如下:
{ 'passage': ['Lewat', 'telepon', 'ke', 'kantor', 'berita', 'lokal', 'Current', 'News', 'Service', ',', 'Hezb-ul', 'Mujahedeen', ',', 'kelompok', 'militan', 'Kashmir', 'yang', 'terbesar', ',', 'menyatakan', 'bertanggung', 'jawab', 'atas', 'ledakan', 'di', 'Srinagar', '.'], 'question': ['Kelompok', 'apakah', 'yang', 'menyatakan', 'bertanggung', 'jawab', 'atas', 'ledakan', 'di', 'Srinagar', '?'], 'seq_label': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] }
词性标签遵循 Indonesian Association of Computational Linguistics (INACL) POS Tagging Convention 。
词性标签来自 Tagset UI 。
标签使用起始内外(IOB)标记。
标签使用起始内外(IOB)标记。
数据集被拆分为训练集、验证集和测试集。
dataset | Train | Valid | Test | |
---|---|---|---|---|
1 | EmoT | 3521 | 440 | 440 |
2 | SmSA | 11000 | 1260 | 500 |
3 | CASA | 810 | 90 | 180 |
4 | HoASA | 2283 | 285 | 286 |
5 | WReTE | 300 | 50 | 100 |
6 | POSP | 6720 | 840 | 840 |
7 | BaPOS | 8000 | 1000 | 1029 |
8 | TermA | 3000 | 1000 | 1000 |
9 | KEPS | 800 | 200 | 247 |
10 | NERGrit | 1672 | 209 | 209 |
11 | NERP | 6720 | 840 | 840 |
12 | FacQA | 2495 | 311 | 311 |
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
IndoNLU 基准数据集的许可状态为 MIT License。
IndoNLU 数据集引用
@inproceedings{wilie2020indonlu, title={IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding}, author={Bryan Wilie and Karissa Vincentio and Genta Indra Winata and Samuel Cahyawijaya and X. Li and Zhi Yuan Lim and S. Soleman and R. Mahendra and Pascale Fung and Syafri Bahar and A. Purwarianti}, booktitle={Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing}, year={2020} }
EmoT 数据集引用
@inproceedings{saputri2018emotion, title={Emotion Classification on Indonesian Twitter Dataset}, author={Mei Silviana Saputri, Rahmad Mahendra, and Mirna Adriani}, booktitle={Proceedings of the 2018 International Conference on Asian Language Processing(IALP)}, pages={90--95}, year={2018}, organization={IEEE} }
SmSA 数据集引用
@inproceedings{purwarianti2019improving, title={Improving Bi-LSTM Performance for Indonesian Sentiment Analysis Using Paragraph Vector}, author={Ayu Purwarianti and Ida Ayu Putu Ari Crisdayanti}, booktitle={Proceedings of the 2019 International Conference of Advanced Informatics: Concepts, Theory and Applications (ICAICTA)}, pages={1--5}, year={2019}, organization={IEEE} }
CASA 数据集引用
@inproceedings{ilmania2018aspect, title={Aspect Detection and Sentiment Classification Using Deep Neural Network for Indonesian Aspect-based Sentiment Analysis}, author={Arfinda Ilmania, Abdurrahman, Samuel Cahyawijaya, Ayu Purwarianti}, booktitle={Proceedings of the 2018 International Conference on Asian Language Processing(IALP)}, pages={62--67}, year={2018}, organization={IEEE} }
HoASA 数据集引用
@inproceedings{azhar2019multi, title={Multi-label Aspect Categorization with Convolutional Neural Networks and Extreme Gradient Boosting}, author={A. N. Azhar, M. L. Khodra, and A. P. Sutiono} booktitle={Proceedings of the 2019 International Conference on Electrical Engineering and Informatics (ICEEI)}, pages={35--40}, year={2019} }
WReTE 数据集引用
@inproceedings{setya2018semi, title={Semi-supervised Textual Entailment on Indonesian Wikipedia Data}, author={Ken Nabila Setya and Rahmad Mahendra}, booktitle={Proceedings of the 2018 International Conference on Computational Linguistics and Intelligent Text Processing (CICLing)}, year={2018} }
POSP 数据集引用
@inproceedings{hoesen2018investigating, title={Investigating Bi-LSTM and CRF with POS Tag Embedding for Indonesian Named Entity Tagger}, author={Devin Hoesen and Ayu Purwarianti}, booktitle={Proceedings of the 2018 International Conference on Asian Language Processing (IALP)}, pages={35--38}, year={2018}, organization={IEEE} }
BaPOS 数据集引用
@inproceedings{dinakaramani2014designing, title={Designing an Indonesian Part of Speech Tagset and Manually Tagged Indonesian Corpus}, author={Arawinda Dinakaramani, Fam Rashel, Andry Luthfi, and Ruli Manurung}, booktitle={Proceedings of the 2014 International Conference on Asian Language Processing (IALP)}, pages={66--69}, year={2014}, organization={IEEE} } @inproceedings{kurniawan2018toward, title={Toward a Standardized and More Accurate Indonesian Part-of-Speech Tagging}, author={Kemal Kurniawan and Alham Fikri Aji}, booktitle={Proceedings of the 2018 International Conference on Asian Language Processing (IALP)}, pages={303--307}, year={2018}, organization={IEEE} }
TermA 数据集引用
@article{winatmoko2019aspect, title={Aspect and Opinion Term Extraction for Hotel Reviews Using Transfer Learning and Auxiliary Labels}, author={Yosef Ardhito Winatmoko, Ali Akbar Septiandri, Arie Pratama Sutiono}, journal={arXiv preprint arXiv:1909.11879}, year={2019} } @article{fernando2019aspect, title={Aspect and Opinion Terms Extraction Using Double Embeddings and Attention Mechanism for Indonesian Hotel Reviews}, author={Jordhy Fernando, Masayu Leylia Khodra, Ali Akbar Septiandri}, journal={arXiv preprint arXiv:1908.04899}, year={2019} }
KEPS 数据集引用
@inproceedings{mahfuzh2019improving, title={Improving Joint Layer RNN based Keyphrase Extraction by Using Syntactical Features}, author={Miftahul Mahfuzh, Sidik Soleman, and Ayu Purwarianti}, booktitle={Proceedings of the 2019 International Conference of Advanced Informatics: Concepts, Theory and Applications (ICAICTA)}, pages={1--6}, year={2019}, organization={IEEE} }
NERGrit 数据集引用
@online{nergrit2019, title={NERGrit Corpus}, author={NERGrit Developers}, year={2019}, url={https://github.com/grit-id/nergrit-corpus} }
NERP 数据集引用
@inproceedings{hoesen2018investigating, title={Investigating Bi-LSTM and CRF with POS Tag Embedding for Indonesian Named Entity Tagger}, author={Devin Hoesen and Ayu Purwarianti}, booktitle={Proceedings of the 2018 International Conference on Asian Language Processing (IALP)}, pages={35--38}, year={2018}, organization={IEEE} }
FacQA 数据集引用
@inproceedings{purwarianti2007machine, title={A Machine Learning Approach for Indonesian Question Answering System}, author={Ayu Purwarianti, Masatoshi Tsuchiya, and Seiichi Nakagawa}, booktitle={Proceedings of Artificial Intelligence and Applications }, pages={573--578}, year={2007} }
感谢 @yasirabd 添加此数据集。