登录注册

资讯

学习

基础知识理论实践学习教程

企业招聘

下载

模型数据集

AI工具箱

企业服务

EVA 智能HR 视频AI

ChatGPT 人工智能应用人工智能未来计算机视觉

热门新闻

行业人工智能

为什么数据污染对LLM来说是一个大问题

机器人康奈尔大学

康奈尔大学推出新的社交机器人，更柔软，更人性化

行业人工智能

所以，能动手就别吵吵了

常用工具

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub AI编程工具

Adobe最新推出的AI图片生成工具

AI艺术和创意辅助平台

您尚未登录账户

请先登录您的atyun账户，方可使用该功能

仅限企业账户使用

该功能仅限企业账号使用，开通企业账号可享受更多服务，是否现在注册企业账号？

立即注册企业账号

暂不需要

您的企业账号申请正在审核中

审核通过后即可使用此功能，请耐心等待~

模型:

monsoon-nlp/bangla-electra

类库:

PyTorch TensorFlow Transformers

语言:

其他:

预印本库:

arxiv:2004.07807

模型介绍文件清单

Bangla-Electra

这是对Google研究的 ELECTRA 进行的孟加拉语/孟加拉文字训练的第二次尝试。

截至2022年，我建议使用Google的MuRIL模型，该模型在英语、孟加拉语和其他重要印度语言中进行了训练，包括其本地文字和拉丁转写方式： https://huggingface.co/google/muril-base-cased 和 https://huggingface.co/google/muril-large-cased

对于因果语言模型，我建议使用 https://huggingface.co/sberbank-ai/mGPT ，尽管这是一个庞大的模型

标记化和预训练CoLab： https://colab.research.google.com/drive/1gpwHvXAnNQaqcu-YNx1kafEVxz07g2jL

V1-120,000步骤；V2-190,000步骤

分类

使用SimpleTransformers进行分类： https://colab.research.google.com/drive/1vltPI81atzRvlALv4eCvEB0KdFoEaCOb

在Soham Chatterjee的 news classification task 上：（随机：16.7％，mBERT：72.3％，Bangla-Electra：82.3％）

在一些任务和配置中类似于mBERT，详情请参阅 https://arxiv.org/abs/2004.07807

问答

此模型可以用于问答-此笔记本使用了Google的TyDi数据集中的孟加拉语问题： https://colab.research.google.com/drive/1i6fidh2tItf_-IDkljMuaIGmEU6HT2Ar

语料库

在 https://oscar-corpus.com/ 的网络抓取（去重版本，5.8GB）和bn.wikipedia.org的2020年7月1日转储（414MB）上进行了训练

词汇表

包含在上传的vocab.txt中-词汇表大小为29898

作者:

Nick Doiron

数据集大小:

103.54 MB

相关推荐