英文

关于模型

这是一个环境尽职调查分类模型,训练数据集采用定制的环境数据,用于检测污染和修复活动(包括现有的和计划中的),作为场地评估过程的一部分。该模型可以识别污染源、污染程度、场地中存在的污染物类型、污染物与地下水、地表水和周围水体的相互作用。

此模型构建在distilbert-base-uncased模型的基础上,训练时使用学习率为5e-5、批处理大小为16、最大序列长度为512进行了10个epochs的训练。

  • 数据集:开源新闻数据+定制数据
  • 碳排放量:0.1069千克

使用方法

最简单的方法是通过transformers库提供的pipeline对象进行加载。

from transformers import AutoTokenizer, TFAutoModelForSequenceClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("d4data/environmental-due-diligence-model")
model = TFAutoModelForSequenceClassification.from_pretrained("d4data/environmental-due-diligence-model")

classifier = pipeline('text-classification', model=model, tokenizer=tokenizer) # cuda = 0,1 based on gpu availability
classifier("At the every month post-injection monitoring event, TCE, carbon tetrachloride, and chloroform concentrations were above CBSGs in three of the wells")

作者

该模型是Deepak John Reji和Afreen Aman进行的“环境尽职调查”研究课题的一部分。如果您使用了这个工作(包括代码、模型或数据集),请引用如下:

Environmental Due Diligence,(2020), https://www.sciencedirect.com/science/article/pii/S2665963822001117

你可以在这里支持我 :)