模型:

NYTK/summarization-hi-pegasus-hungarian

英文

匈牙利抽象概括与细化的Pegasus模型

有关更多详细信息,请参见或 our demo site

  • 在Pegasus模型上进行细化
  • 在HI语料库上进行细化(hvg.hu + index.hu)
    • 段落数:559162

限制

  • 标记化的输入文本(标记器: HuSpaCy
  • max_source_length = 1024
  • max_target_length = 256
  • 由于修改的词汇表,仅能使用PegasusTokenizerFast

结果

Model HI
mBART 35.17/16.46/25.61
mT5 33.30/15.97/24.65
PEGASUS 30.36/13.11/21.57

用法

from transformers import PegasusForConditionalGeneration, PegasusTokenizerFast
model_name = 'NYTK/summarization-hi-pegasus-hungarian'

tokenizer = PegasusTokenizerFast.from_pretrained(model_name)
model = PegasusForConditionalGeneration.from_pretrained(model_name)
input_text = "A Tisza-parti város állatkertjében régóta tartanak szurikátákat ( Suricata suricatta ) , de tavaly tavaszig nem sikerült szaporítani őket , annak ellenére , hogy tágas ház és kifutó épült számukra - közölte Veprik Róbert igazgató . 2010-ben alakult ki az új - három Amszterdamból származó nőstényből és egy budapesti fiatal hímből álló - csapat , amely szaporodni kezdett . 2011-ben három , idén pedig egy utóddal örvendeztették meg a gondozókat és az állatbarátokat . A szurikáták utódai - tizenegy hetes vemhesség után - október és március között vakon és szőrtelenül jönnek a világra . A kicsinyek háromhetesen bújnak elő az üregből , és nevelésükben mindkét szülő részt vesz . A szurikátacsapatokban a család tagjai nagyon szoros kapcsolatban állnak egymással , viszont nagyon harciasan fellépnek az idegenekkel szemben , akár meg is ölhetik azt az állatot , amelyet betolakodónak tekintenek . Bár a Dél-Afrikában , a Kalahári sivatagban őshonos cibetmacskaféle ragadozókat a szegedi állatkertben természetes élőhelyükhöz képest kevesebb veszély fenyegeti , a vadasparki erdőben ragadozó madarak is élnek , amelyek akár zsákmányként is tekinthetnének a szurikátákra . A szegedi csapatnál azonban szigorú őrség van , mindig lesi valaki két lábra állva a veszélyforrásokat ."

tokenized_text = tokenizer(input_text, truncation=True, max_length=1024, return_tensors="pt")
summarization = model.generate(**tokenized_text, max_length=256)

print(tokenizer.batch_decode(summarization, skip_special_tokens=True))

引用

如果您使用了此模型,请引用以下论文:

@inproceedings {yang-multi-sum,
    title = {{Többnyelvű modellek és PEGASUS finomhangolása magyar nyelvű absztraktív összefoglalás feladatára}},
    booktitle = {XIX. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2023)},
    year = {2023},
    publisher = {Szegedi Tudományegyetem, Informatikai Intézet},
    address = {Szeged, Magyarország},
    author = {Yang, Zijian Győző},
    pages = {381--393}
}