英文

✨ vibert-capitalization-punctuation

这是一个在 OSCAR-2109 数据集上进行标点还原微调的 viBERT 模型。该模型预测纯文本中的标点符号和大写字母。一个示例用例可以是ASR输出,或者其他文本丢失标点符号的情况。此模型旨在直接用作普通越南语的标点还原模型。或者,您可以将其用于领域特定文本的进一步微调,以进行标点还原任务。模型恢复以下标点符号 - [. , : ? ] 该模型还还原诸如YouTube、MobiFone等单词的复杂大写形式。

?用法

以下是快速上手该模型的方法。

  • 下载hub中的文件
  • import os
    import shutil
    import sys
    from huggingface_hub import snapshot_download
    cache_dir = "./capu"
    def download_files(repo_id, cache_dir=None, ignore_regex=None):
        download_dir = snapshot_download(repo_id=repo_id, cache_dir=cache_dir, ignore_regex=ignore_regex)
        if cache_dir is None or download_dir == cache_dir:
            return download_dir
        file_names = os.listdir(download_dir)
        for file_name in file_names:
            shutil.move(os.path.join(download_dir, file_name), cache_dir)
        os.rmdir(download_dir)
        return cache_dir
    cache_dir = download_files(repo_id="dragonSwing/vibert-capu", cache_dir=cache_dir, ignore_regex=["*.json", "*.bin"])
    sys.path.append(cache_dir)
    
  • 样例Python代码
  • import os
    from gec_model import GecBERTModel
    model = GecBERTModel(
        vocab_path=os.path.join(cache_dir, "vocabulary"),
        model_paths="dragonSwing/vibert-capu",
        split_chunk=True
    )
    model("theo đó thủ tướng dự kiến tiếp bộ trưởng nông nghiệp mỹ tom wilsack bộ trưởng thương mại mỹ gina raimondo bộ trưởng tài chính janet yellen gặp gỡ thượng nghị sĩ patrick leahy và một số nghị sĩ mỹ khác")
    # Always return list of outputs.
    # ['Theo đó, Thủ tướng dự kiến tiếp Bộ trưởng Nông nghiệp Mỹ Tom Wilsack, Bộ trưởng Thương mại Mỹ Gina Raimondo, Bộ trưởng Tài chính Janet Yellen, gặp gỡ Thượng nghị sĩ Patrick Leahy và một số nghị sĩ Mỹ khác.']
    model("những gói cước năm g mobifone sẽ mang đến cho bạn những trải nghiệm mới lạ trên cả tuyệt vời so với mạng bốn g thì tốc độ truy cập mạng 5 g mobifone được nhận định là siêu đỉnh với mức truy cập nhanh gấp 10 lần")
    # ['Những gói cước 5G MobiFone sẽ mang đến cho bạn những trải nghiệm mới lạ trên cả tuyệt vời. So với mạng 4G thì tốc độ truy cập mạng 5G MobiFone được nhận định là siêu đỉnh với mức truy cập nhanh gấp 10 lần.']
    

该模型可以处理任意大的越南语文本。

?训练数据

以下是我们用于微调模型的产品评论数量:

Language Number of text samples
Vietnamese 5,600,000

?准确度

以下是模型在10,000个保留文本样本上每个标签的性能分布:

label precision recall f1-score support
Upper 0.88 0.89 0.89 56497
Complex-Upper 0.92 0.83 0.88 480
. 0.81 0.82 0.82 18139
, 0.73 0.70 0.71 22961
: 0.74 0.56 0.64 1432
? 0.80 0.76 0.78 1730
none 0.99 0.99 0.99 475611