UperNet是一个语义分割的框架,利用了Swin Transformer骨干网络。UperNet在Xiao等人的论文《 Unified Perceptual Parsing for Scene Understanding 》中介绍。
将UperNet与Swin Transformer骨干网络相结合是在《 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 》论文中介绍的。
声明:发布UperNet + Swin Transformer的团队没有为这个模型编写模型卡片,因此这个模型卡片是由Hugging Face团队撰写的。
UperNet是一个语义分割的框架。它包括多个组件,包括一个骨干网络(backbone)、一个特征金字塔网络(FPN)和一个金字塔池化模块(PPM)。
任何视觉骨干网络都可以插入UperNet框架中。该框架预测每个像素的语义标签。
您可以使用原始模型进行语义分割。请查看《 model hub 》以寻找您感兴趣任务的精调版本(具有不同的骨干网络)。
有关代码示例,请参阅《 documentation 》。