矿物学遇见zero-shot计算机视觉

2023年08月28日 由 samoyed 发表 390 0

对地质学家来说,识别矿物是一个复杂而耗时的问题,识别一个样本通常需要30分钟到几天的时间。使情况进一步复杂化的是,有相当一部分矿物仍然没有得到充分的研究,在目前已确定的6000种矿物中,只有几百种得到了全面的鉴定。


amethyst-3203771_1280


矿物和岩石的视觉诊断是地质学中普遍使用的方法,因为它比光谱和化学分析等其他方法便宜和快速得多。然而,与更昂贵的方法相比,这种方法准确性较低。即使是经验丰富的矿物学家在处理稀有材料或低质量样品时也会犯错误。将机器智能整合到这个过程中可以帮助识别错误,并减少专家在常规任务上花费的时间。


尽管在这一领域的研究正在进行中,但在科学文献中缺乏明确的矿物图像分析基准。为了填补这一空白,人工智能研究所与Sber AI和罗蒙诺索夫莫斯科国立大学(Lomonosov Moscow State University)合作,为专注于矿物识别的计算机视觉模型创建了一个基准数据集。


这个数据集被命名为MineralImage5k。它基于费斯曼矿物博物馆(Fersman mineralogical museum)的收藏建立,包含44000个样本。虽然比Mindat数据集小,但MineralImage5k提供了更大的照片条件同质性,并包含与天然矿物非常相似的未经处理的样本。


MineralImage5k数据集被分为三个不同复杂性的子集,这给研究人员在矿物分类、分割和大小估计方面带来了挑战。基准中提出的最简单的分类任务包含10种矿物,每种矿物至少有462个示例。最困难的问题是在仅有一张图像的情况下将矿物分类到5000个类别中。


mineralogy-meets-zero


人工智能在处理矿物照片时可能面临的一个问题是,所呈现岩石的哪一部分是真正的矿物。为了解决这个问题,除了分类之外,我们还共享了一组大约100张带有附加标签的图像和分割任务。将分割任务集成到分类管道中可以在模型出错的情况下提供额外的见解,并减少此类情况的发生。


除了分类和分割之外,我们还研究了零样本矿物尺寸估计。标本尺寸的自动估计在博物馆标本储存过程中非常有用。有了样品的这些数据,我们就可以规划出最佳的存储系统,购买或制造正确数量的合适尺寸的盒子。因此,在我们的基准测试中,我们为回归任务提供了超过1.8万个标记样本。


为了证明基准测试的有效性,我们评估了在一般领域数据上预训练的视觉语言模型。我们发现,在特定领域的数据集(如MineralImage5k)上对模型进行微调可以显著提高其准确性。我们还强调了评估矿物识别模型的跨数据集评估的潜力。

文章来源:https://techxplore.com/news/2023-08-mineralogy-zero-shot-vision.html
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消