通过AI检测和分离古老雕刻中的字母
2018年09月05日 由 浅浅 发表
187529
0
AI可以检测面部,杂货,甚至有毒的蘑菇。那为什么不能是历史悠久的涂鸦呢?
在Arxiv上发表的一篇论文“Open Source Dataset and Machine Learning Techniques for Automatic Recognition of Historical Graffiti”中,乌克兰国立技术大学和惠州大学信息科学与技术学院的研究人员描述了机器学习模型,检测,隔离和分类雕刻在基辅大教堂的石墙上的古老字母。
团队表示,“雕刻的手写字母通常很破碎,准确值较低,通常预处理需要有关整个字形的先验知识,但某些数据集目前不可用作开源数据库。我们的主要目的是应用一些机器学习技术来自动识别历史涂鸦,并从复杂的几何形状,几乎不可辨别的形状和低统计代表性的角度估计它们的效率。”
研究人员将他们的大部分工作集中在Glagolitic和Cyrillic上,这两种字母在斯拉夫语的视觉文本中经常使用。考古学家在乌克兰的圣索菲亚大教堂发现了两者的雕文,有些可以追溯到11世纪。迄今为止,已检测到并研究了约7000个。
不言而喻,历史性的字母数据集并不像阿拉伯字母那样常见,因此团队组装并预处理了34种字母类型的4000多张图像的集合。他们使用notMINST,第二个数据库包含字母AJ的公共字体和字形,来比较两个输出。
他们接下来开始训练卷积神经网络,通过从notMINST及其新颖数据集中提供数据来识别涂鸦,水平和垂直翻转一些原始数据图像以防止过度拟合。
神经网络在分别从团队数据集和notMINST中分离字符的准确率为99%。
之后研究人员希望通过教导它来考虑诸如日期,语言,作者,真实性和意义等因素来改进模型。此外,他们建议以“开放科学,志愿者数据收集,处理和计算”的精神创建世界各地共享的更大数据集,这将推动进一步的发展。
团队表示,“涂鸦是非常强大的史料。例如,Safaitic语言仅有的已知来源是叙利亚南部,约旦东部和沙特阿拉伯北部的岩石表面上的涂鸦铭文,计算机视觉和机器学习方法的最新进展允许应用其中一些来改进当前的识别,定位,语义分割和对各种起源的历史涂鸦的解释。”