Mistral推出了一款名为Mistral OCR的新型光学字符识别(OCR)应用程序编程接口(API)。在众多推理模型竞相涌现的背景下,这款API专为提供高级文档理解能力而设计。
Mistral OCR能够从非结构化的PDF文件和图像中高精度地提取内容,这些内容涵盖手写笔记、打印文本、图片、表格和公式等,并以结构化格式呈现。结构化数据是指通过行和列等预定方式组织的信息,便于搜索和分析。常见的结构化数据示例包括存储在数据库或电子表格中的姓名、地址和财务交易记录。相比之下,非结构化数据缺乏特定的格式或结构,因此处理和分析起来更具挑战性。非结构化数据涵盖广泛的数据类型,如电子邮件、社交媒体帖子、视频、图像和音频文件。由于非结构化数据无法整齐地纳入传统数据库,因此常采用自然语言处理(NLP)和机器学习(ML)等专门工具和技术来提取有价值的信息。
Mistral OCR支持多种语言,处理速度快,并且能够与大型语言模型(LLM)集成,以增强文档理解能力。这对于希望将文档转换为AI就绪状态的组织而言具有重要意义。据Mistral在宣布新API的博客文章中提到,所有业务信息中有90%属于非结构化数据。因此,这款新型API有望极大助力那些寻求将数据数字化并编入目录以供AI应用或内部/外部知识库使用的组织。