宜远智能CEO吴博：医学影像的数据标注、算法方法与算力优化

2017年12月28日由荟荟发表 676245 0

吴博，宜远智能CEO

学术背景：吴博先后在清华大学、香港浸会大学求学，并在英国利兹大学完成博士后，师从计算机视觉专家唐远炎教授等人。与此同时，他也在ICML/ACL等顶级会议发表多篇人工智能论文。

工业界经验：2017年创立医疗AI公司：宜远智能，该公司集结了20多名人工智能博士以及众多海内外医学顾问，为医疗健康领域提供AI增强解决方案，并与多家知名医院达成合作，并推出成型产品。

创立宜远智能之前，吴博曾在爱立信大数据研究院任职。还主导过百亿级虚拟品电商、数字货币系统的业务及数据架构建设与运营。

2017年成果：吴博领导的宜远智能团队在医学影像领域，取得以下成绩：

1.阿里天池医疗AI大赛GPU环节国内最佳；开源系统荣获大赛人气奖。

2.面部皮肤诊断分析API、SDK已经进入商业化，并在2017年世界互联网大会展出。

3.宫颈基液细胞学诊断AI在权威评测中，超出医生水平。

以下图文为雷锋网AI掘金志节选的吴博课程部分内容：

一、数据篇

如何评估数据价值？

医疗人工智能建立在海量数据的基础之上，但优质的医疗数据十分稀缺，其价值随之凸显。如何准确评估数据的价值，是医生和投资人非常关心的话题，对此业内尚未形成共识。

吴博认为，医疗数据可以类比为钻石。钻石的价值评估对应着颜色、净度、切工和克拉这四个维度，医疗数据也可如此类比。

颜色越纯、净度越高的钻石，价值也就越高。对于医学影像数据来说，它的价值也取决于其干净、规范、清晰和标准化的程度。如果是从胶片、PACS系统和诊断报告中翻拍而来的数据，必然会包含一些杂质，其价值将大打折扣。吴博指出，高质量的数据需要是Raw Data，比如mhd格式的DICOM影像和openslide病理图像。

钻石单颗克拉数越高，价值也就越大。吴博认为，钻石的克拉数可类比同分布来源的影像数据尺寸。所谓同分布来源的影像数据，对CT来说就是来自同一设备的，参数和曝光强度都相同的影像数据；对病理图像来说，则指采用同一染色方法和色度、同一扫描仪及倍数，以及相同存储格式的影像数据。

虽然AI企业的最终目标是开发出一套通用性强的算法，能通吃各种数据；但作为数据资产方，同分布同来源的影像数据规模越大，其价值就越高。

有些医院虽然拥有大量数据，但它们来自不同的科室，格式也不尽相同，这种数据的价值是要打一些折扣的。

[caption id="" align="aligncenter" width="740"]

影像数据资产盘点[/caption]

钻石成为商品前需要经过切割等加工，医疗数据同样要经过标注等处理才能释放其价值。钻石的切割工艺分为许多个层级，医疗影像数据的标注亦是如此。从基础的类别标注到类别+病灶方框标注，再到类别+像素级勾画，标注的精细度逐级提升，数据的价值亦水涨船高。

如何选择数据标注工具？

工欲善其事，必先利其器。要想对医疗影像数据进行精细化的标注，首先得有好的标注工具。

吴博将标注工具划分成了三大类别，他将最基础的一类称作“pc+文件夹处理”，即让医生在pc和工作站上对数据进行分拣。对于医生来说，专业的数据标注软件有一定的学习成本，原始的分拣处理减少了学习成本，而且往往行之有效，还具有不受网络影响、安全性较高等优点。不足之处则在于，对后期的数据清洗要求更高，而且过程繁杂，十分消耗人工物力。

[caption id="" align="aligncenter" width="740"]

标准工具第一类-PC+文件夹处理[/caption]

更高阶的有专用IT系统和工具，包含第三方工具和自建工具。以MIT 的 Pascal VOC 标准标注工具 labelImg为代表的第三方工具虽然功能强大，但在通用性和灵活性方面还有所欠缺，因此企业经常不得不开发一些自建工具。

宜远智能在开发数据标注工具方面积累了许多心得。吴博指出，通过自建工具能够更好地满足项目推进过程中的用户管理、权限管理、多人协作审核，以及模型迭代标注调整等需求。

尤其是在医学影像领域，标注的数据大多为图片，天然具备便于展示的优点，因此可以本着方便易用的原则采用H5的canvas来设计标注工具，同时结合css3的变换，满足图像缩放、标注的需求。标注人员只需打开浏览器即可标注，无需复杂软件部署。

鉴于有些标注图片太大（比如一例CT数据多达几十甚至上百兆，一例病理数据有可能多达1G），网络传输效率低下，有时候需要对标注数据做本地处理。小的项目可以采用数据本地化的方式，使用fiddler等代理软件将网络图片请求代理到本地。大的项目则可以做内网的分布式部署，将标注系统部署在内网服务器上，由标注人员在内网进行标注。

基于这些自建工具，标注人员可以根据需求选择本地标注或在线标注，操作集中于鼠标，交互非常友好。标注人员可根据不同标注需求绘制点/线/框，无需复杂设置，打开浏览器即可标注，也可以清楚看到哪些已标哪些未标。

[caption id="" align="aligncenter" width="740"]

标准工具第三类[/caption]

随着技术发展，数据标注本身也呈现出了AI化的趋势。比如基于以往的标注，可以通过AI模型对数据进行预处理，然后由标注人员在此基础上做一些校正。

二、算法篇

[caption id="" align="aligncenter" width="740"]

数据处理[/caption]

[caption id="" align="aligncenter" width="740"]

皮肤疾病检测[/caption]

[caption id="" align="aligncenter" width="740"]

宫颈病理三分类系统[/caption]

[caption id="" align="aligncenter" width="740"]

肺结节预测框架[/caption]

（算法篇共有31页信息量极大的PPT）

三、算力篇

吴博认为，算力优化本质上是跟预算做斗争，因为任何一家企业的预算和资源都是有限的，必须做很多的决策，要有所取舍。

数据层面，企业能做的决策不多，只能“看菜吃饭”，有多少数据就做多大的事。但在算力层面，企业有很多的选择，比如选择什么样的框架，选择品牌设备还是DIY设备，选择云服务还是自建机房等。

就框架而言，Intel CPU + Nvidia GPU的框架是目前为止的首选，特别是在需要做模型训练的情况下。但企业也可以根据自身需求选择其他框架，比如IBM体系的Power CPU + Nvidia GPU框架，性能也很优异，在CPU与CPU、CPU与GPU、GPU与GPU之间都可以提供非常出色的带宽支持，构成比较高端解决方案。

而且为了追赶Intel CPU + Nvidia GPU的框架，Power CPU + Nvidia GPU提供了很多扶持计划。对于研发团队来说，加入它们的foundation获得算力上的支持是个不错的选择。而且Power和浪潮的合作非常紧密，这意味着它的国产化将不成问题。

此外，还有Intel CPU、Intel + ASIC、FPGA等多种框架，它们各有优缺点，企业可以视自身情况作出选择。

……

学员部分提问

雷锋网AI掘金志线上直播结束后，学员从不同维度提出了18个问题，吴博对多数问题进行了耐心解答。

问题：

1.多疾病分类的时候，针对严重不均衡的数据，除了过采样以外，还有没有算法层面的突破？严重不均衡的数据集合会不会造成分类时baseline不稳定？

2.如何对多模态数据进行有效利用？

3.针对组织器官数据有哪些标注工具？

4.模型迭代标注调整是什么意思？

5.今天讲的细胞学、病理、肺结节等，有做成产品用到医院的吗？

6.病理图片的颜色千差万别，如何做预处理？

7.液基细胞学用语义分割做的分割效果如何？

标签：

公司板宜远智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇宜远智能AI测肤仪亮相GMIC，让变美有更多想象空间

下一篇图森未来完成C轮5500万美元融资复合资本领投

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来