宜远智能CEO吴博:医学影像的数据标注、算法方法与算力优化

2017年12月28日 由 荟荟 发表 676149 0

吴博,宜远智能CEO


学术背景:吴博先后在清华大学、香港浸会大学求学,并在英国利兹大学完成博士后,师从计算机视觉专家唐远炎教授等人。与此同时,他也在ICML/ACL等顶级会议发表多篇人工智能论文。


工业界经验:2017年创立医疗AI公司:宜远智能,该公司集结了20多名人工智能博士以及众多海内外医学顾问,为医疗健康领域提供AI增强解决方案,并与多家知名医院达成合作,并推出成型产品。


创立宜远智能之前,吴博曾在爱立信大数据研究院任职。还主导过百亿级虚拟品电商、数字货币系统的业务及数据架构建设与运营。


2017年成果:吴博领导的宜远智能团队在医学影像领域,取得以下成绩:


1.阿里天池医疗AI大赛GPU环节国内最佳;开源系统荣获大赛人气奖。


2.面部皮肤诊断分析API、SDK已经进入商业化,并在2017年世界互联网大会展出。


3.宫颈基液细胞学诊断AI在权威评测中,超出医生水平。


以下图文为雷锋网AI掘金志节选的吴博课程部分内容:


一、数据篇


如何评估数据价值?


医疗人工智能建立在海量数据的基础之上,但优质的医疗数据十分稀缺,其价值随之凸显。如何准确评估数据的价值,是医生和投资人非常关心的话题,对此业内尚未形成共识。


吴博认为,医疗数据可以类比为钻石。钻石的价值评估对应着颜色、净度、切工和克拉这四个维度,医疗数据也可如此类比。


颜色越纯、净度越高的钻石,价值也就越高。对于医学影像数据来说,它的价值也取决于其干净、规范、清晰和标准化的程度。如果是从胶片、PACS系统和诊断报告中翻拍而来的数据,必然会包含一些杂质,其价值将大打折扣。吴博指出,高质量的数据需要是Raw Data,比如mhd格式的DICOM影像和openslide病理图像。


钻石单颗克拉数越高,价值也就越大。吴博认为,钻石的克拉数可类比同分布来源的影像数据尺寸。所谓同分布来源的影像数据,对CT来说就是来自同一设备的,参数和曝光强度都相同的影像数据;对病理图像来说,则指采用同一染色方法和色度、同一扫描仪及倍数,以及相同存储格式的影像数据。


虽然AI企业的最终目标是开发出一套通用性强的算法,能通吃各种数据;但作为数据资产方,同分布同来源的影像数据规模越大,其价值就越高。


有些医院虽然拥有大量数据,但它们来自不同的科室,格式也不尽相同,这种数据的价值是要打一些折扣的。




[caption id="" align="aligncenter" width="740"] 影像数据资产盘点[/caption]

钻石成为商品前需要经过切割等加工,医疗数据同样要经过标注等处理才能释放其价值。钻石的切割工艺分为许多个层级,医疗影像数据的标注亦是如此。从基础的类别标注到类别+病灶方框标注,再到类别+像素级勾画,标注的精细度逐级提升,数据的价值亦水涨船高。


如何选择数据标注工具?


工欲善其事,必先利其器。要想对医疗影像数据进行精细化的标注,首先得有好的标注工具。


吴博将标注工具划分成了三大类别,他将最基础的一类称作“pc+文件夹处理”,即让医生在pc和工作站上对数据进行分拣。对于医生来说,专业的数据标注软件有一定的学习成本,原始的分拣处理减少了学习成本,而且往往行之有效,还具有不受网络影响、安全性较高等优点。不足之处则在于,对后期的数据清洗要求更高,而且过程繁杂,十分消耗人工物力。




[caption id="" align="aligncenter" width="740"] 标准工具第一类-PC+文件夹处理[/caption]

更高阶的有专用IT系统和工具,包含第三方工具和自建工具。以MIT 的 Pascal VOC 标准标注工具 labelImg为代表的第三方工具虽然功能强大,但在通用性和灵活性方面还有所欠缺,因此企业经常不得不开发一些自建工具。


宜远智能在开发数据标注工具方面积累了许多心得。吴博指出,通过自建工具能够更好地满足项目推进过程中的用户管理、权限管理、多人协作审核,以及模型迭代标注调整等需求。


尤其是在医学影像领域,标注的数据大多为图片,天然具备便于展示的优点,因此可以本着方便易用的原则采用H5的canvas来设计标注工具,同时结合css3的变换,满足图像缩放、标注的需求。标注人员只需打开浏览器即可标注,无需复杂软件部署。


鉴于有些标注图片太大(比如一例CT数据多达几十甚至上百兆,一例病理数据有可能多达1G),网络传输效率低下,有时候需要对标注数据做本地处理。小的项目可以采用数据本地化的方式,使用fiddler等代理软件将网络图片请求代理到本地。大的项目则可以做内网的分布式部署,将标注系统部署在内网服务器上,由标注人员在内网进行标注。


基于这些自建工具,标注人员可以根据需求选择本地标注或在线标注,操作集中于鼠标,交互非常友好。标注人员可根据不同标注需求绘制点/线/框,无需复杂设置,打开浏览器即可标注,也可以清楚看到哪些已标哪些未标。




[caption id="" align="aligncenter" width="740"] 标准工具第三类[/caption]

随着技术发展,数据标注本身也呈现出了AI化的趋势。比如基于以往的标注,可以通过AI模型对数据进行预处理,然后由标注人员在此基础上做一些校正。


二、算法篇




[caption id="" align="aligncenter" width="740"] 数据处理[/caption]

[caption id="" align="aligncenter" width="740"] 皮肤疾病检测[/caption]

[caption id="" align="aligncenter" width="740"] 宫颈病理三分类系统[/caption]

[caption id="" align="aligncenter" width="740"] 肺结节预测框架[/caption]

(算法篇 共有31页信息量极大的PPT)


三、算力篇


吴博认为,算力优化本质上是跟预算做斗争,因为任何一家企业的预算和资源都是有限的,必须做很多的决策,要有所取舍。


数据层面,企业能做的决策不多,只能“看菜吃饭”,有多少数据就做多大的事。但在算力层面,企业有很多的选择,比如选择什么样的框架,选择品牌设备还是DIY设备,选择云服务还是自建机房等。


就框架而言,Intel CPU + Nvidia GPU的框架是目前为止的首选,特别是在需要做模型训练的情况下。但企业也可以根据自身需求选择其他框架,比如IBM体系的Power CPU + Nvidia GPU框架,性能也很优异,在CPU与CPU、CPU与GPU、GPU与GPU之间都可以提供非常出色的带宽支持,构成比较高端解决方案。


而且为了追赶Intel CPU + Nvidia GPU的框架,Power CPU + Nvidia GPU提供了很多扶持计划。对于研发团队来说,加入它们的foundation获得算力上的支持是个不错的选择。而且Power和浪潮的合作非常紧密,这意味着它的国产化将不成问题。


此外,还有Intel CPU、Intel + ASIC、FPGA等多种框架,它们各有优缺点,企业可以视自身情况作出选择。


……


学员部分提问


雷锋网AI掘金志线上直播结束后,学员从不同维度提出了18个问题,吴博对多数问题进行了耐心解答。


问题:


1.多疾病分类的时候,针对严重不均衡的数据,除了过采样以外,还有没有算法层面的突破?严重不均衡的数据集合会不会造成分类时baseline不稳定?


2.如何对多模态数据进行有效利用?


3.针对组织器官数据有哪些标注工具?


4.模型迭代标注调整是什么意思?


5.今天讲的细胞学、病理、肺结节等,有做成产品用到医院的吗?


6.病理图片的颜色千差万别,如何做预处理?


7.液基细胞学用语义分割做的分割效果如何?

欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消