神经胶质瘤影像组学的研究背景和工作流程。图像组学是放射学、计算机视觉、机器学习等多学科交叉的产物,它的产生既有现实的主观需要,又有客观条件。客观地说,目前影像学的现状是量化数据很有限,对图像的解读主要依赖于人员的视觉评价,其结果多为描述性、主观性和非定量。所以,客观、定量地评价医学图像具有迫切性。从客观上看,医疗影像设备软硬件的好转,医院数字化发展,使用电子病历,影像储存及传输系统的方便、数学算法的改进以及计算机处理能力的提高,使得实现高通量的数字信息提取成为可能,为影像组学的诞生提供了现实基础和硬件支持。
同时,在大数据时代,医学研究与临床数据科学等新兴领域正在形成,多学科交叉的应用,使融合多种数据资源,实现个性化诊断和治疗,为医学影像组学提供了一种不同的应用前景。图象组处理的数据尽可能地标准化,这就要求采集数据的机种要尽量统一,用来扫描的参数要一致。图像组学的工作流程大致分为四个步骤:获取图像、感兴趣区分割、特征提取、建模和合适性检验。
图象采集与ROI分割为影像检测与诊断,特征提取涉及计算机视觉,提取过程中可以对图像进行预处理和过滤,但提取过程并非必需。图像组学是多学科交叉的产物,包括机器学习、人工智能等,是一门综合性学科。超声、CT、MRI和正电子扫描可以获得CT和PET扫描(PET)的影像,其中CT和PET比MRI广泛。ROI分割分为手工分割、半自动分割和自动分割三种方式,对于高水平阅片者来说,人工分割较为精确,但费时且存在个体差异,使用软件进行自动分割可以减轻人力负担,但在病理状态下,是肿瘤边界不清时,无法使用。
特征提取是借助于计算机视觉,将图像从像素层次转换成大量的量化数据,进行分类分析。将其划分为形状特征、一阶统计、二阶统计量和高阶统计量。形态特征主要取决于所用的分割法,指标包括大小、形状等;一阶统计从图像像素强度中得到的柱状图,主要反映像素值的分布,没有考虑其空间关系;通常根据直方图生成的指数有均值、标准差、熵值、偏态峰和正态峰等;二阶统计是一种纹理或灰度变量特征,主要反映了同一灰度和灰度像素之间的空间关系,在模式识别中,反映病灶异质性较多,高阶统计量法是用过滤网格来提取重复和非重复模型,通常采用拉普拉斯法进行高斯滤过,Gabor过滤、小波变换和分维分析。图像组学模型的建立与验证需要完成足够数量的数据,所用方法有无监督的ML分析(采用热点图或聚类分析)在没有预设数据标记的情况下,从数据中查找自然结构特征;监督ML分类器,如一般线性模型,随机森林法,SVM,神经网络等;介于两者之间的半监督学习。
当分类标签不明确的时候,半监督学习是为特定的任务设计的。正则方法用来控制模型的复杂性和避免过度拟合(为了适应样本而使用多种复杂函数)。内部校验经常被用来进行内部校验,主要是用被试操作特征曲线下面的区域来评估。