深度学习作为一类机器学习方法,已在计算机视觉、语音识别、自然语言处理和游戏竞技等多个领域取得显著成功并引发广泛关注。该方法能够建立从原始输入数据(如图像)到目标输出结果(如图像分类)的直接映射关系。与传统机器学习需要人工设计特征提取方法不同,深度学习直接从数据中自动学习特征表示。随着大规模数据集的涌现和计算能力的提升,这类方法可以构建出性能卓越的预测模型。这些模型本质上是受生物神经系统启发而设计的、具有多层结构的人工神经网络。通过网络中的反向传播误差修正机制,节点(神经元)之间的连接权重会根据输入样本与目标输出的对应关系进行迭代调整。在计算机视觉任务中,卷积神经网络(CNN)已被证实具有显著优势。近年来,CNN在放射学领域已开展多项临床应用研究,涉及图像分类、病灶检测和区域分割等任务。本文旨在为临床放射科医师系统阐述深度学习的关键概念,探讨相关技术要求,介绍放射学中的新兴应用,并指出该领域的当前局限与发展方向。放射科医师有必要深入了解深度学习的基本原理及其在医学影像中的应用潜力。

引言

医学影像分析与解读是诊断放射科医师的核心认知任务。尽管计算机视觉技术不断发展,但实现这些任务的计算机自动化始终面临重大挑战。近期,采用深度学习技术的研究人员在图像分类、目标检测、语音识别、机器翻译、自然语言处理以及游戏竞技等多个复杂任务中取得了突破性进展。

CNN在非医学图像领域取得的成功,为医学影像的自动化分析带来了革命性希望,同时也促使临床放射科医师必须尽快掌握这项快速发展的技术——部分人工智能专家预测,深度学习系统可能很快会在某些影像解读任务上超越放射科医师的诊断水平。目前,深度学习算法已在多个医学影像场景中得到应用,包括:乳腺X线摄影的乳腺癌检测、CT图像中肝转移瘤的分割、MR脑肿瘤分割、高分辨率胸部CT对间质性肺病的分类,以及医学影像内容相关标签的自动生成。

本文将通过界定人工智能领域的关键术语、回顾深度学习的发展历程,系统阐述这项技术的基本原理与应用前景。我们将详细介绍神经网络的基本结构和CNN的架构特点,简要总结深度学习的技术与数据需求,最后探讨其在临床放射学中的新兴应用类型,并指出当前存在的局限性与未来发展方向。

什么是深度学习?

深度学习是一类采用多层神经网络的机器学习算法。本文重点讨论最常用于图像处理的CNN架构(又称’卷积网’)。虽然也存在其他用于处理放射学报告文本(通过自然语言处理)或音频的深度学习架构,但这些内容不在本文讨论范围内。

定义

以下计算机科学术语有助于界定深度学习的应用背景。

人工智能

计算机科学的一个分支,致力于开发能够执行通常需要人类智能才能完成任务的系统。这是一个涵盖多种子领域和技术的广义术语;本文主要关注作为机器学习类型的深度学习(图1)。

图1:维恩图。人工智能是计算机科学的分支领域,致力于创建能完成通常需要人类智能的任务的系统。机器学习是人工智能的子领域,通过训练计算机在无需显式编程的情况下执行任务。传统方法中,人类需设计特征使计算机学会区分数据模式。表征学习是无需特征工程的机器学习类型,计算机自主习得用于分类数据的特征。深度学习是表征学习的子类,其习得特征具有组合性或层级性。

机器学习

人工智能的一个子领域,其算法通过从数据中学习规律(而非显式编程)来执行特定任务。在传统机器学习中,需要由专家人工识别并编码数据中的特征,然后基于这些特征运用统计方法对数据进行组织或分类(图2)。例如,在图像分析任务中,图像处理专家可能会编写算法将输入图像分解为边缘、梯度和纹理等基本元素,然后根据这些特征在图像中的存在情况进行统计分析和分类。

图2:传统机器学习依赖精心设计的特征,需要人类专业知识与复杂任务特定优化。深度学习利用海量数据和灵活的层次模型绕过特征工程环节。近年来深度学习在图像分类、语音识别、自然语言处理和游戏博弈等领域取得显著性能突破。蓝色框代表通过数据拟合学习的组件,深度学习可实现从输入到输出的端到端映射。

然而,对于许多复杂的计算机视觉任务,即使是专家也难以准确定义机器学习算法应该使用的最优图像特征。例如,如何仅基于像素亮度值让计算机识别某个器官就并非显而易见(图3)。因此,理想的计算机系统不仅应该学习从特征到目标输出的映射关系,更应该能够自动学习和优化特征本身。

图3:人类视觉vs计算机视觉。人类专家可轻松判定该图像为右肾,但对计算机而言却极具挑战。计算机’看到’的是代表像素亮度的数字矩阵而非灰度阴影。计算机视觉通常需计算该矩阵中的数值模式(特征),再应用机器学习算法基于这些特征区分图像。

表示学习

一类不需要人工设计特征工程的机器学习方法。该方法能够自动学习最适合数据分类的特征表示。在拥有足够训练样本的情况下,基于表示学习的系统可能比人工设计特征的系统具有更好的分类性能。其核心挑战在于如何让机器学习系统直接从原始数据中学习可能非常复杂的特征表示。

深度学习

表示学习的一种特殊类型,其算法能够学习反映数据层次结构的特征组合。在这种方法中,复杂的特征表示由更简单的特征组合而成。深度学习系统采用端到端的学习方式,将信号强度、边缘和纹理等简单特征作为构建器官、病灶等复杂特征的组件,从而充分利用图像固有的组合特性(图4)。

图4:检测、分割和分类等计算机视觉任务传统上通过基于特征、分类器和形状提取方法的算法实现。基于深度学习的新范式实现了特征的端到端自主学习。特征描述医学影像中器官和兴趣点的外观表现,分类器整合特征输出决策,形状提取与正则化可在分类噪声中恢复一致形态。深度学习通过端到端方式学习使分类器性能最大化的特征,形状正则化成为隐式过程,通常仅需轻度后处理即可恢复目标形态。

历史背景

深度学习系统采用人工神经网络架构来编码特征表示,这种由互联节点组成的计算结构灵感来源于生物神经网络。神经网络在人工智能领域的发展可以追溯到20世纪50年代。20世纪80年代,基于反向传播过程的系统化神经网络训练方法得以建立。然而,由于存在复杂的优化难题和早期计算硬件的性能限制,训练具有多层结构的深度神经网络(实现层次化特征表示所必需)始终未能取得突破。因此,此后数十年的机器学习研究转向了核方法和决策树等其他技术方向。

尽管神经网络已有数十年的发展历史,但直到近年三大关键因素的出现才使得训练大型神经网络成为可能:(a)海量标注数据的可获得性;(b)廉价且强大的并行计算硬件;(c)训练方法和架构设计的持续改进。

在图像处理领域,一种称为卷积神经网络(CNN)的深度学习架构已成为主流。自2012年以来,深度和复杂度不断提升的CNN获得了广泛关注——当年ImageNet大规模视觉识别挑战赛的获胜方案采用深度CNN取得了相比传统计算机视觉技术的惊人突破。2012年后,该项赛事的所有获胜方案均采用CNN架构,其性能甚至超越了人类水平。

神经网络

在大脑神经系统中,神经元通过化学突触和电突触进行信息交换(图5)。电化学信号从突触区域经树突传递至胞体(细胞主体),当兴奋阈值达到时,细胞通过轴突向邻近神经元突触释放激活信号。基于这种机制,神经元网络能够编码复杂信号——例如视觉皮层中的层级神经元通过整合独立视觉感受器的信号来识别边缘特征。

图5:生物神经元(a)与人工神经元(b)的类比概念。神经网络概念源于生物学启发。(a)视觉皮层神经网络通过视网膜感受野(灰圈)检测边缘,当三个感受器内部(小圈)同时激活时,简单细胞神经元整合信号传递边缘检测信号。(b)人工神经网络由互连人工神经元组成,每个神经元实施基于证据加权和的分类模型及激活函数整合前级信号。数百个此类基础计算单元可组装成神经网络计算设备,其权重通过输入输出配对的学习算法训练,类似大脑依赖外部感官刺激学习特定任务。

人工神经网络正是受此生物过程启发而设计。其基本单元(人工神经元/节点)是对生物神经元机制的简化模拟:接收一组表征输入特征的数值,每个特征乘以相应权重后进行加权求和,再通过非线性激活函数输出。这种机制使单个神经元可视为基于证据权重进行决策的单元。

虽然单个神经元结构简单,但由数千神经元组成的多层感知机能够表示极其复杂的非线性函数。这类网络通常通过以下方式构建:将多个神经元组织成单层结构,再通过层间连接堆叠成深度架构(图6)。’深度’一词即源于这种多层结构特性:输入层接收像素强度等原始数据,输出层生成分类结果等目标值,中间隐藏层则负责计算对推理过程有用的特征中间表示。

图6:深度学习研究基础是受生物神经网络启发的节点互连计算框架——人工神经网络。’深度’体现在网络的多层架构上,输入与输出节点间含多个隐藏层。本例展示含3个输入节点、2个隐藏层(每层4节点)和2个输出节点的网络。

通过层级堆叠,网络能够构建从底层特征到高层抽象的递进式特征表示体系。这种深度架构的组合能力使神经网络可以基于抽象概念进行推理决策。使用神经网络进行预测(如图像分类)需执行前向传播过程:从输入层到输出层逐层计算节点激活值。分类任务中,输出层激活值通常通过softmax函数(将实数向量映射为概率分布的归一化函数)转换为类别概率(图7)。

图7:Softmax分类器。分类任务中,神经网络输出节点可视为各类别的未归一化对数概率。Softmax函数将其转换为类别概率:训练时计算网络预测类别与实际类别的损失值,通过反向传播调整网络权重以最小化损失。

神经网络的训练本质上是调整各节点权重和偏置参数的过程。现代神经网络包含数百万个此类参数,其训练采用梯度下降优化算法:从随机初始配置出发,通过前向传播计算预测值后,利用损失函数评估预测误差,再通过反向传播算法沿误差减小方向微调参数(图8)。由于内存限制和算法优势,参数更新通常采用随机梯度下降法——每次迭代随机选取训练数据子集进行计算。经过多轮训练后,网络参数将趋于使模型准确率最大化的最优值。

图8:学习过程。现代深度神经网络权重参数可达数十亿量级。(a)随机初始化的参数通过(b)梯度下降优化算法逐步调整。当输入训练样本时,损失函数量化预测值与目标的偏差,所有参数沿损失最小化方向微调。

深度卷积神经网络

深度神经网络的特征组合能力源于自然图像的普遍特性:局部特征和规律占主导地位,因此复杂结构可由小型局部特征构建而成。卷积神经网络(CNNs)利用这一特性,能够比多层感知机(MLPs)更高效地处理更大规模、更具变化的输入数据。与CNNs不同,当目标物体在形状、方向和位置上存在变化时,多层感知机表现较差,因为它们必须为由此产生的多种特征排列编码冗余表示。

另一方面,CNN通过卷积运算使每个特征检测器遍历图像的每个部分,从而对这些变化具备一定的鲁棒性。每个特征检测器仅需检测其直接输入范围内的局部特征,这对自然图像处理已足够。因此,深度CNNs充分利用自然图像的组合结构特性,使得图像中物体的位移和形变不会显著影响网络的整体性能。它们通过基于以下组件的高效模型架构来解决图像分类等复杂任务:卷积运算、激活函数、池化操作和softmax函数。

卷积运算
这类网络依赖卷积操作:即滤波器(核)对输入数据局部邻域的线性运算(图9a)。PACS工作站中常见的图像锐化/平滑滤波器均采用此类操作。特征滤波器通常由小型权重网格(如3×3)定义,若输入包含n个通道(如不同颜色通道),则滤波器尺寸为n×3×3。
由于特征可能出现在图像任意位置,滤波器权重在全图范围共享,从而用更少参数建模图像特征,提升模型效率。通常每层会学习多个不同卷积滤波器,生成多张特征图分别突显输入图像或前层隐藏层的不同特性(图9b)。

图9:卷积运算。若每个神经元直接处理512×512图像的所有像素将消耗巨大内存。实际学习的是称为卷积的专用滤波器参数,该数学运算描述图像局部邻域与称为核的小型学习参数阵列的乘积。(a)展示3×3核对图像的卷积操作,图像像素与核值(红)相乘求和得到蓝像素值,该操作遍历全图。(b)通过学习有意义的核,此运算可模拟视觉皮层提取边缘和角点等特征的能力。卷积是CNN在图像分割与分类等任务中取得巨大成功的关键组件。

激活函数
深度神经网络的核心组件是非线性激活函数,其作用于卷积等线性运算的输出端。通过层级堆叠,激活函数将输入映射为线性分类器可分离的表征。该函数受生物神经元基础行为启发,在神经网络层中起特征选择作用。早期采用具有生物合理性的Sigmoid和双曲正切函数,现代CNN隐藏层多使用整流线性单元(ReLU)——对正输入保持线性通过,对负输入输出零值。
下采样
CNN的另一关键组件是下采样(池化)操作,将特征图激活值聚合为低分辨率特征图(图10a)。该操作能扩大后续滤波器的有效感受野,结合卷积运算还可降低模型对物体微小位移的敏感性——深层网络逐渐依赖空间分辨率更低但上下文更丰富的信息。下采样还能减少模型内存占用,例如2×2池化算子可使特征图尺寸缩减四分之三。最大池化是最常见形式,其传播池化区域内的最大激活值到低分辨率特征图。连续池化操作产生分辨率递减但目标结构信息更丰富的特征图(图10b)。

图10:CNN通过堆叠卷积层创建视觉特征的层级表征。为捕获更大视野,特征图通过下采样逐步缩减空间尺寸。(a)最大池化层通过仅传递最大激活值实现下采样,使后续卷积层对目标物体的微小位移或形变更具鲁棒性。(b)增强CT肾脏下采样表征展示,该操作不仅大幅降低内存需求,还使网络对目标器官的形状位置变化具有适应性。

卷积神经网络

最早采用反向传播的CNN用于手写数字识别,其设计灵感来自能通过简单细胞层与复杂细胞层组合实现视觉模式识别的Neocognitron网络。Neocognitron的生物学基础源于Hubel和Wiesel对视觉初级皮层两种细胞的研究,该成果荣获1981年诺贝尔生理学或医学奖。

CNN能构建空间范围逐级增大的特征:输入层附近只需关注卷积核捕获的局部特征,像素间远距离相互作用较弱;网络各表征层均遵循此规律。随着网络层深增加,特征空间位置表征越粗糙(源于下采样/池化),深层卷积核处理的空间尺度越大。卷积层与激活函数负责特征图变换,下采样/池化层降低空间分辨率(图11)。典型分类网络中,接近输出端的粗糙特征表征通常通过全连接层转为向量形式——该层每个神经元与前一层的全部神经元相连,支持对图像整体内容的推理。分类任务中,神经网络输出节点可视为各类别的未归一化对数概率,CNN末端的softmax函数将其归一化为类别概率的范畴分布。

图11:整合前述概念的总体流程图。输入图像(左)经过系列卷积核运算生成包含边缘/角点等低级特征的堆叠特征图,经最大池化下采样后继续卷积生成器官部件等高级特征。交替堆叠卷积与池化层直至网络深度足以捕获任务相关图像结构,最终将高级特征展平为向量进行分类或回归。

由于复杂性与特征学习能力,神经网络常被视为’黑箱’。但通过特定策略可理解训练后CNN的决策机制:例如通过检查引致最大激活的图像感受野,可洞察特定特征图的作用(图12)。可观察到低级特征图对各类边缘/角点激活,中级特征图对器官部件激活,高级特征图则封装整个器官与大结构信息。此外,最终分类层前的网络末端(pre-softmax层)将整图表示为高维特征向量(如4096维),通过t-随机邻域嵌入(t-SNE)等降维技术投影至二维空间可视化(图13),该技术能保持高维空间中的欧氏距离关系。
图12:多层卷积与池化堆叠使模型学习到特征的层级表征。靠近输入层的神经元(a)对少量像素形成的边缘/角点激活,深层神经元则对表征器官特征部件乃至整体器官的边缘组合激活(b-d)。每个表征层级神经元的感受野逐级扩大,最终分类任务依赖整合多尺度信息的大感受野丰富特征集。

图13:t-SNE可视化图展示带器官标签的超声训练图像映射到4096维向量的分布。重叠区域对应潜在分类混淆区,如左右肾纵切面及右肝叶纵/横切面间存在显著重叠。此类图谱可揭示神经网络分类性能。

模型训练

数据

训练模型首先需要数据。根据所需训练数据类型,机器学习方法可分为两大类:监督学习与无监督学习。监督学习要求数据集中每个样本都带有标签(如肾脏肿瘤分类系统中某幅图像标注为’嗜酸细胞腺瘤’)。无监督学习则处理无标注数据,模型通过发现数据内在结构进行自动聚类,这些结构后续可用于分类或分割等任务。但完全无监督学习仍是开放性问题,实际应用中较难获得理想效果。半监督学习作为折中方案,结合少量标注数据与大量未标注数据进行训练。

训练深度学习模型所需的数据集规模因任务性质和复杂度而异。虽然数据量越大通常性能越好,但获取高质量标注数据成本高昂——例如由两位专家全职工作一个月才能完成1000例20分钟/例的图像分割标注。附表对比了计算机视觉与医学影像领域的典型数据集规模,前者通常比后者大数个数量级。众包标注虽能降低成本(如乳腺癌细胞有丝分裂活动检测研究),但完全依赖外部标注可能存在质量问题。

对于小规模高质量数据集,数据增强技术能有效扩充样本量。该方法通过对原始图像施加翻转、旋转、平移、缩放、扭曲和弹性形变等保持标签有效性的随机变换,生成更多训练样本。标准实践是将数据划分为三个子集:训练集用于网络参数优化,验证集监控训练过程并进行模型选择(作为测试集性能的最佳代理),测试集仅用于最终模型性能评估。

学习

深度学习:放射科医师入门指南

神经网络设计需要确定众多超参数(非模型学习参数),包括网络拓扑结构、各层滤波器数量、优化参数等。通常采用随机搜索策略选择最优超参数组合,该过程需要训练大量配置方案。模型训练需警惕过拟合现象——当模型在训练集表现良好但验证集性能较差时(图14),表明其记忆了训练数据的特殊统计变异而非学习到普适规律。过拟合常因参数过多导致,可通过降低模型复杂度(如减少参数)或增强数据扩充等手段改善。

图14:训练曲线。神经网络训练包含前向传播图像批次与反向传播损失调整权重的迭代过程。通过绘制每批次的训练损失(趋近0)和准确率(趋近100%)可监控进度。通常每个训练周期结束后验证集评估一次,当验证准确率持续未提升(如5个周期)时终止训练,最终采用验证集最佳表现的模型测试。

技术要求

硬件

现代深度学习模型的端到端训练通常需要庞大的计算量。深度卷积神经网络(CNN)的成功得益于图形处理器(GPU)这种低成本并行计算硬件的发展。虽然GPU最初是为电子游戏开发,但其作为通用并行计算硬件的实用性已得到验证,目前被视为在合理时间内训练大型现代深度神经网络的必备设备。相比传统中央处理器(CPU),GPU通常能带来10至40倍的性能加速,使得包含数千万参数的复杂模型仅需数日即可完成训练,而过去往往需要数周甚至数月。

软件

目前已有多种用于构建和训练多层神经网络(包括卷积网络)的软件框架。诸如Theano、Torch、TensorFlow、CNTK、Caffe和Keras等框架实现了高效底层函数,开发者仅需少量代码即可描述神经网络架构,从而将精力集中于更高层次的架构设计。这些库还能帮助研究者高效利用GPU等计算资源。大多数软件工具均为开源免费项目,这意味着任何人都可以审查代码库并参与贡献。通过自由共享代码、模型、数据和研究成果,学术界与工业界正以前所未有的速度协同攻克机器学习难题。

深度学习临床应用

在自然图像领域取得突破后,深度学习迅速应用于医学影像处理。最新综述显示已有超过300项研究将深度学习应用于放射摄影、CT、MR等模态的医学图像。本节重点介绍分类、分割和检测三大任务的临床应用。

分类任务通过提取判别性特征将图像归入预定义类别。典型流程包括:输入图像→特征提取→分类器→类别概率输出。评估采用准确率、ROC曲线下面积等指标。应用实例包括:胸部X线片肺炎分类、乳腺X线摄影良恶性判别、脑胶质瘤分子亚型预测等。最新进展显示,深度学习模型在糖尿病视网膜病变筛查任务中已达到专家水平。

分割任务旨在识别图像中特定解剖结构或病灶的精确边界。常用U-Net等编码器-解码器架构,通过跳跃连接融合多尺度特征。评估采用Dice系数、Jaccard指数等重叠度指标。典型应用包括:CT肝脏肿瘤分割、MR前列腺分区、超声胎儿结构测量等。2018年MICCAI挑战赛最佳方案在多种器官分割任务中Dice系数超过0.9。

检测任务需定位图像中的特定目标并分类。主流采用Faster R-CNN等两阶段检测器或YOLO等单阶段检测器。评估指标包括平均精度(mAP)、敏感度等。临床应用涵盖:胸部X线片肺结节检测、乳腺超声肿块定位、CT骨折识别等。最新研究表明,基于深度学习的肺结节检测系统可减少放射科医师47%的漏诊。

未来发展方向包括:开发标注高效的半监督算法、提升模型可解释性、实现多中心数据联邦学习等。尽管存在数据隐私、标注一致性等挑战,深度学习正逐步改变医学影像分析范式,其与放射科医师的协同工作模式将成为智慧医疗的重要组成。

分类

任务描述—放射学中的分类任务通常指通过图像或感兴趣区域预测患者层面的某个目标类别(如病变类型或病症)。该任务涵盖广泛的应用场景,从判断疾病存在与否到识别恶性肿瘤类型均属此列。

训练流程—基于深度学习的解决方案通常采用卷积神经网络(CNN)。输入图像经过前向传播后,softmax层将生成类别概率向量,其中最高值即代表预测类别。

与传统计算机视觉和机器学习算法相比,深度学习算法需要海量数据支撑。该领域面临的主要挑战之一是标记医学影像数据的稀缺性。虽然可通过众包方式标记数百万张自然图像,但获取精准标记的医学影像既复杂又昂贵。此外,考虑到临床实践中遇到的病理情况谱系广泛,构建平衡且具代表性的训练数据集极具挑战性。

为应对标记图像稀缺问题,常规策略是先在数据充足的任务上预训练CNN(称为迁移学习技术,见图15)。由于基于ImageNet挑战赛数据集预训练的模型现已广泛可用,许多研究者通过复用预训练的通用架构并微调网络最后几层,使其适配相对小型专业的数据集,从而取得了优异性能。

图15:迁移学习。医学图像CNN训练面临标注数据稀缺的挑战。迁移学习通过初始化大型数据集预训练权重(仅需微调末尾全连接层-浅蓝框)解决该问题,其假设基础图像特征在不同数据集间具有共享性。蓝框高度/宽度分别代表当前层生成特征图的分辨率/数量。Cv=卷积,MP=最大池化。

评估指标—模型性能通常采用准确率评估:即正确预测样本占全部预测的比例。对于多目标分类任务,图像分类竞赛中常报告top-five准确率——该指标评估正确标签是否位列预测概率最高的五个类别之中。另一种可视化神经网络性能的方法是生成混淆矩阵,对比报告预测标签与真实标签。

应用实践—美国国立卫生研究院采用深度学习系统对影像归档与通信系统(PACS)和放射学信息系统(RIS)进行大规模数据挖掘,旨在确定影像与报告间的语义关联。研究者结合无监督与有监督学习方法,基于放射科医师为诊断参考选取的216,000张二维关键图像进行系统训练。将ImageNet自然图像的迁移学习应用于医学影像模态(主要为CT和MR成像)后,图像分类性能得到提升。

面对新采集的患者影像数据,该系统能预测与图像内容相关的语义标签(主题与关键词),其top-one和top-five准确率分别达到61%–66%和93%–95%。虽然当前语义精度水平尚不足以支持临床实践应用,但这些方向展现出广阔的发展前景。

分割

任务描述—分割可定义为识别构成目标器官或结构的像素或体素。从机器学习视角看,这属于像素级分类任务,旨在判定给定像素属于背景还是目标类别(如前列腺、肝脏、病灶)。由此生成的图像掩膜可用于虚拟手术规划、放射治疗计划或病灶定量随访等多种定量分析。

训练流程—图像分割存在两种深度学习方案。其一是基于图像块的方法:对图像块中心像素进行分类,通过滑动窗口方式将模型应用于整幅图像,逐块分割中心像素逐步构建输出掩膜。这种简单方案需多次模型评估才能获得单幅图像的分割图,计算效率较低。

其二采用直接生成全分辨率分割输出的CNN(图16)。典型CNN由卷积层、下采样层和全连接层组成的收缩路径构成,而该分割模型用扩张路径替代全连接层,可恢复下采样过程中丢失的空间信息。扩张路径通常包含:(a) 负责提升特征图空间分辨率的上采样操作;(b) 用于传递网络收缩路径信息(绕过深层)的跳跃连接。这种U型架构被称为U-net,目前广泛应用于医学图像分割。

图16:病灶分割。U-net架构通过扩展最大池化层(MP)为对应上采样层(US)使输出维度匹配输入图像,跳跃连接桥接收缩路径(左)与扩张路径(右)。Cv=卷积。

评估指标—逐像素分类准确率不适用于分割评估,因图像中多数像素不包含目标类别(如肝脏)。该指标既无法反映不同病灶的尺寸差异,也不能真实体现分割质量。因此研究者多采用专家标注真实分割掩膜与预测掩膜的交并比相关指标。医学领域常用Dice分数作为评估标准:当两掩膜完全无重叠时为0,完全重叠时为1。

应用实践—有研究采用级联全卷积CNN实现CT/MR影像的肝脏及肿瘤自动分割。首个网络分割肝脏,第二个网络分割肝内病灶。基于100例CT扫描训练后,肝脏分割Dice分数超过94%。值得注意的是,该模型对38例MR检查同样表现稳健。

另有研究利用三维CNN实现MR图像前列腺自动分割。训练数据来自前列腺MR图像分割挑战赛的50例MR检查。采用长短残差连接的架构将Dice分数提升至81%-87%。

检测

任务描述—肺结节、肝脏病灶或结肠息肉等局灶性病变的检测是放射科医师进行特征分析的前提。分类任务预测标签,检测任务则预测潜在病变位置(通常以兴趣点、区域或边界框形式呈现)。从机器学习角度看,这三种输出形式对应三种不同检测方法。

可视为分类任务:对兴趣点周围预选候选图像块进一步分类为阳性(如恶性病灶)或阴性(良性病灶、正常实质)。如前所述,也可直接视为分割任务——将掩膜中独立连通区域视作检测样本。最后可视为回归任务:直接从输入图像推断目标物体边界框坐标(该技术广泛应用于自然图像)。本节聚焦第一种方法。

训练流程—体积数据检测/分割中的常见挑战是目标类别样本稀少而背景类别样本量大且多变。常用策略是从原始图像提取小块生成替代数据集,均衡采样目标类别与背景类别图像块以缓解类别不平衡问题。

CNN在此类块数据集上按分类任务训练后,可:(a)以滑动窗口方式应用于输入图像;(b)作用于经敏感候选筛选方法预选的图像块子集(图17)。通过将检测任务转化为分类问题,可复用预训练架构在小数据集上取得良好性能。

图17:基于图像块的训练。医学检测任务通常通过从原图提取小块构建替代数据集训练卷积网络。容积数据可采用3D块或十字形2.5D块等采样策略整合三维上下文信息。为缓解类别不平衡,通常对两类样本均衡采样。与分类任务类似,CNN可在现有数据库预训练后针对目标应用微调。Cv=卷积,FC=全连接,MP=最大池化。

评估指标—此场景下准确率参考价值有限,因图像大部分为正常组织(真阴性),易掩盖漏诊病灶(假阴性)。通常组合报告不考量真阴性的指标:灵敏度(真阳性率)、阳性预测值(计算机科学称精确率)、F分数及每例平均假阳性数。为探索模型不同操作点的权衡,常采用自由响应受试者工作特征曲线(FROC)替代传统ROC曲线,该曲线绘制不同阈值下病灶定位率与非病灶检测率的关系。

应用实践—有研究采用深度CNN实现筛查乳腺X线片中恶性病灶自动检测。训练集包含筛查项目获取的44090幅乳腺图像。CNN的ROC曲线下面积(AUC)为0.93,优于参考CAD系统(0.91)及三位医师(0.84-0.88)。另一团队报道深度CNN的AUC为0.82,介于放射科医师(0.77-0.87)之间,但医师结果普遍灵敏度较低而特异度较高。

有研究采用双CNN级联实现磁敏感加权MR图像脑微出血自动检测。首阶段全卷积网络生成高灵敏度候选位置概率图(通过对假阴性样本持续训练实现);第二阶段3D CNN仅基于平衡采样的3D图像块和假阳性样本(如流空效应、钙化、海绵状血管瘤)训练实现高特异度。该策略在保持每例2.74个假阳性的同时达到93%灵敏度。

CNN还应用于多种检测任务:门控CT血管造影的冠状动脉钙化检测、CT肺结节检测及淋巴结检测。为整合三维模态的空间上下文信息,可聚合不同解剖方位平面采样的图像块作为多通道输入。

深度学习的局限性

尽管深度学习近期取得诸多成功,该技术的应用仍存在局限。首先,深度学习并非适用于所有数据分析问题的最佳机器学习技术。对于数据结构清晰或最优特征明确的问题,逻辑回归、支持向量机和随机森林等更简单的机器学习方法通常更易实施且更有效。

即使在CNN已成为主导方法的计算机视觉领域,深度学习也存在重要局限。最突出的限制在于深度学习是极度数据饥渴的技术——从头开始训练大型网络权重需要海量标注样本才能实现准确分类。但与传统计算机视觉和机器学习方法不同,深度学习能随着数据集规模扩大持续提升性能。

如前所述,迁移学习作为缓解数据需求问题的潜在有效方案近期受到研究关注。然而当前应用迁移学习的项目通常复用基于ImageNet(包含大量低分辨率二维彩色照片的标注数据集)训练的权重。放射学应用需要处理更高分辨率、更高位深的容积图像,目前尚缺乏现成的预训练网络。

因此,构建大型标注公共医学影像数据集是推动深度学习在放射学应用的关键步骤。这一工作的障碍包括临床图像的隐私问题,以及获取多位专家或病理诊断的精准标注所需成本与难度。不过目前已有多个创建标注医学影像大型数据集的计划正在推进,例如癌症影像档案库。

这些标注医学影像大型数据库的建立及相关挑战将成为推动医学影像深度学习研究的基础。深度学习方法的进一步突破也可能显著降低系统训练的数据需求——毕竟人类进行准确图像分类与判读所需的标注样本量远少于当前深度学习系统。

深度学习系统的另一局限是其相比其他机器学习方法透明度较低。尽管反卷积和降维等可视化技术具有实用价值,但仍难以明确定义大型网络各组成部分的功能,这使得在没有大量全面测试样本的情况下,界定网络局限性或调试图像判读错误极具挑战性。

有人可能认为准确的’黑箱’系统优于不透明的透明系统,且人类专家的图像分析对非专业人士同样不透明。然而目前审视人类专家的思维过程,远比解读具有数百万权重的深度神经网络内部机制更为容易。此外,自动化系统若能清晰论证其分析依据,将极大促进其在涉及患者健康的关键决策中被广泛接受。

当前深度学习系统擅长模拟纯粹基于模式识别的人类判断,即从既往训练中辨识最具信息量的模式。但有限的训练集无法完全涵盖临床实践中可能遇到的各种病例。更复杂的放射学判读问题通常需要结合病理过程知识进行演绎推理,并选择性整合既往检查或患者健康记录中的信息。目前尚不清楚如何训练深度学习系统来模拟这些更复杂的思维过程。

未来方向

深度学习在放射学实践中的角色定位仍有待明确。可将其视为具有多种临床应用场景的新型诊断测试。分诊模式可在后台运行自动化图像分析系统,用于检测危及生命的病症或筛查大量临床、基因组或影像数据。替代模式可利用这些系统生成图像说明,甚至实现影像检查的全自动判读。附加模式则通过执行耗时任务(如评估肿瘤总负荷的病灶分割)为放射科医师提供支持。

结论

人工神经网络自20世纪50年代起便应用于人工智能领域。训练技术与网络架构的进步,结合近期可获得的海量标注数据及强大并行计算硬件,共同推动了深度学习算法的快速发展。深度学习是一种强大且通用的人工智能技术,能解决以往需要人类智能的图像检测、识别与分类任务。将深度学习技术引入放射学领域,有望协助放射科医师完成多种诊断任务。熟悉基于深度学习的计算机辅助技术的概念、优势与局限,对保障患者获得最佳诊疗至关重要。

文章编译自文献:Deep Learning: A Primer for Radiologists. RadioGraphics 2017; 37:2113–2131 doi:10.1148/rg.2017170077