News

新闻动态

团队基于多年航天镀膜经验积累,具备丰富的光谱滤光片技术储备

发布时间:2021-09-14 发布者:谱视界 来源:谱视界
最新

基于深度学习肺癌细胞分类研究

  精准医学和人工智能的兴起,为医学高光谱研究提供了肥沃土壤和强大工具,也为高光谱技术新的领域应用指明了方向。

  高光谱成像技术(Hyperspectral Imaging,HSI)是在多光谱遥感技术的基础上发展而来,融合了光谱分析和光学成像两项传统光学诊断方法,具有“图谱合一”的特点。高光谱意味着更宽的光谱范围,更高的光谱分辨率以及更多的光谱通道数,从而能够实现光谱范围内的连续成像。HSI 初期主要应用于航空遥感,如环境监测和军事侦察;后来逐渐从军事领域扩展到商业应用,如食品安全检测和工业质量控制;随着近几年高光谱成像技术的发展以及仪器小型化,HSI已在农作物监测、考古壁画保护、物证鉴定和医疗健康等领域展现了广阔的应用前景。

  对于医学应用来说,光谱分析可以获得生物组织样本上某一点在感兴趣波长范围的完整光谱,对不同病理组织的化学组成和物理特征进行分析;而光学成像技术则提供了各组织结构的空间分布信息,实现了不同病理结构的直观呈现。医学高光谱成像将二维图像信息与一维光谱信号结合为一个三维数据立方体,它不仅包括了丰富的空间信息,同时包含了反映生物组织特性的光谱信息,这样能准确区分出不同的病理组织成分。因此,医学高光谱成像技术就是将传统的高光谱遥感技术应用于近距离的医学诊断当中,是建立在临床医学、影像学、病理组织分析等多学科之上的一门综合交叉技术。

  卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。

  卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络,卷积神经网络需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。

   

1试验材料、设备和方法

1.1试验材料

  本研究以肺癌细胞为研究对象采取高光谱数据。

1.2试验设备

  显微高光谱血细胞数据采集采用无锡谱视界科技有限公司lambda显微高光谱成像系统,该系统主要是由显微镜、卤素光源、lambda相机等。

 

1.3试验方法

  使用2D-CNN和3D-CNN对显微高光谱数据进行分类研究。

  基础的CNN由卷积(convolution),激活(activation), and 池化(pooling)三种结构组成。CNN输出的结果是每幅图像的特定特征空间。当处理图像分类任务时,我们会把CNN输出的特征空间作为全连接层或全连接神经网络(fully connectedneural network, FCN)的输入,用全连接层来完成从输入图像到标签集的映射,即分类。当然,整个过程最重要的工作就是如何通过训练数据迭代调整网络权重,也就是后向传播算法。目前主流的卷积神经网络(CNNs),比如VGG, ResNet都是由简单的CNN调整,组合而来。

  二维卷积常用在计算机视觉、图像处理领域(在视频的处理中,是对每一帧图像分别利用CNN来进行识别,没有考虑时间维度的信息);假设原始图像 shape 为14*14*3(其中3为3个通道),使用32个大小为5*5*3(其中3为深度,与通道数相同)的卷积核对其进行卷积,得到特征图的shape为10*10*32;

  上图的三维卷积是对连续的三帧图像进行卷积操作(堆叠多个连续帧组成一个立方体,在立方体中利用三维卷积核进行卷积,这样得到的每个特征map都与上一层中3个邻近的连续帧相连)

  使用Tensorflow的成熟架构搭建深度学习网络,搭建深度学习网络遵循CBAPD的原则,C是代表卷积,B是代表批标准化,A代表激活函数,P代表池化,D是dropout层。最后在加上全连接层。

2数据分析

  如图4所示,是显微高光谱的肺癌的原始图像。鉴于没有专业医生的标定,因此仅凭分析人员的先验知识进行分类,黑色的按照黑色归一类,红色细胞为红色的一类,最大的黑色大块为一类。图5为肺癌标定的图像。图6为肺癌的掩膜的黑白图像。图7为肺癌掩膜的彩色图。

2.1 2D-CNN分类

  每一类样本选取2000个进行学习,剩余样本用于预测。使用2D-CNN进行分类,由表2可以看出训练集的准确率为0.9938,验证集的准确率为0.9617,总体分类精度为0.9617,平均准确率为0.9169,Kappa系数为0.9156。

表2   分类精度表

训练集准确率

验证集准确率

总体分类精度OA

平均准确率AA

Kappa系数

0.9938

0.9617

0.9617

0.9169

0.9156

 

  表3为混淆矩阵,每一行之和表示该类别的真实样本数量,每一列之和表示被预测为该类别的样本数量,第一行说明有23007个属于第一类的样本被正确预测为了第一类,有333个属于第一类的样本被错误预测为了第二类,有755个属于第一类的样本被错误预测为了第三类。图8为混淆矩阵每一列该种类正确预测样本数与被预测为该类别的样本数量之比的图。

表3   混淆矩阵

第一类

第二类

第三类

23007

333

755

6

2056

11

163

28

7519

  图 9 是原始标定的类别图,图 10 为 2D-CNN 的预测后的类别图,对比图 9 可以看出,除了一些像元像元有预测错的,总体与标定的类比图还是一致的,可以达到一个较好的分类精度。

2.2 3D-CNN分类

  与2D-CNN相同,每一类样本选取2000个进行学习,剩余样本用于预测。使用3D-CNN进行分类,由表2可以看出训练集的准确率为0.9958,验证集的准确率为0.9934,总体分类精度为0.9934,平均准确率为0.9911,Kappa系数为0.9850。

 

表4   分类精度表

训练集准确率

验证集准确率

总体分类精度OA

平均准确率AA

Kappa系数

0.9958

0.9934

0.9934

0.9911

0.9850

 

  表5为混淆矩阵,每一行之和表示该类别的真实样本数量,每一列之和表示被预测为该类别的样本数量,第一行说明有23910个属于第一类的样本被正确预测为了第一类,有8个属于第一类的样本被错误预测为了第二类,有181个属于第一类的样本被错误预测为了第三类。图8为混淆矩阵每一列该种类正确预测样本数与被预测为该类别的样本数量之比的图。

表5   混淆矩阵

第一类

第二类

第三类

23910

8

181

9

2063

1

28

0

7682

  图12是原始标定的类别图,图13为3D-CNN的预测后的类别图,对比图12可以看出,相对于2D-CNN,得精细找才能看出错分像元。总体与标定的类比图还是一致的,可以达到一个较好的分类精度。

3总结与展望

  由于没有医生准确标定,只是凭借肉眼看来标定数据和类别,存在较大的偏差,只是验证了该方法可行性。总体来说,2D-CNN和3D-CNN对显微高光谱进行类别判定都有较高的精度。3D-CNN的精度优于2D-CNN,可能是多了一维空间的操作,但是2D-CNN的训练速度远小与3D-CNN。可以在较短的时间内训练出精度较好的模型。总体来说,使用深度学习可以对肺癌细胞进行一个较好的判别。

相关推荐