作者:朱瑶 北京积水潭医院
本研究探讨了基于深度学习的颞下颌关节紊乱病(TMD)患者磁共振成像(MRI)自动检测椎间盘前移位(ADD)的有效性。收集了来自861名男性和399名女性(平均年龄37.33岁)的2520名颞下颌关节的矢状位MRI图像 ± 18.83岁)。提出了一种基于卷积神经网络的深度学习算法。应用数据增强和Adam优化器来降低深度学习模型过度拟合的风险。基于曲线下面积(AUC),将模型和人类专家之间的预测性能进行比较。微调模型显示出良好的预测性能(AUC = 0.8775)和可接受的准确度(约77%)。比较从头开始模型(0.8269)和冻结模型(0.5858)的AUC值表明,与微调模型相比,其他模型的性能更低。在Grad CAM可视化中,在判断ADD时,微调方案更多地关注TMJ盘,稀疏度高于从头开始方案(84.69%对55.61%,p < 0.05). 使用不同数据增强技术的三个微调集合模型显示出83%的预测准确率。此外,当TMD患者按年龄(0.8549–0.9275)和性别(男性:0.8483,女性:0.9276)划分时,ADD的AUC值较高。尽管集合模型的准确性高于人类专家,但差异不显著(p = 0.1987–0.0671). 从预先训练的权重中学习可以使微调模型优于从头开始的模型。在Grad CAM分析中诊断TMJ ADD的微调模型的另一个好处是,与从头开始的模型相比,不需要的梯度值被去激活,以提供更清晰的可视化效果。Grad CAM可视化也与通过关节盘区域的重要特征学习的模型一致。使用不同数据的三个微调模型的集合进一步提高了精度。该模型的主要优点是与人类专家相比具有更高的特异性,这可能有助于预防真正的阴性病例,并在性别和年龄上保持其预测准确性,这表明了一种广义预测。
颞下颌关节紊乱(TMD)是颞下颌骨关节(TMJ)和咀嚼肌疼痛和功能障碍的总称。TMJ噪音、张口受限、耳鸣、耳痛、颈部和肩部疼痛以及头痛可能伴有TMJ和咀嚼肌肉区域的TMD疼痛。TMD非常常见,39%的世界人口至少有一种TMD症状或体征,25%的人有与TMD2相关的疼痛。女性TMD的患病率是男性的两倍以上。与其他关节疾病不同,TMD的发病率随年龄增长而增加,但在儿童和青少年中的发病率较高,通常发生在20-45岁的年轻人中。TMD有多因素病因,包括生理、心理、遗传和激素等因素。TMD的常见原因包括微创,如紧握和瘀伤、大创伤、心理挑战(包括焦虑和抑郁)、睡眠问题和营养不良。TMD的复杂临床特征需要综合治疗。
颞下颌关节是人类最复杂的关节之一。TMJ是双侧的,包括下颌髁和颞骨的关节面。位于上关节间隙和下关节间隙之间的骨间TMJ椎间盘具有高胶原含量,具有耐用性和刚性,有助于下颌骨旋转和平移,并作为咬合力的缓冲。TMJ移位,也称为内椎间盘错位,是关节盘、下颌髁和下颌窝之间的异常关系。虽然最常见的椎间盘移位发生在下颌髁的前方,但也可能发生在后方。因此,研究主要集中在颞下颌关节的前椎间盘位移(ADD)上。独特的是,由于其复杂的解剖特征,TMJ椎间盘没有直接的神经分布或血管形成。或者,椎间盘后组织是TMJ椎间盘的后部附着物,其特征是对病理生理过程至关重要的各种血管和神经。然而,TMJ椎盘位置或形状的改变可以进一步促进TMD的发展。
TMJ椎间盘移位的患者可能有症状或无症状。TMJ椎间盘移位可能只会导致TMJ噪音,如咔哒声或爆裂声,而疼痛可能会导致张口受限或下颌骨活动受限。先前的MRI研究发现,33–41%的无症状关节出现ADD 。口腔颌系统适应TMJ椎盘位置的变化,并进行适应性重塑,从而导致无痛、无症状的关节炎
我们检查了CNN模型对ADD和非ADD自动预测的适用性,并根据TMD患者的年龄和性别以及CNN模型的方案调查了预测性能的差异。最近,深度学习计算范式被视为人工智能社区机器学习的黄金标准,CNN是最常用的深度学习网络类型,(2)人类和CNN模型之间的预测性能是否存在差异,以及(3)是否可以通过CNN特征学习ADD与非ADD的区分信息,而无需预先训练权重。用预先训练的权重训练的微调模型显示出最佳AUC(约0.88);然而,从头开始的模型也表现得相当好(AUC > 0.83),这证实了我们的假设,即不使用预先训练的权重,ADD信息在CNN特征中被成功学习。与人类专家相比,CNN模型具有更高的预测特异性。使用不同数据扰动的三个微调模型的集合也显示出了从77%到83%的改进的准确性。
TMJ椎间盘移位是TMJ噪音、下颌运动受限和TMD进展的最常见原因。因此,准确诊断非常重要。伴有和不伴有ADD的关节发生骨关节炎的可能性分别为2.73和8.25倍。此外,完全ADD增加了10.88倍的骨关节炎风险。因此,椎间盘移位最初以TMJ区域的咔哒声或爆裂等症状开始。如果这个问题没有得到解决,就有可能出现TMD相关疼痛、下颌功能受限、头痛、各种心理问题和睡眠问题。基于人工智能深度学习的CNN模型和训练有素的人类专家的ADD预测准确度没有显着差异。尽管微调模型的灵敏度低于人类专家的灵敏度,但集成模型提高了灵敏度,并达到了与人类专家相似的精度水平。在特异性方面,CNN模型表现出色,差异为10%(94%,85%对68-72%)。高特异性表示识别真阴性的高概率;这是期望的,因为机器更准确地识别没有ADD的患者。CNN模型可以使TMD诊断更有效。由于在人类中确定ADD存在或不存在的灵敏度较高,人类专家适当使用这些机器可以提高诊断准确性。
展开阅读全文