机器之心分析师网络 作者:Jiying 编辑:Joni 这篇文章围绕机器学习(ML)和功能性磁共振成像(fMRI)的应用问题,以三篇最新的研究型论文为基础,探讨基于统计学中ML的fMRI分析方法。 本文主要讨论的是机器学习(ML)和功能性磁共振成像(fMRI)的应用问题。fMRI主要用来检测人在进行各种脑神经活动时(包括运动、语言、记忆、认知、情感、听觉、视觉和触觉等)脑部皮层的磁力共振讯号变化,配合在人脑皮层中枢功能区定位,就可研究人脑思维进行的轨迹,揭示人脑奥秘。其基本原理是利用MRI来测量神经元活动所引发之血液动力的改变。所以,利用ML连接fMRI图像,以了解人脑正在观察和思考的物件是理论上可行的。以本文讨论的问题为例,神经科学家现在可以通过像数据科学家一样运行计算模型来预测并准确地将神经功能与认知行为联系起来。不过,这些技术与人工智能模型有着相同的偏见(biases)和局限性(limitations),需要严格的科学方法加以应用〔1〕。 虽然神经科学家在20世纪初就注意到了大脑血流有明显的变化,但是却一直没有找到合适的方法来测量这些变化。20世纪80年代出现了一种有效的方法:正电子发射体层摄影(术)(positionemissiomtomography,PET)。有了这种技术,研究人员能够通过放射性追踪和检测光子(phonto)发射来观察神经元活动的变化。由于这些光子在神经元消耗最多葡萄糖的地方降解得最多,因此它们可以显示出神经元的活动。然而,早期使用这种方法时面临着一个问题:每个人的大脑都有不同的尺寸和结构,差异和变化非常大。此外,PET扫描的空间和时间图像分辨率非常低。它们检测的区域至少有一毫米宽,需要10秒钟才能收集到足够的数据来形成图像。所以该技术的早期应用范围相当有限。 磁共振成像(magneticresonanceimaging,MRI)可以在原子核振动的基础上构建更准确的大脑图像。由于MRI扫描仪以不同的速度向许多位置发送信号,它可以通过解码不同的频段来成像。不过在MRI成像时需要使用一种造影剂,这种造影剂可能对受试者的健康有危险。幸运的是,在注意到核磁共振信号对大脑中血液循环的含氧量敏感后,许多研究小组在90年代提出了检测大脑活动的功能性磁共振成像(fMRI)的概念。 神经科学家的传统方法是通过发现最活跃的信号区域来推断统计学上的选择性区域。现代研究目标则是推断出选择性区域的共性活动模式。研究人员发现,神经网络并不会对一个物体有特别的反应,但从统计学角度上分析,却分布着对许多物体的不同比例的反应。这是一种统计学上的相关关系。此外,现代神经科学家的另一个研究目标是通过训练一个计算模型,从更大的数据集中预测人类感知的物体。这种基于机器和统计学习的方法旨在根据神经模型的交叉验证来预测人们的思维。 但是,尽管取得了一些成功,但是对这些基于统计学的科学推论我们仍需要谨慎分析和讨论。fMRI分析测量了数十万个称为体素(voxel)的小方块。为了从大脑的某个部分找到有意义的反应,而不是由于随机的变化,必须进行统计测试。因此,需要衡量真假阳性的风险,如研究人员在他们的一个实验中发现了一个重要的反应,但当这些实验被多次重复时,这一反应信号在一般的数据中却变得不明显。因此,人们必须能够将实验重复几百次甚至几千次,才能确定结果。使用fMRI统计的另一个问题是所谓的非独立性(nonindependence)统计错误。研究人员倾向于选择最适合他们研究的数据和结果。例如,在所有的统计测试中,他们可能会关注那些体素显示出最强关联性的实验,而这相对来说可以使他们的实验结果好得多。 我们在这篇文章中,围绕上面的主题,以三篇最新的研究型论文为基础,探讨基于统计学中ML的fMRI分析方法。 1、通过深度学习对人脑的任务状态进行解码和映射 本文是来自中科大和北大的研究人员2020年发表在Humanbrainmapping中的一篇文章〔2〕。本文重点讨论基于支持向量机(SVM)的多变量模式分析(multivariatepatternanalysis,MVPA)在基于人脑功能磁共振成像(fMRI)的特定任务状态解码中的应用。本文作者提出了一个深度神经网络(DNN),用于从大脑的fMRI信号中直接解码多个大脑任务状态,无需人工进行特征提取。 关于根据脑功能成像数据解码和识别人脑的功能的问题,SVMMVPA是一种应用最为广泛的方法。SVMMVPA是一种监督学习技术,可同时考虑多个变量的信息。不过,SVMMVPA在高维数据中的表现欠佳,往往依赖于专家选择提取特征的结果。因此,作者在本研究中探索了一种开放式的大脑解码器,它使用的是人类的全脑神经成像数据。相对应的,具有非线性激活函数的DNN的分层结构使其能够学习比传统机器学习方法更复杂的输出函数,并且可以进行端到端的训练。由此,本文提出了一个DNN分类器,通过读取与任务相关的4DfMRI信号,有效解码并映射个人正在进行的大脑任务状态。 1。1方法介绍 1。1。1数据介绍 本研究使用了HCPS1200最小预处理的3T数据版本,其中包含了大量年轻健康成年人的成像和行为数据〔3〕。作者使用了1034名HCP受试者的数据,他们共执行了七项任务:情绪、赌博、语言、运动、关系、社交和工作记忆(workingmemory,WM)。具体用于实验分析的是HCPvolumebased的预处理fMRI数据,这些数据已经被归一到MontrealNeurologicalInstitutes(MNI)152空间。七项任务中的大部分是由控制条件(例如,WM任务中的0回位和情感任务中的形状刺激)和任务条件(例如,WM任务中的2回位和情感任务中的恐惧刺激)组成的。在每个任务中,只有一个条件被选为下一个步骤。对于只有两个条件的任务(情感、语言、赌博、社交和关系任务),与任务关联度大的条件优先于其他条件。WM和运动任务包含一个以上的任务条件,作者则是从列表中随机选择一个(WM的2个背部身体和运动的右手)(表1)。 对于每个任务,输入样本是一个连续的BOLD(Bloodoxygenleveldependentimaging)序列,涵盖了整个区块和区块后的8s内的样本,包括血流动力学反应函数(hemodynamicresponsefunction,HRF)的后信号。此外,将每个BOLDvolume从9110991剪裁到759381,以排除掉不属于大脑的区域。因此,输入数据的大小从27759381到50759381(timexyz,TR0。72s)。在所有的任务和受试者中,总共获得了34,938个fMRI4D数据项。 表1。每个任务所选择的BOLD时间序列的细节 1。1。2模型介绍 图1为本文提出的网络模型的完整流程图。该网络由五个卷积层和两个全连接层组成。其中,27759381的数据是通过节1。1。1的预处理和数据增强步骤产生的。第一层使用了111的卷积滤波器,即卷积神经网络(CNN)的结构中最普遍的设定,这些滤波器可以在不改变卷积层的感受野的情况下增加非线性。这些滤波器可以为fMRIvolume中的每个体素生成时间描述符,而且它们的权重可以在训练中由DNN学习得到。因此,采用这种类型的过滤器后,数据的时间维度从27降到了3。在这之后,堆叠一个卷积层和四个残差块以提取高层次(highlevel)特征。本文使用的残差块是通过用一个三维卷积层替换原始残差块中的二维卷积层而得到的。四个残差块的输出通道分别为2的倍数32、64、64和128。这些层的设计方式是:它们的尺寸可以迅速减少以平衡GPU内存的消耗。为了便于网络可视化分析,作者在最后一个卷积层中使用了全卷积,而不是常见的CNN中的池化操作。在卷积层堆叠之后,使用了两个全连接层;第一个有64个通道,第二个进行七路分类(每类一个)。在本文模型中,每个卷积层之后都引入了ReLU函数和BN层,而在最后一个全连接层中采用了softmax函数。 图1。深度神经网络。 该网络由五个卷积层和两个全连接层组成。该模型将fMRI扫描作为输入,并提供标记的任务类别作为输出 对人脑进行特定任务解码面临的一个最大问题是可用数据有限。在其他类似的应用中,可以采用数据增强的方式以基于有限的数据生成更多的数据样本。数据增强的主要目的是增加数据的变化,这可以防止过度拟合并提高神经网络的不变性。与传统图像相反,本实验中的输入图像已经与标准的MNI152模板对齐。因此,在空间域进行数据增强是多余的。考虑到输入数据的不同持续时间,作者在时间域中应用了数据增强,以提高神经网络在这种情况下的泛化能力。在训练阶段的每个epoch中,从每个输入数据项中随机分割出k个连续的TR片段(实验中k27)(图2a)。为了避免报告的准确性出现波动,在验证和测试阶段只使用由每个数据的前k个TR组成的片段。 图2。模型训练和网络可视化的工作流程。 (a)模型自动学习标记的fMRI时间序列的特征,并在验证的损失达到最小时停止训练。因此,模型训练时不需要手工提取特征。迁移学习的工作流程类似,只是使用训练后的模型取代未训练的模型。每个数据项的分类被反向传播到网络层,以获得对分类重要的部分的可视化。可视化的数据具有与输入数据相同的大小,然后在时间维度上缩小,并映射到fsaverage表面 1。1。3迁移学习 与传统方法相比,深度学习方法,特别是CNN的一个重要优势是其可重复使用性,这意味着训练好的CNN可以直接在类似的任务中重复使用。作者对训练好的CNN使用了迁移学习策略来验证所提出的模型的适用性。迁移训练的工作流程与初始训练的工作流程基本相似(图2a),只是它从一个前四层已经训练好的模型开始,而输出层是未训练的。作者采用了HCP的TESTRETEST任务fMRI组的TEST数据集(N43)训练深度模型来分类两个WM任务子状态0bkbody和2bkbody。作者采用了按主题划分的五重交叉验证,其中60的数据(25个主题的100个样本)用于训练,20(9个主题的36个样本)用于验证,20(9个主题的36个样本)用于测试(总共172个样本的规模与常用的fMRI研究数据集相当)。为了进一步验证,作者训练深度模型来分类四个运动任务子状态左脚、左手、右脚和舌头运动。使用五重交叉验证,其中60(25名受试者的400个样本)用于训练,20(9名受试者的144个样本)用于验证,20(9名受试者的144个样本)用于测试(共688个样本)。输入样本是一个连续的BOLD序列,涵盖了整个区块和区块后的8秒,包括HRF的后信号。 为了评估使用小样本量的fMRI研究的DNN的适用性,作者对来自HCPTEST扫描的43个对象的数据进行了深度分类器的训练。N1,2,4,8,17,25,34。为了避免准确性的差异,所有的测试都应用于HCPTESTRETEST数据集中全部43名受试者的RETEST数据。深度学习在120个epochs后停止。此外,作者使用传统的搜索光和全脑SVMMVPA方法进行实验比较。 1。1。4性能评估 为了评估该模型在不同分类任务中的表现,作者首先定义了一组参数。每个任务条件的F1分数被计算为TP、FP和FN的函数:F1(2TP)(2TPFPFN)。其中,TP是真阳性,FP是假阳性,FN是每个标签的假阴性。作者还通过一比一的方法计算每个标签的ROC曲线,参数灵敏度和特异性表示为:灵敏度sensitivityTP(TPFN),特异性specificityTN(TNFP),其中TN是真阴性,等于其余标签的TP之和。准确率被定义为正确预测与分类总数的比率:准确率accuracy(TPTN)(TPFPTNFN)。 1。1。5网络可视化分析 本文使用引导反向传播(Guidedbackpropagation〔4〕),一种广泛使用的深度网络可视化方法,生成每个分类的模式图和输入fMRI4D时间序列的任务加权表示。在标准的反向传播过程中,如果一个ReLU单元的输入是正的,那么该单元的偏导就向后复制,否则就设置为零。在引导式反向传播中,如果一个ReLU单元的输入和部分导数都是正数,则该单元的部分导数被向后复制。因此,引导式反向传播保持了对类别得分有积极影响的路径,并输出CNN检测到的数据特征,而不是那些它没有检测到的特征。如图2b所示,在向训练好的网络输入数据后,相对于输入数据产生了27759381的预测梯度。然后,每个体素的时域绝对最大值的符号值被抽出并建立在三维任务模式图中,然后被归一化为其最大值。最后,将patternmap映射到fsaverage表面。此外,测试组的归一化patternmap的Cohensd效应被计算为每个任务的patternmap的平均值除以其SD。 本文的可视化对比分析是在AFNI〔5〕、Freesurfer〔6〕、HCPConnectomeWorkbench和MATLAB(MathWorks,Natick,MA)中进行。为了比较传统的GLM图和模式图(patternmap),作者还从HCP任务的fMRI分析包中获取了参数估计对比度(COPE)的Cohen效应。 1。2实验结果分析 首先,作者完成了针对深度模型在一般分类任务中的实验。作者在实验中使用NVIDIAGTX1080Ti板进行了约30个epoch的训练,所需时间大约72小时。本文所提出的模型成功地区分了七个任务,准确率为93。71。9(meanSD)。根据F1得分,本文使用的模型分类器在七个任务中的表现不同:情绪(94。01。6)、赌博(83。74。6)、语言(97。61。1)、运动(97。31。6)、关系(89。83。2)、社交(96。41。0)和WM(91。92。3,平均值SD)。平均混淆矩阵(Theaverageconfusionmatrix)显示,前两个混淆分别是由赌博与关系、WM与关系引起的(图3a)。图3b显示了ROC曲线,根据该曲线,运动、语言和社交任务具有最大的曲线下面积(areaunderthecurve,AUC),而赌博具有最小的面积。在验证关键超参数的选择,即111核通道的数量(NCh1)时,模型记录的准确值分别为93。2、91。5和92。7,NCh13、9和27(图3c)。在NCh11的情况下,该模型无法在30个epoch内收敛。 图3。HCPS1200任务fMRI数据集上的深度学习分类结果 然后,为了确定对每个分类贡献最大的体素(Voxel,指一段时间内多次测量大脑某块区域),作者使用引导式反向传播法生成了模式图,以可视化模型学习到的模式。图4给出了对任务COPE的GLM分析的Cohensd效应大小的分组统计图(图4ag),以及DNN模式图的Cohensd(图4hn)。如图所示,DNN模式图上的Cohensd与GLMCOPEs上的情感、语言、运动、社交和WM任务相似。例如,在语言条件下,GLMCOPEs(图4c)和DNN模式图(图4j)中的bilateralBrodmann22区出现了较大的效应大小异常。同样,在运动任务的右手运动条件下,两个图(图4d,k)显示在Brodmann4和bilateralBrodmann18区有类似的效应。 图4。HCPS1200数据集上的HCP组平均值(左栏)和DNN热图(右栏)的Cohensd效应 最后,关于迁移学习的问题,经过五次交叉验证,本文提出的DNN在测试中达到了89。02。0的平均准确率(图5a),平均AUC为0。9310。032(图5b)。如图5c所示,通过双样本t检验,DNN的准确性明显高于SVMMVPA全脑(t〔8〕9。14,p。000017;平均SD55。67。9)和SVMMVPAROI(t〔8〕7。59,p。000064;平均SD69。25。4)。 图5。工作记忆任务分类的迁移学习结果(0bkbody与2bkbody) 经过五次交叉验证,本文提出的DNN的平均准确率为94。71。7(图6a),平均AUC为ROC0。9960。005(图6b)。平均混淆矩阵显示,最主要的混淆是由左脚与右脚造成的(图6a)。图6c显示,通过双样本t检验,DNN的准确性(94。71。7)明显高于SVMMVPA全脑(t〔8〕3。59,p。0071;平均SD81。67。1)和SVMMVPAROI(t〔8〕8。77,p。000022;平均SD68。65。7)。然后,作者验证了学习所需的数据量。所有三种方法在所有NSubj中都报告了高于经典方法的准确性。NSubj8足以使DNN(80。3)在准确性方面超过普通的SVMMVPA全脑方法(41。7)和SVMMVPAROI(56。3)(图6d)。 图6。运动任务(左脚、左手、右脚和舌头)的分类迁移学习结果 小结:本文提出的方法能够直接从4DfMRI时间序列中对人正在进行的大脑功能进行分类和映射。本文方法允许从简短的fMRI扫描中解码受试者的任务状态,无需进行特征选择。这种灵活高效的大脑解码方法可以应用于神经科学的大规模数据和精细的小规模数据。此外,它的便利性、准确性和通用性的特点使得该深度框架可以很容易地应用于新的人群以及广泛的神经影像学研究,包括内部精神状态分类、精神疾病诊断和实时fMRI神经反馈等等。 2、使用深度生成神经网络从fMRI模式重建人脸 本文是发表在CommunicationsBiology中的一篇文章〔7〕。由上一篇文章的介绍可以知道,目前,已经可以从功能磁共振成像的大脑反应中解码识别不同的类别。但是,针对视觉上相似的输入(例如不同的人脸)的分类和识别仍然是非常困难的。本文具体探讨的是应用深度学习系统从人类的功能磁共振成像重建人脸图像。作者基于一个大型名人脸部数据库使用一个生成对抗网络(GAN)的无监督过程训练了一个变分自动编码器(VAE)神经网络。自动编码器的潜在空间为每幅图像提供了一个有意义的、拓扑学上有组织的1024维描述。然后,向人类受试者展示了几千张人脸图像,并学习了多体素fMRI激活模式和1024个潜在维度之间的简单线性映射。最后,将这一映射应用于新的测试图像,将fMRI模式转化为VAE潜在编码,并将编码重建为人脸。 2。1模型介绍 本文所使用的VAEGAN模型如图7(a)所示,其中的三个网络学习完成互补的任务。具体包括:编码器网络将人脸图像映射到一个潜在的表征(1024维)上,显示为红色。生成器网络将其转换为一个新的人脸图像。鉴别器网络(只在训练阶段使用)为每张给定的图像输出一个二进制的判断,可以是来自原始数据集,也可以是来自生成器输出,即:该图像是真的还是假的?训练的过程具有对抗性,因为判别器和生成器的目标函数相反,并交替更新:如果鉴别器能够可靠地确定哪些图像来自生成器(假的),而不是来自数据库(真的),就会得到奖励。如果生成器能够产生鉴别器网络不会正确分类的图像,就会得到奖励。训练结束后,丢弃鉴别器网络,编码器生成器网络被用作标准(变分)自动编码器。 网络中的人脸潜在空间提供了对大量人脸特征的描述,可以近似于人脑中的脸部表现。在这个潜在空间中,人脸和人脸特征(例如,男性)可以被表示为彼此的线性组合,不同的概念(例如,男性,微笑)可以用简单的线性操作来处理(图7b)。作者分析,这种深度生成神经网络潜在空间的多功能性表明它可能与人脑的人脸表征有同源性,这也使得它成为基于fMRI的人脸解码的理想候选方法。由此,作者推断,在对大脑活动进行解码时,学习fMRI模式空间和这种潜在空间之间的映射,而不是直接学习图像像素空间(或这些像素的线性组合,例如PCA等的处理方法),可能是非常有用的。此外,作者推测,VAEGAN模型能够捕捉人脸表征的大部分复杂性,使人脸流形变得平坦,就像人类大脑可能做的那样。因此,作者认为,采用简单的线性大脑解码方法就足够了。 图7。深度神经网络潜在空间。(a)VAEGAN网络架构。(b)潜在空间属性 作者首先使用无监督GAN在202,599张名人人脸标记数据库上训练了一个VAE深度网络(13层)(CelebA〔8〕),共执行15个epoch。使用编码器处理向人类受试者展示的人脸图像以生成1024维的潜在编码,这些编码作为设计矩阵后续会用于fMRIGLM(一般线性模型)分析。作者使用SPM12处理fMRI数据(https:www。fil。ion。ucl。ac(https:www。fil。ion。ucl。ac)。ukspmsoftwarespm12)。接下来,作者对每份数据分别进行了切片时间校正和重新对齐。然后将每个时段的数据与第二个MRI时段的T1扫描数据进行联合登记。不过,作者并未对这些数据进行归一化或平滑化处理。具体的,作者将每个实验的开始和持续时间(固定、训练脸、测试脸、单人背影或意象)输入一般线性模型(generallinearmodel,GLM)中作为回归因子;将用于训练脸部的1024维潜在向量(来自VAEGAN或PCA模型)作为参数化的回归器来建模,并将运动参数作为滋扰回归器(nuisanceregressors)输入用于消除滋扰信号。此外,在估计GLM参数之前,令整个设计矩阵与SPM的血流动力学反应函数(hemodynamicresponsefunction,HRF)进行卷积处理。 作者训练了一个简单的大脑fMRI的编码器(线性回归),将人脸图像的1024维潜在表征(通过编码器运行图像,或使用PCA变换获得)与相应的大脑反应模式联系起来,并将人类受试者在扫描仪中观看相同的人脸时记录下来。图8(a)给出了这一过程的完整描述。每个受试者平均看到超过8000张人脸(每个人都有一个演示),使用VAEGAN潜在维度(或图像在前1024个主成分上的投影)作为BOLD信号的1024个参数化回归因子。这些参数化的回归因子可以是正的,也可以是负的(因为根据VAE的训练目标,VAEGAN的潜在变量是近似正态分布的)。将一个额外的分类回归因子(面部与固定对比)作为一个恒定的偏差项添加到模型中。作者验证了设计矩阵是fullrank的,也就是说,所有的回归因子都是线性独立的。作者分析,这一属性是因为VAEGAN(和PCA)的潜在变量往往是不相关的。因此,由SPMGLM分析进行的线性回归产生了一个优化的权重矩阵W,以预测大脑对训练人脸刺激的反应模式。 图8。基于VAEGAN潜在表征的人脸图像的大脑解码。(a)训练训阶段。(b)测试阶段 假设在1025维的人脸潜在向量X(包括了一个偏置项)和相应的大脑激活向量Y之间存在一个线性映射W: 训练大脑解码器通过以下方式找到最佳映射W: 为了在测试阶段使用这个大脑解码器,作者简单地反转了线性系统,如图8b所示。作者向同一受试者展示了20张新的测试人脸,这些人脸在训练阶段并没有向受试者展示过。每个测试人脸平均呈现52。8次以增加信噪比。所得的大脑活动模式简单地与转置的权重矩阵WT及其反协方差矩阵相乘,以产生1024个潜在人脸维度估计值。然后,使用GAN(如图7a所示)将预测的潜在向量转化为重建的人脸图像。对于基线PCA模型,方法的流程是相同的,但人脸的重建是通过解码的1024维向量的inversePCA获得的。测试大脑解码器包括使用学到的权重W为每个新的大脑激活模式Y检索潜在的向量X,利用下式求解X: 作者已经将本文使用的预训练的VAEGAN网络以及Python和TensorFlow源代码公布在了GitHub上:https:github。comrufinvVAEGANcelebA。 2。2实验结果分析 本实验中,通过AmazonMechanicalTurk(AMT)获得用于比较VAEGAN和PCA人脸重建的图像质量的人类评价结果。四个受试者的20张测试图像中的每一张都标记为原始,然后是VAEGAN和基于PCA的重建图像,在选项A和选项B的字样下显示。实验中,向受试者发布的指示为:在两个修改过的人脸中,哪一个最像原来的人脸?选择A或B。每对图像总共被比较了15次,由至少10个不同的AMT工作者进行,每个反应分配(VAEGANPCA为选项AB)由至少5个工作者查看。因此,该实验在两个人脸重建模型之间总共进行了1200次(42015)比较。 作者首先对比了VAEGAN和PCA,将灰质体素的一个子集定义为兴趣区域(ROI)。事实上,大脑的许多部分都在进行与人脸处理或识别无关的计算。作者的ROI只选择生理上的可能应激大脑区域,选择标准考虑了两个因素。(i)预计体素会对人脸刺激作出反应(通过脸部和基线条件之间的t检验来确定,即固定在空屏幕上),(ii)将1024个潜在人脸特征作为回归因子输入线性模型时,体素的BOLD反应的解释方差有望改进(与只有二元人脸回归因子的基线模型相比:存在不存在人脸)。所选的体素如图9描述,包括枕部、颞部、顶部和额部区域。作者对PCA人脸参数进行了单独的选择,并将这些参数用于基于PCA的大脑解码器(所选体素的平均数量:106,685;范围:74,073164,524);两个模型所选区域几乎相同。 图9。为大脑解码选择的体素。 在大脑解码器训练阶段,体素的选择是基于其视觉反应性和GLM拟合度的综合考虑(图8a)。颜色代码(红色到黄色)表示每个特定体素被选中的受试者的数量(14)。彩色的线表示标准皮质区域的边界 图10(a)给出了人脸重建图像的示例。虽然VAEGAN和PCA都能重建出与原始人脸相似的图像,但是由VAEGAN重建的图像更真实,更接近原始图像。作者通过将20张测试人脸的大脑估计潜在向量与20张实际人脸的潜在向量相关联来量化大脑解码系统的性能,并使用成对相关值来测量正确分类的百分比。具体结果见图10(b)。实验结果表明,从人脑激活到VAEGAN潜在空间的线性映射比到PCA空间的映射更容易、更有效。作者认为,这与其深度生成神经网络更接近于人脸表征的空间的假设相吻合。此外,作者还进行了模型间的完全识别结果比较,即利用重建图像的感知质量作为指标衡量重建的人脸水平。实验要求人类观察者比较两种模型重建的人脸质量:四个受试者的原始测试图像与相应的VAEGAN和PCA重建图像一起显示,受试者判断哪一个重建图像从感知角度判断更像原始图像。具体结果见图10(c)。76。1的实验中受试者选择了VAEGAN重建的图像,而23。9的实验中受试者选择了PCA重建的图像。 图10。人脸重建。(a)重建人脸图像示例;(b)两两识别结果;(c)完全识别结果 进一步的,为了确定哪一个大脑区域对两个大脑解码模型的人脸重建能力贡献最大,作者将每个受试者的体素选择划分为三个大小相等的子集,如图11a所示。然后分别对这三个子集进行脑解码和面部重建。两两识别结果显示,枕骨体素和较小程度的颞体素提供了大脑解码所需的大部分信息(图11b)。 图11。不同脑区的贡献情况。 (a)体素分割过程;(b)不同区域的两两识别结果,Fullselect指的是图9中描述的体素集;它与图10b中的数据相同。圆圈代表个别受试者的表现。虚线是单个受试者表现的p0。05的显著性阈值。在三个子集中,枕部体素的表现是最优的,其次是颞部体素。在所有情况下,VAEGAN模型的性能仍然高于PCA模型。 最后,作者通过创建一个简单的分类器以根据人脸属性为大脑解码的潜在向量贴标签的方式,研究人脑对于特定人脸属性的表征。具体的关于人脸性别属性的实验结果见图12。将每个大脑解码的潜在向量投射到潜在空间的性别轴上(图12a),投射的符号决定了分类输出(正数代表男性,负数代表女性)。由图12b的结果可以看出,这个单一衡量标准的分类器提供了足够的信息来对人脸性别进行分类,准确率达到了70。非参数Friedman检验表明,性别解码性能在三个体素子集中是不同的,而posthoc检验则显示枕叶体素的表现明显好于额顶叶体素,而颞叶体素介于两者之间。 图12。图6性别解码。(a)基本线性分类器;(b)解码准确度 3、AI解码大脑神经反馈动力学用于解码神经反馈实验的数据 本文是来自日本ATR国际学院计算神经科学实验室的研究人员发表在《ScientificData》2021上的一篇文章〔9〕,主要为利用AI解码大脑神经反馈以读取和识别大脑中特定信息的方法提供实验所需的数据。解码神经反馈(Decodedneurofeedback,DecNef)是一种闭环fMRI神经反馈与机器学习方法相结合的形式,意思是分析fMRI的状态改变外围不同设备(比如被测者面前的显示器)的刺激。这是对操纵大脑动力学表现或表征这一长期目标的更细化的呈现。本文针对DecNef实验,提供了可应用的数据来源。作者发布了一个大型的、可公开访问的神经影像学数据库,其中包括60多个接受DecNef训练的人。这个数据库由大脑的结构和功能图像、机器学习解码器和额外的处理数据组成。作者在文中描述了编译数据库时采用的协议,包括源数据中常见的和不同的扫描参数、元数据、结构,以及匿名化、清理、排列和分析等处理方式。 3。1DecNef背景分析 在单变量(univariate)方法中,人们具体测量一个感兴趣区域(ROI)的整体活动水平。与此不同,多体素模式分析(multivoxelpatternanalysis,MVPA)则是学会对分布在活动模式中的信息进行解码。DecNef利用了MVPA而不是使用单变量方法,因此它具有很高的目标特异性。此外,尽管受试者清楚解码神经反馈实验的存在,但他们并不知道具体的内容和目的,从而有助于减少由于认知过程或对被操纵维度的了解而产生的混淆。此外,解码神经反馈实验甚至可以通过一种称为超边界(hyperalignmen)的方法,根据受试者间接推断出目标神经表征。通过这样的功能排列方法,将不同受试者的神经活动模式通过一组线性变换构建了一个共同的、高维的空间。这些转换是有效的参数,可以用来将任何新的数据模式带入带出个人的大脑坐标系统和模型空间坐标。上述特点使得DecNef成为了开发新的临床应用的一种有效工具,特别是在神经精神疾病方面。除了面向临床的研究外,DecNef还可以作为系统和认知神经科学的一个重要范式来研究大脑的基本功能。 不同的DecNef实验探究的是不同的认知过程或心理表征,但所有研究都采用了相同的基本设计逻辑(如图13a)。(1)最初的环节是获取fMRI数据,用于训练机器学习算法MVPA或解码器构建环节。(2)随后的神经反馈阶段,持续2到5天不等。在解码器构建环节,受试者完成了简单的动作,包括视觉(研究2、3)、偏好(研究1)、知觉(研究4)或记忆任务(研究5),在神经反馈环节,所有程序几乎都是相同的(图13b)。在神经反馈训练中,要求受试者调节或操纵他们的大脑活动,以最大限度地扩大反馈盘(feedbackdisc)的大小。 图13。实验设计的示意性概述。 (a)每项研究都包括一段fMRI,用于获得构建解码器所需的数据,这是一个机器学习的大脑活动模式分类器。(b)所有的研究都有相同的基本实验设计 到目前为止,全世界只有少数研究小组有机会完成这种技术上具有挑战性的实验。作者介绍,他们已经发表了关于如何运行解码神经反馈实验这部分工作的介绍〔10〕。不过,关于DecNef(以及一般的神经反馈)的一个关键问题仍未解决:潜在神经机制究竟是什么?一些近期的研究工作已经开始聚焦于这个问题,并应用了元分析、计算模型、神经网络等工具。表2总结了已有的部分研究,包括相关出版物、神经反馈过程训练目标等内容。 表2。纳入数据收集的研究摘要 3。2数据分析 关于本文提供的源数据,表3给出所有研究中使用的扫描参数的技术细节,以及不同研究之间的差异。 表3。不同研究之间的扫描参数 可通过机构存储库DecNef项目大脑数据存储库(DecNefProjectBrainDataRepository)(https:bicrresource。atr。jpdrmd),或从Synapse数据存储库(https:doi。org10。7303syn23530650)访问数据。数据是按照图14所示的结构来组织的。简而言之,对于每项研究,最上层的文件夹包含了每个受试者的文件夹(例如,sub01)。其中有三个子文件夹,anat包含与结构解剖扫描有关的原始Nifti文件,func进一步细分为特定会话文件夹(例如,ses0:解码器,ses1:神经反馈的第一个会话,等等),包含所有来自功能扫描的压缩Nifti文件。 图14。数据集结构和内容 对高分辨率的解剖学扫描进行涂抹处理,以确保结构数据的适当匿名化。使用统计参数映射(SPM)对图像进行了偏差校正。使用统计参数绘图(SPM)工具箱(https:www。fil。ion。ucl。ac。ukspm)对图像进行偏差校正,并使用FreeSurfer套件的自动涂抹工具进行涂抹。图15为一个受试者的图像结果示例。 图15。受试者结构扫描的匿名化(污损)处理示例 鉴于DecNef方法的细粒度、高空间分辨率的要求,用于在线反馈计算的大脑图像的功能排列需要具备非常高的会话间一致性。图像必须与原始解码器的结构对齐,而且这种对齐必须在(子)体素水平上是精确的。即使是微小的头部运动也很容易破坏这一前提条件,导致不完善的解码和反馈得分计算。为了满足这一要求,所有的研究都要求实时监测传入的大脑功能图像与原始解码器结构中的模板之间的对齐情况。尽管使用TurboBrainVoyager(TBV,BrainInnovation)实时校正头部运动,但并不能保证校正后的图像在解码方面是有意义的,尤其是在突然出现明显位移时。因此,在实时神经反馈实验中,对原始DICOM图像进行了以下处理步骤。首先,在诱导期测量的功能图像使用TBV进行三维运动校正。第二,从解码器识别的每个体素中提取信号强度的时间序列,并将其移位6秒以考虑到血流动力学延迟。第三,从时间过程中去除线性趋势,并使用从每次fMRI运行开始后10秒测量的信号强度对每个体素的信号时间过程进行Zscore归一化处理。第四,计算反馈分数的数据样本是通过平均每个体素在诱导期的BOLD信号强度来创建的。 在目标体素的激活模式方面,控制数据质量的一个有效方法是首先计算它们的平均激活(用初始解码器构建会话的数据)。然后,在实时会话中,计算平均模式和传入活动模式之间的逐个相关性。这种方法确保了当体素的反应模式由于例如头部或身体运动而发生重大变化时,相关度的降低会迅速发生,从而可以被检测到。最佳水平的相关性水平应该在r〔0。851。00〕的区间内,或Fisher变换的z〔1。26Inf〕。作者证实,所有的研究确实都能满足此条件(图16)。平均来说,只有不到2的实验的z值小于1。26(研究1:0。13,研究2:3。17,研究3:0。91,研究4:0。36,研究5:3。74)。 图16。平均活动模式和实时活动模式之间的费舍尔转换相关性(Fishertransformedcorrelation)。 较大值表明实时测量模式和解码器构造模式之间有更好的功能一致性。每个点代表一个实验的相关值。每个琴状图有N(天)M(受试者)L(运行)J(实验)个点。图中央的白圈代表中位数,粗灰线代表四分位数范围,细灰线代表相邻的数值。将z1。10的数据点从图中删除 接下来,作者建立了头部运动和模式相关度之间的关系。作者使用SPM12计算了头部运动参数,得出了3个平移参数和3个旋转参数。为了这个分析的目的,作者通过对相关的3个参数进行平均化处理来计算平均绝对旋转和平均绝对平移,在神经反馈实验中使用的3个TR来计算解码器的可能性和模式的关联性。作者将这两个头部运动指数(以毫米为单位)与所有研究中汇集的Fisher转换后的相关系数(即模式相关度)进行了对比(如图17所示)。为了进行统计分析,作者串联单次实验数据,使用线性混合效应(linearmixedeffects,LME)模型进行分析(按照Wilkinson符号,指定为y1m(1st)(1stprt);其中y:模式相关性,1:截距,m:运动参数,st:实验研究,prt:受试者)。具体来说,这些LME模型的设计是将运动作为固定效应,实验研究作为随机效应和协变量,个体受试者作为随机效应而嵌套在实验研究中。 图17。模式相关性与头部运动的关系。 头部运动被计算为三维方向上的旋转(a)或三维方向上的平移(b),并与Fisher转换后的模式相关系数成图。使用不同颜色绘制来自不同研究的数据点。每个数据点表征一个特定受试者、运行和实验 最后,其他的生理噪声源(如心跳或呼吸)也会影响用于实时解码的多体素活动模式。这些来源在本研究中没有直接测量,因此作者只能猜测它们的影响。如果它们对所有体素的影响是相对均匀的,作者预计对模式相关的测量几乎没有影响,因为体素之间的关系将保持基本不变。如果各体素之间存在不均匀的影响,作者认为模式相关性会受到类似于头部运动的影响。人们可能会担心,在第一种情况下,将无法检测到数据的噪声失真,从而有可能造成反馈给受试者的目标真实性失效。但由于所有体素的活动首先经过基线归一化处理,然后通过计算体素的活动模式与权重向量之间的点积来确定反馈似然,因此重要的是体素的模式(体素活动之间的差异)。由此,作者指出,由于MVPA的特殊性,额外的噪声源不太可能在不影响模式相关度的情况下显著影响体素活动模式的信息内容。 4、小结 本文探讨了基于统计学中ML的fMRI分析方法。其中,第一篇文章介绍了基于SVM的多变量模式分析在基于人脑功能磁共振成像(fMRI)的特定任务状态解码中的应用。具体的,作者引入一个DNN分类器,通过读取与任务相关的4DfMRI信号,有效解码并映射个人正在进行的大脑任务状态。DNN的分层结构使其能够学习比传统机器学习方法更复杂的输出函数,并且可以进行端到端的训练,进而提升了大规模数据集中fMRI解码的准确度水平。第二篇文章具体探讨的是应用深度学习系统从人类的功能磁共振成像(fMRI)重建人脸图像。利用VAEGAN模型,学习多体素fMRI激活模式和1024个潜在维度之间的简单线性映射。然后将这一映射应用于新的测试图像,将fMRI模式转化为VAE潜在编码,并将编码重建为人脸。最后一篇文章发布了一个大型的、可公开访问的神经影像学数据库,该数据库中的数据是由解码神经反馈(Decodedneurofeedback,DecNef)实验训练得到的,除了面向临床的研究外,该数据库还可以作为系统和认知神经科学的一个重要范式来研究大脑的基本功能。这一数据库的发布为推动解码神经反馈的研究发展提供了良好的数据基础。 ML已经证明在图像处理和识别的广泛用途。利用ML连接fMRI图像,可以分类人脑正在观察和思考的状态,甚至重建正在联想的人脸内容。神经科学家正在借助机器学习技术解码人类大脑的活动、理解人类大脑的趋势方兴未艾,帮助我们更好的了解我们的大脑迷宫。 本文参考引用的部分文献: 〔1〕https:uxdesign。cchowneuroscientistsarereadinganddecodinghumanthoughts380474d0e8c1 〔2〕XiaoxiaoWang,etcal。Decodingandmappingtaskstatesofthehumanbrainviadeeplearning。HumBrainMapp。2020Apr15;41(6):15051519。https:www。ncbi。nlm。nih。govpmcarticlesPMC7267978 〔3〕VanEssen,D。C。,Smith,S。M。,Barch,D。M。,Behrens,T。E。,Yacoub,E。,Ugurbil,K。,Consortium,W。U。M。H。(2013)。TheWUMinnhumanconnectomeproject:Anoverview。NeuroImage,80,6279。https:doi。org10。1016j。neuroimage。2013。05。041 〔4〕Springenberg,J。T。,Dosovitskiy,A。,Brox,T。,Riedmiller,M。(2014)。Strivingforsimplicity:Theallconvolutionalnet。arXiv:1412。6806。 〔5〕Cox,R。W。(1996)。AFNI:Softwareforanalysisandvisualizationoffunctionalmagneticresonanceneuroimages。ComputersandBiomedicalResearch,29,162173。https:doi。org10。1006cbmr。1996。0014 〔6〕Fischl,B。(2012)。FreeSurfer。NeuroImage,62,774781。https:doi。org10。1016j。neuroimage。2012。01。021 〔7〕RufinVanRullenLeilaReddy,ReconstructingfacesfromfMRIpatternsusingdeepgenerativeneuralnetworks,CommunicationsBiologyvolume2,Articlenumber:193(2019),https:www。nature。comarticless420030190438y 〔8〕Liu,Z。,Luo,P。,Wang,X。Tang,X。Deeplearningfaceattributesinthewild。InProc。InternationalConferenceonComputerVision(ICCV)(2015)。 〔9〕CorteseA,TanakaSC,AmanoK,etal。TheDecNefcollection,fMRIdatafromclosedloopdecodedneurofeedbackexperiments〔J〕。ScientificData,2021,8(1):65。 〔10〕TaschereauDumouchel,V。,Cortese,A。,Lau,H。Kawato,M。Conductingdecodedneurofeedbackstudies。Soc。Cogn。Affect。Neurosci。nsaao63(2020)。 分析师介绍: 本文作者为WuJiying,工学博士,毕业于北京交通大学,曾分别于香港中文大学和香港科技大学担任助理研究员和研究助理,现从事电子政务领域信息化新技术研究工作。主要研究方向为模式识别、计算机视觉,爱好科研,希望能保持学习、不断进步。