首页 » 【Mind-Video】:用大脑活动重构视频的突破性研究

【Mind-Video】:用大脑活动重构视频的突破性研究

by AIBackup

近年来,从非侵入性大脑记录中重构静态图像的研究取得了巨大的成功,然而,恢复连续视觉体验的视频形式的工作却相对有限。为了解决这个问题,研究人员提出了Mind-Video,这是一个设计精良的两模块管道,旨在弥合图像和视频大脑解码之间的鸿沟

Mind-Video的设计包括两个模块,分别是fMRI编码器和增强稳定扩散模型,这两个模块分别进行训练,然后一起进行微调。模型从大脑信号中逐步学习,通过第一模块的多个阶段深入理解语义空间。首先,研究人员利用大规模的无监督学习和脑部建模来学习通用的视觉fMRI特征。他们还设计了一个空间时间注意力模型,用于处理滑动窗口中的多个fMRI。然后,他们使用注释数据集的多模态性,训练fMRI编码器在CLIP空间中进行对比学习,从而提取与语义相关的特征。在第二个模块中,通过与增强稳定扩散模型的共同训练,对学习到的特征进行微调,这个模型特别适合在fMRI指导下进行视频生成。

Mind-Video的贡献在于,研究人员引入了一个灵活且可适应的大脑解码管道,该管道分为两个模块:一个fMRI编码器和一个增强稳定扩散模型,这两个模块分别进行训练,然后一起进行微调。他们设计了一个渐进式的学习方案,其中编码器通过多个阶段学习大脑特征,包括多模态对比学习和空间时间注意力模型。他们恢复了具有准确语义的高质量视频,例如动作和场景动态。结果在语义和像素指标上进行评估,语义指标的准确率达到85%,SSIM达到0.19,超过了之前的最先进的方法45%。

研究人员的注意力分析揭示了视觉皮层和更高级的认知网络的映射,这表明他们的模型在生物学上是可行的,也是可以解释的

研究人员将他们的结果与多个先前文献中提供的fMRI-视频重构任务的样本进行了比较。他们的方法生成的样本在语义上更有意义,更符合真实情况。

研究人员对解码fMRI数据的变压器的注意力分析产生了三个重要的见解:视觉皮层的主导地位:他们的分析强调了视觉皮层在处理视觉空间时间信息中的关键作用。然而,更高级的认知网络,如背部注意力网络和默认模式网络,也对视觉感知过程有所贡献。层次依赖的层次结构:他们的fMRI编码器的层次以分层的方式运作。初始层关注结构信息,而更深的层则转向学习更抽象的视觉特征,这表明在特征提取中存在复杂性的梯度。渐进式语义学习:他们的fMRI编码器在每个学习阶段都在进化,显示出对更高级认知网络的更多关注,对视觉皮层的关注度随着时间的推移而减少。这种进展表明,编码器在其训练阶段提高了其吸收更微妙、语义信息的能力。

相关资料标注:

也许你还会喜欢