【Mind-Video】：用大脑活动重构视频的突破性研究

by AIBackup 2023-05-23

written by AIBackup 2023-05-23

近年来，从非侵入性大脑记录中重构静态图像的研究取得了巨大的成功，然而，恢复连续视觉体验的视频形式的工作却相对有限。为了解决这个问题，研究人员提出了Mind-Video，这是一个设计精良的两模块管道，旨在弥合图像和视频大脑解码之间的鸿沟。

Mind-Video的设计包括两个模块，分别是fMRI编码器和增强稳定扩散模型，这两个模块分别进行训练，然后一起进行微调。模型从大脑信号中逐步学习，通过第一模块的多个阶段深入理解语义空间。首先，研究人员利用大规模的无监督学习和脑部建模来学习通用的视觉fMRI特征。他们还设计了一个空间时间注意力模型，用于处理滑动窗口中的多个fMRI。然后，他们使用注释数据集的多模态性，训练fMRI编码器在CLIP空间中进行对比学习，从而提取与语义相关的特征。在第二个模块中，通过与增强稳定扩散模型的共同训练，对学习到的特征进行微调，这个模型特别适合在fMRI指导下进行视频生成。

Mind-Video的贡献在于，研究人员引入了一个灵活且可适应的大脑解码管道，该管道分为两个模块：一个fMRI编码器和一个增强稳定扩散模型，这两个模块分别进行训练，然后一起进行微调。他们设计了一个渐进式的学习方案，其中编码器通过多个阶段学习大脑特征，包括多模态对比学习和空间时间注意力模型。他们恢复了具有准确语义的高质量视频，例如动作和场景动态。结果在语义和像素指标上进行评估，语义指标的准确率达到85%，SSIM达到0.19，超过了之前的最先进的方法45%。

研究人员的注意力分析揭示了视觉皮层和更高级的认知网络的映射，这表明他们的模型在生物学上是可行的，也是可以解释的。

研究人员将他们的结果与多个先前文献中提供的fMRI-视频重构任务的样本进行了比较。他们的方法生成的样本在语义上更有意义，更符合真实情况。

研究人员对解码fMRI数据的变压器的注意力分析产生了三个重要的见解：视觉皮层的主导地位：他们的分析强调了视觉皮层在处理视觉空间时间信息中的关键作用。然而，更高级的认知网络，如背部注意力网络和默认模式网络，也对视觉感知过程有所贡献。层次依赖的层次结构：他们的fMRI编码器的层次以分层的方式运作。初始层关注结构信息，而更深的层则转向学习更抽象的视觉特征，这表明在特征提取中存在复杂性的梯度。渐进式语义学习：他们的fMRI编码器在每个学习阶段都在进化，显示出对更高级认知网络的更多关注，对视觉皮层的关注度随着时间的推移而减少。这种进展表明，编码器在其训练阶段提高了其吸收更微妙、语义信息的能力。

相关资料标注：

【Mind-Video】：用大脑活动重构视频的突破性研究

特斯拉全自动驾驶Beta版：无人驾驶我去机场

教程: 通过Insight Face Swap 实现 Midjourney 一致性角色换脸

也许你还会喜欢

OpenAI推出新功能：函数调用，AI计算能力再升级（案例）

AI新突破：零样本文本引导的视频到视频转换技术

Galactic：以每秒100k步速度扩展端到端强化学习的重排任务

超越人类：探索“磨刀人”和生物黑客的未来

数据工程领域30个最实用的Python库

AI大清洗：生成型AI如何改变SEO内容流量、工作岗位和依赖网站的未来