首页 » Text2NeRF:用神经辐射场实现文本驱动的3D场景生成

Text2NeRF:用神经辐射场实现文本驱动的3D场景生成

by AIBackup

随着人工智能技术的发展,3D场景生成已经在视频游戏、电影产业和元宇宙应用中得到了广泛的应用。然而,现有的文本到3D生成方法在生成具有复杂几何结构和高保真纹理的3D场景方面仍存在局限性。为了解决这个问题,香港城市大学和腾讯AI实验室的研究人员提出了一种名为Text2NeRF的新方法。

Text2NeRF是一个文本驱动的3D场景生成框架,它结合了神经辐射场(NeRF)和预训练的文本到图像扩散模型,可以从自然语言描述中生成多样化、视角一致的室内和室外3D场景。具体来说,Text2NeRF使用扩散模型推断与文本相关的图像作为内容先验,并使用单目深度估计方法提供几何先验。这两种先验都被用来更新NeRF模型。为了保证不同视角之间的纹理和几何一致性,Text2NeRF引入了一种渐进式场景修复和更新策略,用于生成场景的新视角。

Text2NeRF的优势在于,它不需要额外的训练数据,只需要场景的自然语言描述作为输入。大量的实验表明,Text2NeRF在生成照片级真实、多视角一致、多样化的3D场景方面,优于现有的方法。

相关资料

也许你还会喜欢