IDM–VTON使用两个不同模块编码衣服图片语义信息:
1、从视觉编码器中提取的高级语义被融合到cross-attention层
2、将从并行UNet中提取的底层特征融合到self-attention层
常规的方法使用GAN进行虚拟试衣,通过扭曲模块将衣服变形到目标人体,通过GAN进行渲染,但是这种方法在生成高质量图像方面存在困难,并且经常无法泛化到不同的人物图像,给衣服引入了不希望的失真
IP-Adaptor公式如式3,i表示image向量、c表示text向量,
衣服描述细节:如图2,作者使用全面衣服描述,如图7,这有助于编码高层级衣服语义信息。作者使用OMNIOUS.AI进行衣服属性。
训练集:一方面可以通过构建人体衣服对,另一方面如果仅有人体数据,可以通过分割衣服至白色背景构建。
在未见过数据集上泛化性定量测试结果如表2
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- ovod.cn 版权所有 湘ICP备2023023988号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务