您好,欢迎来到欧得旅游网。
搜索
您的当前位置:首页IDM-VTON-虚拟试衣论文解读

IDM-VTON-虚拟试衣论文解读

来源:欧得旅游网


论文:《Improving Diffusion Models for Virtual Try-on》(https://arxiv.org/abs/2403.05139)
github:
huggingface demo:

摘要

IDM–VTON使用两个不同模块编码衣服图片语义信息:
1、从视觉编码器中提取的高级语义被融合到cross-attention层
2、将从并行UNet中提取的底层特征融合到self-attention层

解决问题

常规的方法使用GAN进行虚拟试衣,通过扭曲模块将衣服变形到目标人体,通过GAN进行渲染,但是这种方法在生成高质量图像方面存在困难,并且经常无法泛化到不同的人物图像,给衣服引入了不希望的失真

算法

IP-Adaptor公式如式3,i表示image向量、c表示text向量,

衣服描述细节:如图2,作者使用全面衣服描述,如图7,这有助于编码高层级衣服语义信息。作者使用OMNIOUS.AI进行衣服属性。
训练集:一方面可以通过构建人体衣服对,另一方面如果仅有人体数据,可以通过分割衣服至白色背景构建。

实验

在未见过数据集上泛化性定量测试结果如表2

结论

  1. 作者提出的IDM-VTON使用两个的模块编码衣服特征,分别有效地将高级语义和低级特征编码到基本UNet中;
  2. 为了改进现实场景下的虚拟试穿,作者利用成对图文数据微调UNet的解码器层来定制模型;
  3. 作者利用服装的详细自然语言描述,这有助于生成真实的虚拟试穿图像;
  4. 在各种数据集上的大量实验表明,该方法在保留服装细节和生成高保真图像方面优于先前的工作。特别地,展示了该方法在未见过数据集上虚拟试衣的潜力;
    在huggingface demo测试发现该方法泛化性能力比较强

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- ovod.cn 版权所有 湘ICP备2023023988号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务