Splicing ViT Features for Semantic Appearance Transfer

Supplementary Material

We recommend viewing all content in full screen. Click on the images for viewing them in full size.

Our Results

Sample results of our method on a variety of image pairs, including all results on our Wild-Pairs collection (see Fig. 1 and Fig. 6)

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Structure	Appearance	Ours

Generalization to Video from a Single Frame

We demonstrate the generalization of our generator trained on a single image pair, to a video as follows: we use one of the video frames as the source structure input and another target apperance image, which are used to train our generator. At inference time, we feed-forward each of the video frames into our pre-trained and fixed generator.

Our generator has not observed any of the video frames, except the one trained on.