InstructPix2Pix
InstructPix2Pix: Leren om Afbeeldingsbewerkingsinstructies te Volgen
InstructPix2Pix is een op PyTorch gebaseerde implementatie van een op instructies gebaseerd model voor beeldbewerking, afgeleid van de originele CompVis/stable_diffusion repo.
Projectpagina en Papier
Voor meer informatie over InstructPix2Pix, kun je de projectpagina bezoeken en het bijbehorende paper lezen.
Set-up
Om InstructPix2Pix op je eigen afbeeldingen uit te voeren, volg je de onderstaande instructies. Deze instructies zijn getest op een GPU met >18GB VRAM. Indien je niet over een GPU beschikt, dien je mogelijk de standaardconfiguratie aan te passen of alternatieve manieren te bekijken voor het gebruik van het model.
Opzetten van een conda-omgeving en downloaden van een vooraf getraind model:
conda env create -f environment.yaml
conda activate ip2p
bash scripts/download_checkpoints.sh
Bewerken van een enkele afbeelding:
python edit_cli.py --input imgs/example.jpg --output imgs/output.jpg --edit "verander hem in een cyborg"
# Optioneel kun je parameters specificeren om je resultaat aan te passen:
# python edit_cli.py --steps 100 --resolution 512 --seed 1371 --cfg-text 7.5 --cfg-image 1.2 --input imgs/example.jpg --output imgs/output.jpg --edit "verander hem in een cyborg"
Of lanceer je eigen interactieve bewerkingsapp Gradio:
(Voor advies over het verkrijgen van de beste resultaten door het afstemmen van parameters, zie de Tips sectie).
Installatie en Gedownload Dataset
Alle benodigde afhankelijkheden kunnen worden geïnstalleerd met:
conda env create -f environment.yaml
Download de vooraf getrainde modellen door het volgende uit te voeren:
bash scripts/download_checkpoints.sh
Gegenereerde Dataset
Ons beeldbewerkingsmodel is getraind op een gegenereerde dataset bestaande uit 454.445 voorbeelden. Ieder voorbeeld bevat (1) een invoerafbeelding, (2) een bewerkingsinstructie en (3) een bewerkte uitvoerafbeelding. We bieden twee versies van de dataset aan, waarbij elk paar bewerkte afbeeldingen 100 keer is gegenereerd en de beste voorbeelden zijn gekozen op basis van CLIP-metrics (Sectie 3.1.2 in het paper) (clip-filtered-dataset
), en een versie waarbij voorbeelden willekeurig zijn gekozen (random-sample-dataset
).
Voor de uitgebrachte versie van deze dataset hebben we bovendien prompts en afbeeldingen gefilterd op NSFW-inhoud. Na NSFW-filtering bevat de door GPT-3 gegenereerde dataset 451.990 voorbeelden.
Voor meer informatie over InstructPix2Pix en hoe je het kunt gebruiken, nodigen we je uit om de projectpagina te bezoeken.
Bezoek @https://www.timothybrooks.com/instruct-pix2pix/