ComfyUI-vejledning til visuelle effekter: Trin-for-trin-guide

  • ComfyUI tilbyder granulær kontrol på nodeniveau til VFX med SD, ControlNet, LoRA og SDXL, til både billede og video.
  • AnimateDiff, HunyuanVideo, LTX Video og Wan 2.1 udvider økosystemet for at generere jævne og ensartede klip.
  • Administratoren gør det nemt at installere/opdatere noder og vedligeholde reproducerbare flows med korrekte modeller og afhængigheder.
  • Cloud-muligheder reducerer hardwarebarrierer; lokale muligheder giver maksimal kontrol og detaljeret prototyping.

ComfyUI

Hvis du vil kaste dig ud i AI-drevet billed- og videoskabelse uden at miste kontrollen, er du kommet til det rette sted: ComfyUI er en nodebaseret brugerflade, der giver dig mulighed for at bygge din egen pipeline som LEGO-klodser. I denne guide lærer du, fra bunden og i detaljer, hvordan du opsætter arbejdsgange for visuelle effekter (VFX) i ComfyUI, for både billede og video, uden at mangle noget vigtigt.

Ud over det grundlæggende, vil vi se på tekst-til-billede-flows, billede-til-billede-flows, inpainting, outpainting, skalering, ControlNet, SDXL, LoRA og indlejringer. Vi tager springet til video med AnimateDiff, HunyuanVideo, LTX Video og Wan 2.1Dette inkluderer krav, installation, nøgleparametre og produktivitetstips med genveje og nodeadministratorer. Vi dækker også cloud-muligheder, hvis du foretrækker at undgå komplekse installationer.

Hvad er ComfyUI, og hvorfor er det ideelt til visuelle effekter?

ComfyUI er en nodebaseret GUI til Stable Diffusion, der giver dig mulighed for at se og ændre dataflowet fra start til slut. Hver node udfører en specifik opgave (indlæsning af en model, kodning af tekst, sampling, afkodning af VAE osv.) og er forbundet med kabler. som repræsenterer input og output. Denne filosofi er perfekt til VFX: du ved præcis, hvor signalet kommer ind, hvor det transformeres, og hvordan du påvirker resultatet.

Sammenlignet med monolitiske grænseflader skiller ComfyUI sig ud ved sin gennemsigtighed og fleksibilitet. Prisen for den frihed er en stejlere læringskurve og en vis visuel distraktion. (hver arbejdsgang kan udformes forskelligt), men belønningen er at være i stand til at prototype hurtigt, foretage præcise fejlfindinger og dele arbejdsgange på en reproducerbar måde.

ComfyUI vs. AUTOMATIC1111

Mange brugere kommer fra AUTOMATIC1111, klassikeren for stabil diffusion. ComfyUI forbedrer lethed, gennemsigtighed og prototypefunktionerA1111 føles mere ensartet og direkte, men mindre detaljeret. Hvis du vil forstå de indre funktioner og få mest muligt ud af VFX, er ComfyUI et sikkert bud.

Første trin og grundlæggende kontroller

Det er nemt at interagere med lærredet: zoom med et hjul eller en knibebevægelse, træk for at flytte, og opret forbindelser ved at trække fra outputtet fra én node til inputtet fra en anden. Du vil se blokke (noder) som Load Checkpoint, CLIP Text Encode, KSampler eller VAEog kabler, der repræsenterer datastien.

Tekst til billede: basislinjeflow og vigtige noder

Standardpipelinen inkluderer indlæsning af et checkpoint, kodning af prompten, sampling i latenter og afkodning til pixels. Dette er skelettet, som næsten alt i ComfyUI er bygget på..

Modelvalg med belastningskontrolpunkt

Load Checkpoint-noden leverer tre dele: MODEL (støjforudsigelsesnetværk), CLIP (tekstkoder) og VAE (for at gå fra pixels til latente elementer og omvendt). MODEL sender KSampleren, CLIP går til tekstnoderne, og VAE bruges til at afkode det endelige resultat.Uden et checkpoint er der intet spil, så vælg et, der er kompatibelt med din arbejdsgang.

Positive og negative prompts med CLIP Text Encode

Brug to CLIP Text Encode-noder: den øverste til positiv og den nederste til negativ. Teksten omdannes til indlejringer i høj opløsning, der styrer formidlingen.Du kan vægte ord med syntaks (term:1.2) for at give begreber mere eller mindre vægt.

KSampler-generering og parametre

KSampler

Prøveudtagningen starter, når du sætter den i køen (køprompt). KSampler styrer seed, steps, sampler, scheduler og denoise-styrkeEt fast frø giver reproducerbarhed; flere trin forbedrer normalt detaljerne (på bekostning af tid); denoise=1 i text2img anvender den fulde støjfjernelseproces.

Tomt latent billede: opløsning og batches

Noden Empty Latent Image opretter det indledende latente lærred. Højde og bredde skal være multipla af 8Typiske størrelser: 512/768 for SD 1.5 og 1024 for SDXL. Juster batchstørrelsen, hvis du ønsker flere billeder pr. kørsel.

VAE: kompression og rekonstruktion

VAE koder og afkoder mellem pixels og latenter. Det giver effektivitet og et manipulerbart latent rum til gengæld for tab eller artefakter.I text2img vil du primært bruge det til sidst (VAE Decode) for at få billedet i pixels.

Billede til billede, SDXL og indmaling/udmaling

Billede for billede

Denne arbejdsgang kombinerer en prompt og et basisbillede. Vælg kontrolpunkt, indlæs billede, gennemgå prompter, og juster støjreduktionen i KSampler for at bestemme, hvor langt du afviger fra originalen (mindre støjreduktion = mere som kilden).

SDXL på ComfyUI

ComfyUI understøtter SDXL tidligt og effektivt takket være dets modularitet. Forbered positive/negative prompts og start processen med den relevante sampler; husk den optimale opløsning af det latente (normalt 1024).

Indmaling

For at ændre bestemte områder skal du indlæse billedet, åbne maskeeditoren og gemme masken på noden. Denne arbejdsgang bruger standardmodeller; hvis du bruger et "inpainting"-checkpoint, skal du bruge VAE Encode (Inpaint). I stedet for standardnoderne VAE Encode og Set Noise Latent Mask indstiller den prompten til at beskrive ændringen og en typisk støjreduktionsstyrke, f.eks. 0.6.

Udmaling

Udvid billedets grænser med Pad Image til Outpainting: styr venstre/top/højre/bund og udtynding for jævne overgange. I VAE Encode (til Inpainting) skal du justere grow_mask_by (bedre >10) for at opnå mere naturlige og velintegrerede fyldninger.

Skalering: pixel vs. latent

Pixel-opskalering

Opskaleret pixel

To måder: via algoritme (bikubisk, bilineær, nærmeste-nøjagtige) med opskaleret billede, eller via model med Indlæs opskaleret model + opskaleret billede (ved hjælp af model). Algoritmer er hurtige, men mindre raffinerede; modeller tager længere tid og tilbyder normalt bedre detaljerog du kan kombinere udflugter med en Pakke med 50 effekter til After Effects.

Opskalere af latent

Den såkaldte Hi-Res Latent Fix skalerer direkte i det latente rum, hvilket beriger detaljerne under rekonstruktionen. Den kan afvige en smule fra originalen og er langsommere, men den tilføjer information i stedet for bare at strække pixels.

Hurtig sammenligning

Pixelopskalering: hurtig, uden at tilføje ny information, mulig udjævning. Latent opskalering: langsommere, Det tilføjer detaljer, men kan ændre det grundlæggende billede.Vælg i henhold til kontekst og ønsket troskab.

ControlNet: fin kontrol af strukturen

ControlNet giver retningslinjer såsom grænser, pose, dybde eller segmentering for at sikre, at modellen respekterer strukturen. Det er et ekstremt kraftfuldt værktøj til VFX, fordi det konsekvent fikserer komposition og bevægelse.Prøv Lineart, Depth eller OpenPose, og juster styrken for at afbalancere naturtrohed/kreativitet.

ComfyUI-administrator: Brugerdefinerede noder opdateret

Installer manglende noder

Hvis en arbejdsgang anmoder om noder, som du ikke har, skal du bruge Manager: knappen Manager, "Installer manglende brugerdefinerede noder", genstart ComfyUI og genindlæs browseren. Dette sikrer, at du replikerer det delte flow nøjagtigt..

Opdater noder

Fra Manager skal du søge efter opdateringer og klikke på "Installer brugerdefinerede noder". Hvis "Opdater" vises ved siden af ​​en pakke, skal du anvende den, genstarte og opdatere. At holde noder opdaterede forhindrer fejl og forbedrer funktionaliteten.

Søg efter noder på lærredet

Dobbeltklik på det tomme lærred for at åbne nodesøgeren og tilføje dem efter navn. Dette fremskynder samlingen af ​​komplekse kæder. uden at gennemse menuer.

Indlejringer (tekstinvertering)

ComfyUI

For at aktivere en indlejring skal du skrive embedding:Name ved den positive eller negative prompt. Placer filen i ComfyUI/models/embeddings ComfyUI vil anvende det, hvis det finder et match. Det er en effektiv måde at inkorporere specifikke stilarter eller koncepter på.

Integrering af autofuldførelse

Installer ComfyUI-Custom-Scripts-pakken for autofuldførelse. Når den er aktiv, vil dine tilgængelige indlejringer blive vist, når du begynder at skrive "embedding:".accelerering af arbejdet med store samlinger.

Indlejringsvægt

Du kan vægte det ligesom med ord: (embedding:Name:1.2) øger indflydelse og (embedding:Name:0.8) reducerer den. Justering af vægte giver dig fin kontrol over den visuelle effekt.

LoRA: tilpasser stilen uden at røre VAE

En LoRA ændrer MODEL og CLIP for basiskontrolpunktet for at introducere stilarter, tegn eller objekter, hvilket lader VAE være intakt. Grundlæggende flow: vælg kontrolpunkt, tilføj en eller flere LoRA'er, gennemgå prompts, og start køen.

Flere kaskaderende LoRA'er

Du kan anvende flere LoRA'er i samme flow; de kombineres sekventielt. Eksperimentér med rækkefølge og vægte for kreativt at blande stilarter indtil den ønskede balance er opnået.

LoRA

Genveje og tricks, der sparer timer

Kopiér/indsæt: Ctrl+C, Ctrl+V og Ctrl+Shift+V for at indsætte, mens du beholder posterne. Vælg flere noder med Ctrl, opret markeringsbokse og flyt dem med Shift til hurtig layout.

Hvis du slår en node fra med Ctrl+M, udelades den midlertidigt. minimer en node ved at trykke på prikken i dens øverste venstre hjørne at rydde lærredet i store projekter.

Genereringskø: Ctrl+Enter. ComfyUI genudfører kun noder, hvis input ændres; retter frø for at undgå genberegning af lange kæder og spare tid.

PNG-indlejret flow: Træk et genereret billede ind i ComfyUI for at hente workflowet fra dets metadata. Det er en fremragende måde at dele og versionere pipelines på uden at miste brikker. Hvis du lærer bedre med video, så tjek ud 10 banebrydende videovejledninger.

ComfyUI til video: AnimateDiff trin for trin

AnimateDiff giver dig mulighed for at generere sekvenser fra tekst, billeder eller video. For Windows med NVIDIA er 10 GB VRAM optimalt (minimum 8 GB ved lavere opløsninger eller Txt2Vid)I krævende projekter kan du forvente omkring 10 GB med 2 ControlNets.

Installation og afhængigheder

Installer Git for at klone noder og 7-Zip for at udpakke den bærbare ComfyUI. FFmpeg er valgfri (til pakning af GIF/MP4 fra kombineringsnoder)Hvis det ikke er i PATH, fortsætter streams med at generere løse frames.

Download den bærbare ComfyUI og kør run_nvidia_gpu første gang for at initialisere. I mappen med brugerdefinerede noder skal du klone ComfyUI-AnimateDiff-Evolved, ComfyUI-Manager, ComfyUI-Advanced-ControlNet og ComfyUI-VideoHelperSuite.

Installer “ControlNet Auxiliary Preprocessors” og “FizzNodes” fra Manager. Genstart ComfyUI for at indlæse alt korrekt og undgå importfejl.

Modeller nødvendige

Placer kompatible SD 1.5-kontrolpunkter i den relevante mappe og en generel VAE, hvis det er nødvendigt. Download bevægelsesmoduler (f.eks. de originale fra AnimateDiff, TemporalDiff eller AD Stabilized Motion) og kopier dem til din sti. For ControlNet skal du tilføje Lineart, Depth og OpenPose (pth/yaml).

Vigtige arbejdsgange: Vid2Vid og Txt2Vid

Vid2Vid: indlæser en mappe med billeder med billed-/video-inputnoden, styrer image_load_cap, skip_first_images og select_every_nth for varighed og sampling. Ensartede kontekstindstillinger er afgørende: kontekstlængde ~16, overlap for kontinuitet og lukket løkke kun for Txt2Vid.

Txt2Vid: bruger en primær frameknude (uden en billedindlæser) og genererer direkte fra prompten. Med Denoise=1 i KSampler får du en fuldt generativ effekt, ideel til fantasifulde klip.

Planlægning af batchprompter

FizzNodes' BatchPromptSchedule giver dig mulighed for at variere prompts pr. frame. Den bruger pre_text og app_text til almindelige headere og closures og definerer "frame: prompt"-par. Vær forsigtig med det sidste komma i det sidste element, det vil forårsage en fejl; duplikerer en instruktion, hvis du vil beholde den mellem intervaller.

Sampling og kombination af indstillinger

ComfyUI til VFX: Introduktion, installation og arbejdsgang

KSampler til video kræver flere trin (minimum 25 og bedre at øge). Prøv Euler_a-sampleren og juster CFG efter din smag.I Vid2Vid skal du sænke støjreduktionen for at komme tættere på kildeklippet. Kombiner-noden eksporterer GIF/MP4: definer billedhastighed, loopantal, format og om du vil have ping-pong.

Praktiske tips: sænk styrken af ​​ControlNet til stillbilleder, prøv OpenPose, brug en anden KSampler til "hires"-korrektion. Prøv Motion LoRA for at berige specifikke bevægelser og kombinerer ControlNets sparsomt.

Andre videomotorer i ComfyUI

HunyuanVideo (img2vid med undertekster)

Forbered dit billede til 512x512 og generer en undertitel med Florence2Run. Erstat udtryk som "billede/foto/illustration" med "video" ved hjælp af StringReplace For at justere med modeltræningen. Konverter til latent rum ved hjælp af HunyuanVideo Sampler + wrappers, anvend Lora Select og eksporter med combineren.

LTX-video (LTX-nodepipeline)

Installer ComfyUI-LTXVideo-noder og -modeller (inkluderer PixArt-XL-encoder). Skriv prompten i CLIP, opret videoen latent med EmptyLTXVLatentVideo og juster LTXVSchedulerAntallet af trin øger kvaliteten, og parametre som max_shift, base_shift, stretch og terminal former klippets dynamik. Gem med SaveAnimatedWEBP (tabsfri sand, kvalitet 100) eller eksporter til andre formater.

Wan 2.1 (tekst til video, billede til video, video til video)

ComfyUI integrerer også flows til Wan 2.1. Dens anvendelse omfatter Txt2Vid, Img2Vid og Vid2Vid, med parameterkontrol svarende til tidligere pipelines og fordele i tidsmæssig konsistens afhængigt af brugsscenariet.

Bevægelsesgrafik: segmentering, dybde og blanding

For bevægelsesgrafikanimationer fra video, start med LoadVideoInput, styr Skip First Frames og Select Every Nth Frame, og skaler med ImageScaleToMegapixels op til ~1MP. Denne forbehandling justerer VRAM-belastning og driftshastighed i generationen. Du kan også tjekke hvordan Opret titler i Premiere at integrere grafik og kreditter.

Segmentér motivet ved hjælp af GroundingDINO og SAM med GroundingDinoSAMSegmentér fra tekst. Forstør masken med GrowMaskWithBlur og konverter den til et billede med MaskToImage for en mere robust disposition.

Opret et tidssignal med TimeFeatureNode og moduler det med FeatureScaler (lineært, logaritmisk, eksponentielt). Dette giver dig mulighed for at kontrollere dybdeforskydninger (Z) eller maskepositioner langs klippet for flere filmiske effekter.

Generer en dybdeafhængig genmalingsmaske med FlexMaskDepthChamber, der kombinerer motivmasken, tidssignalet og et dybdekort over klippet. Juster Z foran/Z bagpå for at definere den aktive zone på et givet tidspunkt. og opnå en overbevisende 3D-effekt.

I den generative fase skal du indlæse kontrolpunkt, anvende LoRA'er, konfigurere prompts, og tilføje ControlNet, hvis det er relevant. AnimateDiff giver dig billederne; interpoler derefter med RIFE VFI for at fordoble glatheden og glidende overgange.

Hvis du vil blande gennemløb: generer flere versioner med forskellige indikationer, vælg segmenter med ImageIntervalSelectPercentage, bland overgange med ImageBlend og sammenkæd med ImageBatchMulti. En sidste gennemgang af RIFE VFI efterlader animationen silkeblød og klar til eksport.

ComfyUI online og cloud-alternativer

Capcut logo

Hvis du ikke ønsker at installere noget, findes der cloud-tjenester med ComfyUI prækonfigureret, med hundredvis af noder/modeller og snesevis af færdige arbejdsgange. De er nyttige til hurtige tests eller for teams, der deler skabeloner uden at skulle have kontakt med lokale myndigheder. Som et hurtigt og nemt alternativ er der også ressourcer på animationer og visuelle effekter i CapCut.

En anden mulighed er at bruge cloudbaserede videogeneratorer som Dreamina: simpel brugerflade, ingen lokal VRAM og resultater på 20-60 sekunder. Den tilbyder ekstrafunktioner som HD-opskalering, billedinterpolation og generering af lydspor.Med gratis daglige kreditter til at komme i gang er det et strømlinet alternativ, når hastighed er vigtigere end detaljeret kontrol.

Ydeevne, krav og tider

Lokalt kræver ComfyUI til billede til video normalt mellem 8 og 24 GB VRAM afhængigt af modellen (AnimateDiff, HunyuanVideo, LTX Video) og opløsningen. Selv på kraftfulde GPU'er kan en generation tage 10-30 minutter Hvis klippet er langt, eller hvis du bruger flere ControlNets og højpasfiltre, flyttes belastningen til udbyderen i skyen.

ComfyUIs software er gratis, men prisen ligger i hardware og strøm, hvis du arbejder i lang tid. Skyen undgår den udgift til gengæld for at være afhængig af tjenesten og et gebyr eller kreditter.Vurder, hvad der gavner din arbejdsgang mest.

Almindelig fejlfinding

Hvis du ser null-fejl eller noder, der "ikke findes", mangler du sandsynligvis modeller i dine mapper eller afinstallerede afhængigheder. Bekræft, at hver node har sin tilknyttede model, og brug Manager til at installere eventuelle manglende pakker.Undgå konflikterende lagre, hvis du allerede bruger ComfyUI til andre opgaver.

Bedste praksis for ensartet VFX

Lås frø for reproducerbarhed, mens du justerer sektioner af kæden. Gem billeder med arbejdsgangsmetadata og annotér node- og modelversionerI video skal du omhyggeligt definere kontekstlængde og overlap, og opretholde en klar rækkefølge af ControlNets og LoRA'er.

Skift taktisk mellem opskaleret pixel og latent afhængigt af optagetype og detaljeniveau. I Vid2Vid skal du reducere støjreduktionen for at respektere basisbevægelsen.I Txt2Vid skal du trykke på trin og sampler for at opnå visuel stabilitet.

Integrer ControlNet-forprocessorer (canny, depth, openpose…) fra Manager for at udvide din værktøjskasse. Og husk: mindre ControlNet-styrke fungerer ofte bedre i video.undgår et filtreret udseende og bevarer et naturligt udseende.

Sørg for at undersøge HunyuanVideo og LTX Video, hvis din sag kræver undertekstguider, anden tidsdynamikkontrol eller alternative pipelines. Wan 2.1 tilføjer også solide muligheder for Txt2Vid, Img2Vid og Vid2Vid med ensartede parametre og konkurrencedygtige resultater.

De, der søger hastighed og friktionsfrihed, kan stole på onlinetjenester, mens dem, der kræver kirurgisk kontrol og total reproducerbarhed, vil klare sig med lokal ComfyUI. Med de dele, du har set – noder, parametre, genveje og flows – har du nu køreplanen til at producere VFX i topklasse. både i stillbilleder og videosekvenser, på en fleksibel og skalerbar måde.

farve og lyseffekt
relateret artikel:
Studer specialeffekter: Hvorfor dedikere dig selv til VFX-verdenen