Installera generativa bildmodeller med AI Stable Diffusion gratis på PC

AI-bildgenerering väcker intresse, men hur fungerar det egentligen? Med hjälp av öppna källkodmodeller som Stable Diffusion kan vi skapa fantastiska, konsekventa bilder direkt på vår dator.

Alla pratar om det, alla provar det, men hur fungerar bildgenerering via AI egentligen? Att gå in på en av de många webbplatser som skapar bilder och be om att få se en solnedgång, ett landskap eller en slumpmässig person, är en sak. Att generera en uppsättning liknande eller konsekventa bilder som kanske avbildar samma subjekt är en helt annan sak.

En annan fråga som dyker upp, och som dessutom är mer praktisk, är: kan vi generera nya, fantasifulla eller realistiska bilder utan att använda externa tjänster, utan bara använda vår dator och kanske till och med gratis utan krediter och olika begränsningar och censurer?

Om jag skriver denna artikel är det klart att vi kan generera alla bilder vi vill, även konsekventa, från vår dator med hjälp av fria och öppna källkodsgenereringsmodeller.

Inledning

Innan vi kommer till hur man gör det, är det faktiskt nödvändigt att förstå två eller tre koncept för att veta vad vi håller på med; annars riskerar vi att använda ett verktyg på måfå som aldrig kommer att ge de resultat vi förväntar oss eller hoppas på. Det blir en superkoncis och väsentlig diskussion.

Så, för att återknyta till guiden för att installera en AI på PC, om vi för textchatten endast behöver en språkmodell eller LLM, så behöver vi för GenAI eller generativ artificiell intelligens en djuplärningsmodell, en text-bild modell.

Exempel på dessa text-bildmodeller är de berömda DALL-E från Open AI, den första som kom ut, sedan Midjourney, som jag pratade omfattande om för ett tag sedan, Grock från X, Imagen från Google och, framförallt, den viktigaste för oss alla, Stable Diffusion.

Stable Diffusion, vars historia och funktion kan läsas på Wikipedia, är den fria open source-modellen för latent text-bild diffusion från Stability AI som alla kan använda fritt. Stable Diffusion är också en lättare modell jämfört med DALL-E och Midjourney, som kan installeras på din egen dator och används av den stora majoriteten av webbplatser och applikationer som erbjuder bildgenereringstjänster.

Krav för Stable Diffusion på PC

Vi tackar därför skaparna av Stable Diffusion, men det finns två problem för dem som vill leka med generativ AI.

Det första är kostnaden i termer av videominne: för att skapa bilder via AI krävs en dator med minst, för Stable Diffusion, 12 GB VRAM, minnet från grafikkortet. Därför, om du verkligen vill göra allt hemma, blir det nödvändigt att köpa ett NVIDIA GeForce grafikkort med mycket VRAM, minst 12 GB, vilket som vi har sett kostar minimum 600 Euro (och trots denna kostnad får vi precis det minimum vi behöver). För tester kan även 6 GB VRAM räcka, men detta problem kan enkelt lösas även utan att köpa något, via Cloud, som vi snart kommer att se.

Det andra problemet rör AI:ns inlärning. I korthet, om vi installerar programvaran och sedan ber om att skapa bilden av en tjej, kommer hon att dyka upp med ett visst utseende. Andra gången kommer hon att se helt annorlunda ut och kanske kommer hon att se ut som en tecknad serie eller en 3D-digital figur. I grund och botten måste vi ge AI:n lite kontroll för att säkerställa att bilderna är av samma typ. För att lösa detta krävs bara lite tålamod för att förstå och använda verktygen.

Övriga krav är rent mjukvarumässiga. Datorn måste ha installationen av Python och sedan verktyget Git.

Ladda ner och installera Stable Diffusion på PC

Det finns tre huvudprogram för att installera Stable Diffusions AI på din egen PC, alla tre är open source och fungerar på liknande sätt, men med olika installations- och konfigurationsmetoder. Dessa är:

    • AUTOMATIC1111 eller A1111, tillgängligt för Mac och Windows samt på molnet. Guider och användarinstruktioner finns på webbplatsen StableDiffusion.art.
    • Fooocus, ett liknande program för Windows och Linux, som kan laddas ner från Github, där alla instruktioner finns.
      • Fooocus är ganska enkelt att använda eftersom det även stöder bildgenerering från en bild, så du kan ladda upp ett eget foto eller göra en ansiktsbyte.
      • ComfyUI är inte bara den mest kraftfulla av programmen utan också det enklaste, delvis eftersom det finns ett paket för Windows som har allt inkluderat, så ingen konfigurationskommando krävs och det kan användas omedelbart. Om du har en PC med ett NVIDIA-grafikkort kan du ladda ner programmet ComfyUI_windows_portable_nvidia.7z från release-sidan, som bara behöver extraheras och köras.

Som man kan märka från webbplatserna för dessa program, om du inte har en tillräckligt kraftfull PC eller om du inte vill spendera för mycket tid på att installera manuellt, kan du köra dem i molnet tack vare plattformen Google Colab. Colab är i grunden en Google-tjänst som gör att du kan ansluta till en Google-server med 16 GB VRAM för att köra Python-kommandon. Åtkomsten kräver bara ett Google Drive-konto och är gratis under en viss tid. På Colab kan programmen alltså startas (genom att trycka på Play-knappen bredvid kommandoraderna):

ComfyUI kan också köras i molnet, komplett med modeller och checkpoints, från webbplatsen RunComfy.com, som låter dig hyra en virtuell maskin med 16 GB VRAM gratis eller även för hyra, utan abonnemang, där du bara betalar för tiden du använder eller för mer minne.

Ladda upp modeller eller checkpoints

Oavsett vilket program vi använder, rekommenderar jag ComfyUI eller Fooocus, för att generera bilder är det nödvändigt att ladda upp så kallade checkpoints, det vill säga AI-modeller som inte ingår. Stable Diffusion är en av dessa AI-modeller, men det finns flera andra. Dessa AI-modeller eller checkpoints är filer med formatet .safetensors som måste laddas ner och placeras i mappen för modeller (öppna programmappen och sedan öppna sökvägen models/checkpoint och kopiera .safetensors-filerna dit).

Modellerna safetensors kan laddas ner från webbplatsen HuggingFace som samlar alla, eller också från webbplatsen Civit.ai som är mindre teknisk och komplett, men också enklare att navigera och söka i. Till exempel kan du ladda ner Stable Diffusion XL 1.0 (gå till File and versions på sidan för att hitta nedladdningarna).

Som man kan märka är världen av generativ AI för bilder oerhört stor, där det är lätt att experimentera, men det kräver att man samlar mycket erfarenhet om man vill ta det på allvar. För att börja, skulle jag rekommendera, om man vill skapa realistiska bilder som fotografier, att ladda ner modellen Juggernaut XL på Civitai baserat på SD XL. Om man vill skapa anime-bilder eller 3D-grafik eller någon annan typ, kan man ladda ner den önskade checkpointen alltid från Civitai eller Huggingface.

Men diskussionen om modeller slutar inte här. Efter de första experimenten kan det kännas som att modellen handlar slumpmässigt och inte följer prompten. Därför finns det så kallade LORA (Low-Rank Adaptation), det vill säga undermodeller som begränsar variationen i bildskapandet så att vi kan definiera bättre vad vi vill och är nödvändiga för att skapa konsekventa bilder. För att förstå historien bättre kan vi tänka på LORA som olika fotofilter. Till exempel, om vi vill skapa bilder av en vacker tjej med perfekt hud, kan vi ladda ner det lämpliga LORA (Realism); om vi vill ha ett.

För att få bilder av en känd person, som Billie Eilish som är mycket populär, måste man ladda ner LORA. Civitai har en stor samling av LORA som kan sökas och laddas ner gratis.

Vi kan även skapa en LORA genom träning (i princip måste man ladda upp 50 eller 60 foton av samma ämne eller detalj) vilket även kan göras online på Civit.ai (även om man måste köpa minst 5 Euro i kredit).

Var också uppmärksam på konceptet Workflow, som i ComfyUI representeras som flödesscheman. Workflows är de steg som algoritmen måste ta (genom checkpoints, LORA och många andra parametrar) för att generera bilden och kan verkligen vara komplexa. På webbplatsen Runcomfy.com kan man ladda ner många färdiga workflows.

Stabil diffusion online

Den som inte har en PC med 12 GB VRAM kan prova dessa program, men bildgenereringen kommer att vara mycket långsam. Lyckligtvis finns det tjänster online. Just nu finns det verkligen många online-tjänster som integrerar Stabil diffusion. Dessa gör inget annat än att ladda programmet med öppen källkod, som till exempel ComfyUI, på sina servrar, ordentligt konfigurerat med Checkpoints och LORA, och erbjuder abonnemang.

Vi har gjort en liten lista över de bästa sidorna för att generera bilder via AI gratis i en annan artikel.

Från de sökningar jag gjort har jag funnit att de absolut bästa sidorna är Civit.ai och Tensor.art, eftersom de fungerar som online-versioner av ComfyUI, komplett med alla checkpoints och LORA som används mest och eftersom de, i termer av kreditförbrukning, är bland de mest generösa och kan användas gratis för att göra många tester och inte bara 5 eller 10 bilder.

Flux

Ett par ord om Flux från Black Forest Lab, en annan generativ AI-modell Text-to-Image med öppen källkod, liknande Stabil diffusion, men mer aktuell och med högre kvalitet. På de ovan nämnda sidorna kan man prova att skapa bilder via Flux och jämföra med de som genereras via SD XL eller SD 1.5. Även om Flux är bättre, är det dock mer "kostsamt" både i termer av videominne (för att använda Flux på egen PC krävs minst 16 GB VRAM) och i termer av kostnad för online-tjänster.

Det enklaste sättet att prova Flux gratis är via webbplatsen Hugging Face. När man trycker på Flux.1 Dev öppnas en sida där det går att skriva en prompt eller ladda upp en bild för att få en ny.

Skrivning av text eller prompt

Mycket information i den här artikeln och jag kan tänka mig att den som är intresserad kommer att göra många fler sökningar och guider, hur som helst, om vi har lyckats konfigurera programmet på PC:n eller registrerat oss för en online-tjänst för att göra det snabbare, kommer nu den svåraste delen: att skriva prompten. Ja, för att generera en välgjord, realistisk eller fantasifull bild behöver man beskriva alla detaljer i prompten, annars kommer det att bli dåligt eller inte korrekt.

Här kan den normala AI:n, ChatGPT eller ännu bättre, Google Gemini hjälpa oss, som fungerar bra för att generera textpromptar. Man kan öppna Gemini Studio och sedan be om något som "generate prompt for stable Diffusion for a photorealistic image of a woman.... ". Utdata kan sedan klistras in i bildgenereringsverktyget. Se till att skriva promptar på engelska, detta är verkligen obligatoriskt.

En utmärkt webbplats för att hitta färdiga promptar att bara kopiera och klistra in för Stable Diffusion och FLux är prompthero.com.

Jag påminner också om att det är möjligt att använda generativ AI för att byta ansikte på ett foto med FaceSwap, en operation som har utvecklats mycket det senaste året.

Avslutningsvis, jag svarar på en sista fråga: Kan vi också generera videor på PC:n via AI?

Svaret, den här gången, är nej, det är fortfarande för tidigt att prata om. För att börja med har den gratis modellen Stable Video Diffusion just kommit ut och fungerar fortfarande inte så bra. Dessutom krävs det ännu mer videominne för att generera videor, så det kan bli riktigt kostsamt.

För videogenerering ligger tjänster som Kling, Hailuo, Hedra, Pika och Runway före, som anges i listan över sidor för...

Generera video via AI

.

Om du har svårigheter eller frågor, med tanke på att ämnet är komplext och ständigt förändras, låt oss veta.

Nyt kun olet lukenut Installera generativa bildmodeller med AI Stable Diffusion gratis på PC loppuun, kutsumme sinut tutustumaan lisää Oppaat-kategoriaan. Löydät sieltä muita mielenkiintoisia artikkeleita, jotka laajentavat tietojasi ja pitävät sinut ajan tasalla. Älä lopeta lukemista ja löytämistä!

Indeksi
  1. Inledning
  2. Krav för Stable Diffusion på PC
  3. Ladda ner och installera Stable Diffusion på PC
  4. Ladda upp modeller eller checkpoints
  5. Stabil diffusion online
  6. Flux
  7. Skrivning av text eller prompt
  8. Generera video via AI

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

Go up