Šta je potrebno za pokretanje lokalnog AI modela

malipirat · 25.03.2026

Може ли неко навести шта је све потребно да би се покренуо локални АИ модел (која графичка картица, који програм, који АИ модел). Не интересују ме профи варијанте за фирму, већ нешто за кућно тестирање, евентуално да се користи за превођење текста.

Ако може да се наведе шта се од графичке предлаже. Претпостављам GeForce RTX 40xx/50xx, али ако може да се наведе шта све утиче на брзину (количина меморије, брзина магистрале, број оних чуда-муда процесора, број Streaming Multiprocessors...). Замолио бих без коментара типа: треба пар комада RTX 5090 ti 32GB или nvidia rtx a6000 48GB или DGX Spark 128GB. Још једном напомињем, за сада ме интересује само за кућно тестирање, идеално картице у рангу 4060/4070/5060/5070.

Идеално ако би неко подели своје искуство са одређеним аи моделима (Gemini, Gemini-translate, Gemma, Qwen, Qwen-MT ...). Видео сам да постоје теме за сваки појединачни, али ме интересује паралелно поређење (зашто један, а не други). И које моделе користити 4B–32B...

А било би лепо ако би неко поделио и пар оптимизација (типа: Batch size tuning, Quantization (INT8 / 4-bit), Flash Attention, max-autotune GEMM ...) за бржи рад и навео предности. Примера у једном чланку видех да постоји оптимизација max-autotune GEMM, али је за њу потребно да GPU има преко 68 SM, што опет ограничава које графичке карте се могу користити. Да ли је неко користио ово или сличне оптимизације и колико се осете у реалним условима?

Унапред хвала

momsab · 27.03.2026

vidi ovu temu

Tema "Lokalno korišćenje AI modela"

31.05.2025

Šta i kako koristite od lokalnih modela i programa? Skoro sam naleteo na Jan. Ima vulkan llama backend, pa radi i sa AMD kartama bez rocm podrške. Sporije, ali brže od CPU varijante, kod mene oko 3x (RX 6600 vs R7 5700X)

Onlyoffice je dodao plugin za lokalni AI, može biti dobra alternativa za MS i copilot

malipirat · 27.03.2026

momsab je napisao(la):
vidi ovu temu

Tema "Lokalno korišćenje AI modela"

31.05.2025

Šta i kako koristite od lokalnih modela i programa? Skoro sam naleteo na Jan. Ima vulkan llama backend, pa radi i sa AMD kartama bez rocm podrške. Sporije, ali brže od CPU varijante, kod mene oko 3x (RX 6600 vs R7 5700X)

Onlyoffice je dodao plugin za lokalni AI, može biti dobra alternativa za MS i copilot

Space Beer

Odgovora: 41

Forum: Veštačka inteligencija

Већ сам прегледао ту тему, пре постављање ове.
У наведеној теми се форсира покретање АИ на Radeon картицама и превазилажење проблема. Негде сам читао да иста генерација Radeon даје 30-50% слабије резултате од исте генерације GeForce картице. Стим да Radeon има више VRAM па могу већи модели да стају, али опет приметно спорије. Зато сам питао за geForce RTX картице.

Mare · 27.03.2026

Iskreno mislim da su performanse nebitne. Ti nemaš uslove za bilo koji model koji može da se koristi za bilo šta, za to što trebi treba izigraj se jedan dan da li imaš 10 tps ili 20 tps nebitno. Niko to ne koristi više od 1-2h da vidi kako radi, a onda se svi vrate na Frontier modele... to što ti možeš da dobiješ za tim hardverom je nivo GPT 2, možda... tako da to je samo da vidiš... GPT 4 All... steraj sve na CPU za probu dovoljno, sve radi na klik, i kad obrišeš nema repova...

pmb · 27.03.2026

Ne znam koliko je u pravu moj custom GPT za AI i research scenu, jer sam ja pre nekih 6-7 meseci pokretao DeepSeek kvantove na RTX 5090, katastrofa je išlo, non stop štucanje pri najkraćim promptovima. Jeftinije mi je da plaćam tri glavna LLM nego račune za struju uz loše iskustvo.
Možda se u međuvremenu promenilo, kako sugeriše ovaj GPT.

"Ево како бих ја то сумирао корисно и без „купи 4× 5090” приче.

За кућно тестирање локалног LLM-а ти у пракси требају 3 ствари: 1) GPU са довољно VRAM-а, 2) runtime/program за локално покретање, 3) модел који реално стаје у ту меморију. Најлакши пут је LM Studio ако хоћеш GUI и што мање петљања, или Ollama ако хоћеш једноставан CLI/API. Оба могу локално; LM Studio ради и потпуно offline и може да служи локални API, а Ollama је баш прављен за покретање модела на локалној машини. Ако хоћеш највише контроле над GGUF моделима и квантима, онда llama.cpp. Qwen-ов званични repo чак експлицитно наводи локални рад преко llama.cpp, Ollama и LM Studio. (LM Studio)

Прва важна ствар: Gemini није локални/offline избор у овом контексту, то је API/cloud линија. Ако хоћеш стварно локално, гледај Gemma 3 и Qwen3 / Qwen3.5. Исто тако, Qwen-MT јесте веома занимљив за превођење, али је у пракси позициониран као translation сервис/API (qwen-mt-lite / flash / plus), а не као класичан „скини weights и терај код куће” модел. (Google AI for Developers)

Шта највише утиче на брзину, по реду важности за кућни LLM:
1) VRAM количина – ако модел не стане, све друго пада у воду.
2) Memory bandwidth – код генерисања токена LLM inference врло често удара у bandwidth/меморијски зид, не у „сирову математику”.
3) Квантизација – 4-bit/8-bit често прави већу разлику од самог преласка са једне средње карте на другу.
4) CUDA/SM/Tensor ресурси – битни су, али код једнокорисничког чета/превођења обично долазе после VRAM-а и bandwidth-а. Hugging Face баш наводи да KV cache и његово поновно читање постају озбиљан memory-bandwidth bottleneck у ауторегресивном декодирању. (huggingface.co)

На картицама које помињеш, ја бих грубо овако гледао:

8 GB VRAM: довољно за 4B, понекад 8B у 4-bit, али са мање простора за дужи контекст и мање комфора.
12 GB VRAM: лепо за 8B, често употребљиво за 12B/14B у 4-bit, али без много резерве.
16 GB VRAM: ово је реални sweet spot за кућни AI, јер отвара много више простора за 12B/14B и нормалнији рад.
Google за Gemma 3 наводи приближно: 4B Q4_0 ≈ 3.4 GB, 12B Q4_0 ≈ 8.7 GB, 27B Q4_0 ≈ 21 GB, и то без додатне меморије за prompt/KV cache и сам софтвер. То је одличан оријентир и за друге dense моделе сличне величине. (Google AI for Developers)

Из тога следи и најважнији практичан закључак: за локални AI је често боља 16GB карта него бржа 12GB карта. Зато бих за куповину пре гледао RTX 4060 Ti 16GB или RTX 5060 Ti 16GB него RTX 4070/5070 12GB, ако ти је примарни циљ локални LLM, а не gaming.
С друге стране, ако већ имаш 4070 или 5070, наравно да су употребљиве — само знај да ће те пре ограничити 12 GB VRAM него „снага чипа”. NVIDIA наводи да RTX 5070 има 12 GB GDDR7, 6144 CUDA језгара и 672 GB/s bandwidth, док RTX 4070 има 12 GB, 5888 CUDA језгара и 504 GB/s bandwidth; 5070 је дакле осетно јача као inference карта, али је и даље 12GB класа. За 5060 family NVIDIA наводи 8 GB за 5060 и 16/8 GB за 5060 Ti, уз до 448 GB/s bandwidth код те породице. (NVIDIA)

Што се модела тиче, ја бих то пресекао овако:

За локално превођење/мултијезичност прво бих пробао Qwen, јер Qwen3 званично истиче 100+ језика/дијалеката и јаке multilingual/translation способности, а има и леп dense распон: 4B, 8B, 14B, 32B.
Gemma 3 је такође одличан избор, посебно јер има 4B, 12B, 27B и Google даје лепе меморијске процене + QAT checkpoint-ове.
Qwen-MT бих гледао само ако ти је cloud/API прихватљив, јер је то баш translation-специјализован модел, са 92 језика и стварима попут terminology intervention, domain prompting и translation memory.
Gemini у овој причи прескочи ако ти је услов „локално”. (GitHub)

Моја практична препорука по величини:

4B: за 8GB карте, проба/тест/лакши превод.
8B: најбољи улазни ниво за озбиљније локално превођење.
12B/14B: најбоља зона ако имаш 12–16GB VRAM.
27B/32B: за 12–16GB gaming карте није баш „кућни sweet spot”; може уз агресиван quant + offload, али брзина падне и искуство буде осредње. (Google AI for Developers)

Оптимизације које стварно вреде:
1) Quantization – ово је највећи добитак. За кућну употребу бих прво гледао Q4_K_M / 4-bit; 8-bit ако ти је квалитет битнији од меморије. Ollama баш каже да quantization омогућава бржи рад, мању потрошњу меморије и покретање на скромнијем хардверу; bitsandbytes наводи да 8-bit преполовљава memory usage. (docs.ollama.com)

2) Batch size tuning – вреди ако радиш batch translation многих сегмената или више захтева одједном. За интерактиван chat/превођење „један текст → један одговор”, немој јурити велики batch; правило палца из HF документације је: ако си latency-constrained, не batch-уј, него мери на свом workload-у. Batch повећава throughput, али и VRAM притисак, а често и latency. (huggingface.co)

3) FlashAttention – да, корисно је; идеја му је да смањи memory bottleneck у attention-у. Али за кућну машину то није прва полуга око које бих градио куповину. Ако runtime то већ интегрише (нпр. vLLM/TGI/неки PyTorch путеви), супер; ако не, и даље ћеш више добити правим избором модела/VRAM-а/quant-а. vLLM га експлицитно подржава. (huggingface.co)

4) max-autotune GEMM – ово бих ставио у категорију „леп бонус, не основа куповине”. PyTorch тренутно има праг типа 68 SM за тај mode; самим тим то није нешто око чега бих бирао карту у рангу 4060/4070/5060/5070. За ту класу картица много је важније да модел стане лепо у VRAM и да runtime/quant буду добри. (GitHub)

Да скратим:
Најмање главобоље: Windows + LM Studio или Ollama + RTX 5060 Ti 16GB / 4060 Ti 16GB + Qwen3 8B или Gemma 3 12B у 4-bit.
Ако већ имаш 4070/5070, користи то без проблема — само рачунај да је 12GB лимит модела, не „GPU снага”.
За чисто локално превођење, мени је најлогичнији старт Qwen3 8B, па онда Qwen3 14B ако имаш 16GB и желиш бољи квалитет. 32B бих у овој класи GPU-а прескочио осим ако свесно прихваташ offload и спорији рад.

Одговор сам саставио као практичан, anti-hype резиме са фокусом на локалну употребљивост."

marantz · 27.03.2026

malipirat je napisao(la):
Може ли неко навести шта је све потребно да би се покренуо локални АИ модел (која графичка картица, који програм, који АИ модел). Не интересују ме профи варијанте за фирму, већ нешто за кућно тестирање, евентуално да се користи за превођење текста.

Ако може да се наведе шта се од графичке предлаже. Претпостављам GeForce RTX 40xx/50xx, али ако може да се наведе шта све утиче на брзину (количина меморије, брзина магистрале, број оних чуда-муда процесора, број Streaming Multiprocessors...). Замолио бих без коментара типа: треба пар комада RTX 5090 ti 32GB или nvidia rtx a6000 48GB или DGX Spark 128GB. Још једном напомињем, за сада ме интересује само за кућно тестирање, идеално картице у рангу 4060/4070/5060/5070.

Идеално ако би неко подели своје искуство са одређеним аи моделима (Gemini, Gemini-translate, Gemma, Qwen, Qwen-MT ...). Видео сам да постоје теме за сваки појединачни, али ме интересује паралелно поређење (зашто један, а не други). И које моделе користити 4B–32B...

А било би лепо ако би неко поделио и пар оптимизација (типа: Batch size tuning, Quantization (INT8 / 4-bit), Flash Attention, max-autotune GEMM ...) за бржи рад и навео предности. Примера у једном чланку видех да постоји оптимизација max-autotune GEMM, али је за њу потребно да GPU има преко 68 SM, што опет ограничава које графичке карте се могу користити. Да ли је неко користио ово или сличне оптимизације и колико се осете у реалним условима?

Унапред хвала

Ollama za GPT.
ComfyUI za grafičke modele.

Koliko ti VRAM-a treba zavisi od modela. Što veći model veća i kompleksnost. Kod PC-a može da učita ceo model u RAM, pa da pušta u VRAM koliko je trenutno potrebno, ali to znači i slabije performanse. Može i da swap-uje, ali tek to nema smisla.

Modeli su oko 30-40GB, ovi manji do 10GB.

Ja koristim MacStudio M4 Max sa 36GB i MacBook Pro M5 Max 36GB koji zbog UMA mogu da alociraju ceo RAM kao VRAM iz istog pool-a, znači 36GB VRAM-a praktično, ali je to jedva dovoljno za iole kompleksnije modele. Takođe, Apple METAL ne može da priđe nVidia CUDA po performansama (3-4x brže).

Ja ne koristim GPT modele, planiram da napravim lokalni model i povežem ga sa OpenClaw kada budem imao vremena.

Koristim Qwen Image i Qwen Image Edit, koje modifikujem putem LORA u zavisnosti šta treba da radi. Model Q4, Q5, Q9 u GGUF formatu.
Dobar je i HiDream, ali za njega koliko se sećam idu 4 dodatna CLIP-a, pa opet treba dosta memorije za sve to, ako je fp16 (model je oko 40GB i dodatni CLIP-ovi još oko 15GB). To MacStudio sa 36GB ne može da pokrene, bez da intenzivno swap-uje, pa zaključi sam koliko ti VRAM-a treba.

Ako hoćeš da kreiraš fotorealistične slike velike rezolucije (4k, 8k) treba ti jak model i nakon toga najbolje 2-pass upscaler. Prvi pass je latent kroz AI model (generiše nove elemente, teskture i sl na slici dok je skalira), a drugi je na nivou dekodiranih piksela koji dodaje oštrinu i piksele, ali ne menja sam sadržaj slike (klasičan upscaling). Upscaling je isto solidno zahtevan po pitanju VRAM-a. Može da se radi sa manjim tile-ovima, ali se gube performanse.

Realno treba ti PC sa 64GB RAM i min. NVIDIA sa 16-32GB VRAM-a. Ako kupuješ grafiku za AI samo nVidia, ne bacaj pare na Radeone.

Uglavnom, nije čudo da je nestašica memorije...

marantz · 28.03.2026

Evo koliko video memorije jede trenutno ComfyUI sa QWEN Image Edit u GGUF formatu i jednom LORA-om (Python3.12 je AI model).

malipirat · 28.03.2026

marantz je napisao(la):
Evo koliko video memorije jede trenutno ComfyUI sa QWEN Image Edit u GGUF formatu i jednom LORA-om (Python3.12 je AI model).

Pogledajte prilog 533589

То је када покрећеш преко CPU, па је појео 37,22 GB RAM?

„ alociraju ceo RAM kao VRAM” - на папиру то лепо звучи, али RAM је приметно спорији од VRAM на графичкој (6-7 пута спорији, 300 пута мањи пропусни опсег, Bus širina 256-384 наспрам 64). Џаба стане цео модел када је приметно спорији од извршавања на графичкој.

marantz · 28.03.2026

malipirat je napisao(la):
То је када покрећеш преко CPU, па је појео 37,22 GB RAM?

„ alociraju ceo RAM kao VRAM” - на папиру то лепо звучи, али RAM је приметно спорији од VRAM на графичкој (6-7 пута спорији, 300 пута мањи пропусни опсег, Bus širina 256-384 наспрам 64). Џаба стане цео модел када је приметно спорији од извршавања на графичкој.

Pogledajte prilog 533662

Ovo je Mac kod njega je UMA arhitektura. Nema veze sa time što si pisao, to se odnosi na PC.

https://www.perarduaconsulting.com/post/understanding-apple-unified-memory-architecture-vs-pc-memory-access-in-windows-and-linux

Kod PC-ja je to malo teže, pa ti zato treba grafička sa min. 32GB VRAM-a, jer ne znam šta bi učitao u 16GB. Za razliku od Mac-a kod PC-ja su odovojeni memorijski pulovi za VRAM i RAM, pa je svaki transfer između njih jako spor, jer ide preko magistrale.

Ipak, velika prednost PC-ja je nVidia CUDA, ali ti treba dobra grafička sa dosta VRAM-a za solidne performanse.

Uglavnom, 8GB VRAM-a i slične varijante zaboravi.

testthenext · 29.03.2026

pmb je napisao(la):
Ne znam koliko je u pravu moj custom GPT za AI i research scenu, jer sam ja pre nekih 6-7 meseci pokretao DeepSeek kvantove na RTX 5090, katastrofa je išlo, non stop štucanje pri najkraćim promptovima. Jeftinije mi je da plaćam tri glavna LLM nego račune za struju uz loše iskustvo.
Možda se u međuvremenu promenilo, kako sugeriše ovaj GPT.

"Ево како бих ја то сумирао корисно и без „купи 4× 5090” приче.

За кућно тестирање локалног LLM-а ти у пракси требају 3 ствари: 1) GPU са довољно VRAM-а, 2) runtime/program за локално покретање, 3) модел који реално стаје у ту меморију. Најлакши пут је LM Studio ако хоћеш GUI и што мање петљања, или Ollama ако хоћеш једноставан CLI/API. Оба могу локално; LM Studio ради и потпуно offline и може да служи локални API, а Ollama је баш прављен за покретање модела на локалној машини. Ако хоћеш највише контроле над GGUF моделима и квантима, онда llama.cpp. Qwen-ов званични repo чак експлицитно наводи локални рад преко llama.cpp, Ollama и LM Studio. (LM Studio)

Прва важна ствар: Gemini није локални/offline избор у овом контексту, то је API/cloud линија. Ако хоћеш стварно локално, гледај Gemma 3 и Qwen3 / Qwen3.5. Исто тако, Qwen-MT јесте веома занимљив за превођење, али је у пракси позициониран као translation сервис/API (qwen-mt-lite / flash / plus), а не као класичан „скини weights и терај код куће” модел. (Google AI for Developers)

Шта највише утиче на брзину, по реду важности за кућни LLM:
1) VRAM количина – ако модел не стане, све друго пада у воду.
2) Memory bandwidth – код генерисања токена LLM inference врло често удара у bandwidth/меморијски зид, не у „сирову математику”.
3) Квантизација – 4-bit/8-bit често прави већу разлику од самог преласка са једне средње карте на другу.
4) CUDA/SM/Tensor ресурси – битни су, али код једнокорисничког чета/превођења обично долазе после VRAM-а и bandwidth-а. Hugging Face баш наводи да KV cache и његово поновно читање постају озбиљан memory-bandwidth bottleneck у ауторегресивном декодирању. (huggingface.co)

На картицама које помињеш, ја бих грубо овако гледао:

8 GB VRAM: довољно за 4B, понекад 8B у 4-bit, али са мање простора за дужи контекст и мање комфора.

12 GB VRAM: лепо за 8B, често употребљиво за 12B/14B у 4-bit, али без много резерве.

16 GB VRAM: ово је реални sweet spot за кућни AI, јер отвара много више простора за 12B/14B и нормалнији рад.
Google за Gemma 3 наводи приближно: 4B Q4_0 ≈ 3.4 GB, 12B Q4_0 ≈ 8.7 GB, 27B Q4_0 ≈ 21 GB, и то без додатне меморије за prompt/KV cache и сам софтвер. То је одличан оријентир и за друге dense моделе сличне величине. (Google AI for Developers)

Из тога следи и најважнији практичан закључак: за локални AI је често боља 16GB карта него бржа 12GB карта. Зато бих за куповину пре гледао RTX 4060 Ti 16GB или RTX 5060 Ti 16GB него RTX 4070/5070 12GB, ако ти је примарни циљ локални LLM, а не gaming.
С друге стране, ако већ имаш 4070 или 5070, наравно да су употребљиве — само знај да ће те пре ограничити 12 GB VRAM него „снага чипа”. NVIDIA наводи да RTX 5070 има 12 GB GDDR7, 6144 CUDA језгара и 672 GB/s bandwidth, док RTX 4070 има 12 GB, 5888 CUDA језгара и 504 GB/s bandwidth; 5070 је дакле осетно јача као inference карта, али је и даље 12GB класа. За 5060 family NVIDIA наводи 8 GB за 5060 и 16/8 GB за 5060 Ti, уз до 448 GB/s bandwidth код те породице. (NVIDIA)

Што се модела тиче, ја бих то пресекао овако:

За локално превођење/мултијезичност прво бих пробао Qwen, јер Qwen3 званично истиче 100+ језика/дијалеката и јаке multilingual/translation способности, а има и леп dense распон: 4B, 8B, 14B, 32B.

Gemma 3 је такође одличан избор, посебно јер има 4B, 12B, 27B и Google даје лепе меморијске процене + QAT checkpoint-ове.

Qwen-MT бих гледао само ако ти је cloud/API прихватљив, јер је то баш translation-специјализован модел, са 92 језика и стварима попут terminology intervention, domain prompting и translation memory.

Gemini у овој причи прескочи ако ти је услов „локално”. (GitHub)

Моја практична препорука по величини:

4B: за 8GB карте, проба/тест/лакши превод.

8B: најбољи улазни ниво за озбиљније локално превођење.

12B/14B: најбоља зона ако имаш 12–16GB VRAM.

27B/32B: за 12–16GB gaming карте није баш „кућни sweet spot”; може уз агресиван quant + offload, али брзина падне и искуство буде осредње. (Google AI for Developers)

Оптимизације које стварно вреде:
1) Quantization – ово је највећи добитак. За кућну употребу бих прво гледао Q4_K_M / 4-bit; 8-bit ако ти је квалитет битнији од меморије. Ollama баш каже да quantization омогућава бржи рад, мању потрошњу меморије и покретање на скромнијем хардверу; bitsandbytes наводи да 8-bit преполовљава memory usage. (docs.ollama.com)

2) Batch size tuning – вреди ако радиш batch translation многих сегмената или више захтева одједном. За интерактиван chat/превођење „један текст → један одговор”, немој јурити велики batch; правило палца из HF документације је: ако си latency-constrained, не batch-уј, него мери на свом workload-у. Batch повећава throughput, али и VRAM притисак, а често и latency. (huggingface.co)

3) FlashAttention – да, корисно је; идеја му је да смањи memory bottleneck у attention-у. Али за кућну машину то није прва полуга око које бих градио куповину. Ако runtime то већ интегрише (нпр. vLLM/TGI/неки PyTorch путеви), супер; ако не, и даље ћеш више добити правим избором модела/VRAM-а/quant-а. vLLM га експлицитно подржава. (huggingface.co)

4) max-autotune GEMM – ово бих ставио у категорију „леп бонус, не основа куповине”. PyTorch тренутно има праг типа 68 SM за тај mode; самим тим то није нешто око чега бих бирао карту у рангу 4060/4070/5060/5070. За ту класу картица много је важније да модел стане лепо у VRAM и да runtime/quant буду добри. (GitHub)

Да скратим:
Најмање главобоље: Windows + LM Studio или Ollama + RTX 5060 Ti 16GB / 4060 Ti 16GB + Qwen3 8B или Gemma 3 12B у 4-bit.
Ако већ имаш 4070/5070, користи то без проблема — само рачунај да је 12GB лимит модела, не „GPU снага”.
За чисто локално превођење, мени је најлогичнији старт Qwen3 8B, па онда Qwen3 14B ако имаш 16GB и желиш бољи квалитет. 32B бих у овој класи GPU-а прескочио осим ако свесно прихваташ offload и спорији рад.

Одговор сам саставио као практичан, anti-hype резиме са фокусом на локалну употребљивост."

Pitanje:

Imam 14900K, 64GB Rama (sto ne uzeh 128 ne mogu da oprostim sebi), 3x2TB M.2 Samsung 990 Pro i RTX 4080 Super sa 16GB memorije.

Igram se sa ComfyUI, generisem razne slike. Eksperimentisem dosta i sa NSFW fotkama tako da nista on line ne dolazi u obzir! Samo lokalno.

Posto vidim da imas dosta iskustva, da li bi mi RX 5090 sa 32 GB RAM doneo vidljivo poboljsanje.

Sto se modela tice, experimentisem sa svim mogucim i naravno da se trudim da su mi modeli sto blize originalnoj velicini. Trudim se da ako mogu ne koristim kvantizovane modele.

Hvala unapred na svakom konstruktivnom savetu 🙂

Hardware Quark · 29.03.2026

Pa doneo bi ti, ali je i 32GB VRAMa nedovoljno za bilo koji ozbiljniji model.

testthenext · 29.03.2026

Imamo neki brend kupacih, fotkamo u studiju pa ubacujem modele na plaze i generalno u morske ambijente u AI-ju. To uopste ne izgleda lose, ali je malo sporo za moj ukus + nisam bas zadovoljan nivoom realizma i mastovitosti modela. Ne mogu sad da se setim svi koje sam probao... ali Flux, Flux Krea, Qwan, Wan, Z-Image Turbo?

Ovi javni modeli na netu gde podignes sliku i kucas prompt mi uglavnom izbacuju restricted content, iako je skroz legitiman, ali po njima nije.

marantz · 29.03.2026

Tako brzo/kvalitetno kao npr. Grok ti neće raditi u lokalu sa 32GB VRAM-a. Zapravo teško da 5090 može da se nosi sa H200. Ipak, u lokalu ćeš izvući višu rezoluciju.
Do pre par dana je sve bilo otključano na Grok-u sa 4.2 (chat i imagine do 30 sec za Supergrok pretplatnike). Sada i kupaće gaće opet tretira kao NFSW.

Ako su to profi fotografije velike rezolucije probaj da u workflow-u skaliraš slike na nižu rezoluciju, pa posle radi 2 pass: latent upscale + pixel upscale. Upscale stavi u drugi workflow da ne bi totalno ubio mašinu. Latent mora dobro da se podesi da ne pusti previše mašti na volju, već da se fokusira na detalje kao što su tekstura kože, lica, kose itd... Da ne ispadne upscale bolji od originala 🙂

Čekamo TurboQuant, možda nam se posreći.

testthenext · 30.03.2026

H200 vidim da kosta 20-30.000$ sto je naravno van razuma za kucnu upotrebu. A vidim da ima i DGX B200, koja u serveru kosta pola miliona 🙂

Jesu profi fotografije ali nisu u visokoj rezoluciji jer sve to i onako ide samo na instagram. Papir odavno niko ne zarezuje.

Ne mogu ovde da kacim te fotke, ali poenta je jednostavnoa.

Uradim na 4080 super prompt gde mu kazem, ubaci mi modela sa ove fotografije u rezort na Maldivima. Posebno mu napisem da nista ne fantazira i ne modifikuje modela, lice, ruke itd. Na desktopu dobijem nesto sto na prvi pogled deluje super ali kada bolje pogledas, vidis da to nije to. Mada postuju i mnogo gore stvari na Instagram ali meni je to bez veze.

Onda isti taj model iskoristim na nekom sajtu, uz naravno isti prompt i dobijem slicnu ali ipak dosta bolju sliku.
Ako me pitas koja je razlika... Sve je realisticnije, proporcije su bolje, teksture, da tako nazovem su realnije, sve je dosta detaljnije, prosto kao da njihov model raspolaze sa mnogo vise informacija o tome kako izgleda svet koji nas okruzuje. Prosto se golim okom vidi razlika izmedju onoga sto sam ja generisao i onoga sto su oni. Moje slike deluju sinteticki u odnosu na njihove, iako su polazni podaci isti.
Pri tom bez problema idem do 67 ili 76 steps, jer mi se pokazalo kao swet spot za gotovo sve modele sem za Z-Image Turbo.

Praksa mi je da doteram kako najbolje znam ulaznu sliku i prompt i parametre, zadam mu da uradi 99 fotki i ostavim ga preko noci da krcka. Em jeftinija struja em hladnije em mi ne uzima vreme. Ujutru proverim sta je uradio, pobrisem fantaziranje i gluposti i sacuvam ili retusiram u Photoshopu ono sto me koliko toliko zadovolji.

E sad, kada bih ga mozda trenirao, tipa da mu ubacim 1000 slika Maldiva, da li bi bilo realnije.. nemam pojma, nisam se toliko udubljivao u tematiku, jer ne vidim sebe vise u kompjuterima sem kao pomocno sredstvo za razvijanje mojih i porodicnih bizinsa.

testthenext · 30.03.2026

Edit:
Sad gledam poredjenje. RTX 5090 je po svemu bolja i to dosta od H200. Jedina razlika je 141GB memorije i bus od 6144bita i Bandwidth od skoro 5TB/s.
H200 je namenjen za ucitavanje kompletnih LLM i rad sa njima.

Nije uopste za generisanje slika i videa po onome sto sam sada procitao...

5090 ima Shading Units 21760 vs 16896 kod H200
TMU 680 prema 528
Tensor Cores 680 vs 528

A te komponente GPU-a s u odgovorne za generisanje slika?

marantz · 03.04.2026

testthenext je napisao(la):
Edit:
Sad gledam poredjenje. RTX 5090 je po svemu bolja i to dosta od H200. Jedina razlika je 141GB memorije i bus od 6144bita i Bandwidth od skoro 5TB/s.
H200 je namenjen za ucitavanje kompletnih LLM i rad sa njima.

Nije uopste za generisanje slika i videa po onome sto sam sada procitao...

5090 ima Shading Units 21760 vs 16896 kod H200
TMU 680 prema 528
Tensor Cores 680 vs 528

A te komponente GPU-a s u odgovorne za generisanje slika?

RTX ne može da se poredi sa H200 za ono što je namenjen H200. Velika količina VRAM-a i 3x veći bandwidth, jednostavno omogućava da veliki modeli ne izlaze iz VRAM-a. Kod RTX5090 čak i sa 64GB imaćeš swap po RAM-u i SSD-u i od toga nema ništa u poređenju sa H200.

H200 ne mora da te zamara pošto je to serverska komponenta koja se ne ubacuje u PCI slot kao klasična grafička kartica niti ima video izlaze.

marantz · 03.04.2026

testthenext je napisao(la):
H200 vidim da kosta 20-30.000$ sto je naravno van razuma za kucnu upotrebu. A vidim da ima i DGX B200, koja u serveru kosta pola miliona 🙂

Jesu profi fotografije ali nisu u visokoj rezoluciji jer sve to i onako ide samo na instagram. Papir odavno niko ne zarezuje.

Ne mogu ovde da kacim te fotke, ali poenta je jednostavnoa.

Uradim na 4080 super prompt gde mu kazem, ubaci mi modela sa ove fotografije u rezort na Maldivima. Posebno mu napisem da nista ne fantazira i ne modifikuje modela, lice, ruke itd. Na desktopu dobijem nesto sto na prvi pogled deluje super ali kada bolje pogledas, vidis da to nije to. Mada postuju i mnogo gore stvari na Instagram ali meni je to bez veze.

Onda isti taj model iskoristim na nekom sajtu, uz naravno isti prompt i dobijem slicnu ali ipak dosta bolju sliku.
Ako me pitas koja je razlika... Sve je realisticnije, proporcije su bolje, teksture, da tako nazovem su realnije, sve je dosta detaljnije, prosto kao da njihov model raspolaze sa mnogo vise informacija o tome kako izgleda svet koji nas okruzuje. Prosto se golim okom vidi razlika izmedju onoga sto sam ja generisao i onoga sto su oni. Moje slike deluju sinteticki u odnosu na njihove, iako su polazni podaci isti.
Pri tom bez problema idem do 67 ili 76 steps, jer mi se pokazalo kao swet spot za gotovo sve modele sem za Z-Image Turbo.

Praksa mi je da doteram kako najbolje znam ulaznu sliku i prompt i parametre, zadam mu da uradi 99 fotki i ostavim ga preko noci da krcka. Em jeftinija struja em hladnije em mi ne uzima vreme. Ujutru proverim sta je uradio, pobrisem fantaziranje i gluposti i sacuvam ili retusiram u Photoshopu ono sto me koliko toliko zadovolji.

E sad, kada bih ga mozda trenirao, tipa da mu ubacim 1000 slika Maldiva, da li bi bilo realnije.. nemam pojma, nisam se toliko udubljivao u tematiku, jer ne vidim sebe vise u kompjuterima sem kao pomocno sredstvo za razvijanje mojih i porodicnih bizinsa.

Teško je lokalni model da ograničiš promptom toliko kao online model pošto nisu trenirani na istim uzorcima. Moraš da se igraš sa npr. CFG parametrima, jer to ograničava ili povećava slobodu modelu da prati promt. U tvom slučaju, ako npr. menjaš postojeću sliku modela, teško je samo kroz prost workflow da postigneš to što hoćeš. Jači CFG će ti menjati i lica modela (imaćeš galeriju sa različitim licima), ali će pratiti više prompt, dok će niža CFG vrednost ići suprotno. To je naravno teorija, ali zavisi i od toga koji model koristiš. Za teksture obično se dodaje LORA.

Ima dosta gotovih workflow JSON fajlova koji su jako dobri i bazirani na poznatim modelima, pa ekspermentiši sa time. Obično se tu odradi cela slika na jakom CFG, pa se kasnije injectuju nepromenjeni delovi slike sa originala.

Možeš i da ubrzaš stvari tako što ćeš da scenu koncipiraš npr. u Grok-u, a posle tu scenu doradiš na lokalnom modelu. Grok ti neće dati npr. sliku ljudi na plaži u kupaćim, ali će postaviti dosta dobro celu scenu na osnovu prompta.

Kasnije možeš da napraviš workflow za upscale (latent+pixel) i dobiješ sliku više rezolucije, ako ti je potrebna.

To je sve improvizovanje koje ne bi verovatno morao da radiš na H200 i skoro 200GB VRAM-a.

testthenext · 04.04.2026

Sa CFG paramterima sam se igrao. Model fantazira vise ili manje. Ali default vrednosti su mi se uvek najbolje pokazale.

No, nisam siguran da smo se razumeli.

Slikam devojku u kupacicama. To spada u NSWF sadrzaj i ne prolazi. Ne mogu takve fotke nista on line.

Slikam istu devojku u haljini. To naravno prolazi.

Kazem, postavi mi ovu devojku u kafic na Amalfi Coast sa pogledom na more.... bla, bla, bla...

Dobijem sliku kojom se svi oduseve, posebno kada grinda cele noci na tipa 76 ili cak 176 steps.

ALI! Ja se tom slikom ne odusevim. Prosto se vidi AI. Vristi da je sve okolo AI generisano!

Ubacim istu sliku u on line varijantu modela, recimo Flux2 PRo! Sa istim promptom dobijem slicnu sliku, koja je barem 5x pribliznija pravoj fotografiji.

Prosto je sve realisticnije. Teksture, gradjevine, priroda, sve izgleda dosta prirodnije nego ono sto uradim sa "desktop" verzijom tog modela.

Samo da pojasnim, devojka - manekenka - je manje vise uvek dobro rekreirana. Tu nemam nekih primedbi. Ali kada fotku menjam putem ISTOG AI modela on line, celo njeno uklapanje u AI generisani ambijent izgleda kao sto rekoh mnogo bolje - realisticnije, uverljivije.

Ne razumem do cega je. Da li on line model ima MNOGOOOO vise parametara od ovog mog koji ima 16 ili 24 ili 34GB ili je nesto drugo u pitanju?

Recimo, mojima se vise dopada ono sto ja generisem nego on line, ali to je zato sto moje izgleda "nadrealno" a ovo im izgleda "obicno", ali tako i treba da izgleda profi fotka!

Ne znam da li sam uspeo da objasnim problematiku???? 🙁

I pitanje svih pitanja - da li bi mi RTX 5090 sa 32GB znacajno popravio rezultate u ConfyUI u odnosu na sadasnji RTX 4080 Super sa 16GB?
Po pitanju brzine - da - otprilike je brzi od 70-120%, to sam istrazio, ali da li bi mi popravio kvalitet generisane kompozicije?

marantz · 04.04.2026

Razumem, dobiješ previše savršene "fotke" koje imaju taj pomalo plastični AI look, a ne fotorealističnu sliku kao što je izbaci npr. GROK.

Moguće je da je previše koraka. Zvuči nelogično, ali modeli su optimizovani za određeni broj koraka. Čini mi se da je 176 baš puno. Online model ima mnogo više parametara i konstantno se trenira.

Ja ne bih njemu davao da mi generiše Amalfi coast backdrop, već, ako je lokalno išao bih na neki workflow koji kombinuje 2-3 slike od kojih je jedna ta pozadina. Postoje gotovi workflow JSON fajlovi koji kombinuju tri fotke: model, garderoba i pozadina. Npr. nešto ovog tipa

Možeš i da uradiš non-NSFW varijantu modela, odradiš sve online i posle izmeniš samo sliku modela lokalno, pošto bi to spadalo pod NSFW.

Ja trenutno pokušavam da povežem jedan Mac Studio M4 Max sa 64GB RAM-a, sa mojim Mac Studio 36GB M4 Max i MacBook Pro M5 Max 36GB, preko EXO u AI cluster. Teorijsko to bi trebalo da omogući 136GB VRAM-a i da se preko API-ja poveže sa ComfyUI.

testthenext · 04.04.2026

A MAX je OK sto se deljene memorije tice, ali ima problem sa brzinom. Procesori na RTX su barem 4-6 puta brzi od najbrzeg moguceg Mac-a.

Korake sam probao. Za neke modele je je 8 koraka savrseno, ovaj novi Z-Image, kako god se tacno zove, od pre neki dan, ali slike su za kroki samo.

Za FLux pak za neke stvari, mnogo znaci 176 steps, dodate neke suptilne detalje za recimo ambalazu, teglice i sl.

Za ostalo sto si napisao moram malo da razmislim. ALi i dalje ostaje pitanje, odakle ta razlika. Da li je velicina originalnog modela u pitanju ili nesto drugo...

malipirat · 04.04.2026

testthenext je napisao(la):
Ne razumem do cega je. Da li on line model ima MNOGOOOO vise parametara od ovog mog koji ima 16 ili 24 ili 34GB ili je nesto drugo u pitanju?
I pitanje svih pitanja - da li bi mi RTX 5090 sa 32GB znacajno popravio rezultate u ConfyUI u odnosu na sadasnji RTX 4080 Super sa 16GB?
Po pitanju brzine - da - otprilike je brzi od 70-120%, to sam istrazio, ali da li bi mi popravio kvalitet generisane kompozicije?

Grok 4.2 има између 1 i 2 трилиона параметара (Flux.1 (Black Forest Labs) архитектура, кванизациј FP16...).
Qwen 3.5 има 7, 14, 32 или 72 билиона параметара (MMDiT архитектура - слабија од Flux-a, кванизациј 4-bit).

Преласком на RTX 5090 са 32GB могао, би уместо модела 14B, да користиш модел са 32B (билион параметара).
Почели су да се појављују и већи модели (gpt-oss-120B (OpenAI)) али за тако нешто треба риг (са неколико картица).

Faktor	Uticaj na kvalitet	Preporuka
VRAM	Najvažniji faktor	Minimum 12–16 GB za Flux Dev; 24 GB+ za najbolje rezultate
Kvantizacija	Veoma veliki uticaj	FP16 ili FP8 najbolje; 4-bit/5-bit značajno gubi detalje
CFG Scale	Veliki uticaj	Realizam: 6–9; kreativnost: 12–18
Broj koraka (Steps)	Srednji–veliki uticaj	20–40 za Flux; 30–60 za SD3.5
Sampler	Srednji uticaj	Euler a, DPM++ 2M Karras, LCM
Broj CUDA jezgara	Manji uticaj (brzina, ne kvalitet)	Više jezgara = brže generisanje
LoRA / fine-tune	Veoma veliki uticaj	Pravilno trenirane LoRA-e dramatično poboljšavaju stil

Укратко модел са више параметара даје боље резултате.

marantz · 04.04.2026

testthenext je napisao(la):
A MAX je OK sto se deljene memorije tice, ali ima problem sa brzinom. Procesori na RTX su barem 4-6 puta brzi od najbrzeg moguceg Mac-a.

Korake sam probao. Za neke modele je je 8 koraka savrseno, ovaj novi Z-Image, kako god se tacno zove, od pre neki dan, ali slike su za kroki samo.

Za FLux pak za neke stvari, mnogo znaci 176 steps, dodate neke suptilne detalje za recimo ambalazu, teglice i sl.

Za ostalo sto si napisao moram malo da razmislim. ALi i dalje ostaje pitanje, odakle ta razlika. Da li je velicina originalnog modela u pitanju ili nesto drugo...

Da, CUDA je dosta brža opcija, ali mi ne odgovara Windows mašina. Ni tu nije tako crno-belo, jer nV grafika sa 32GB opet nije baš najsrećnije rešenje u odnosu na više VRAM-a. Kvalitet je isti. Najbolje nekoliko CUDA grafičkih kartica 🙂

Možda zaživi ova Google kompresija za VRAM...

Online vs local model: razlika je najviše u broju parametara. Nešto što ne možeš da postigneš u lokalu. Nije realno da voziš lokalno na jednom kompu i grafičkoj model sa istim brojem parametara kao OpenAI na farmama zbog kojih cu cene memorije otišle u nebesa 🙂Zato se ti lokalni modeli obično "pečuju" npr. pomoću LORA. Ja imam nekoliko LORA fajlova i u loaderu odaberem koji mi je potrebna u zavisnosti šta se generiše ili odaberem bypas LORA loadera.

testthenext · 04.04.2026

Ja nemam nesto puno iskstva sa CompfyUI i uopste sa AI. Samo nabadam, bez nesto preterano razumevanja. Tek sam skoro gledao klipove da skapiram sta je Latent image, VAE, weights.... ali jos uvek mi je sve to mutno. Bulvalno sam se jesenas ukljucio, gwenerisao par hiljada fotki nocu i batalio kad sam zavrsio.

Ali zeznuo sam se samo tako, sto sam uzeo svega 64GB a bukvalno sam za 220e doplate mogao da imam 128GB.

Mislim da mogu da nabavim jos 2x32 za tipa 450-550e, otprilike, da li bi mi toliko DDR5-6000 RAM-a, znatno poboljsalo rad sa vecim modelima?

Da mogu ceo Flux 2 DEV bez kvantizacije koji je oko 45GB sa ostlaim elementima da metnem u VRAM grafike a ostalo da svapuje u DDR5 ram. 32GB + 128GB??? Ako to uopste tako funkcionise.

p.s.
Pitao sam ja sve ovo AI ali ChatGPT, Deep Seek, Gemini i Grok, svako daje drugaciji odgovor... cesto potiru jedni druge.

marantz · 04.04.2026

Nemam iskustva sa Win mašinom. Ne znam kako ide offload iz VRAM-a u RAM i koliko utiče na brzinu. Morao bi da odgovori neko ko je radio sa CUDA karticama i manje VRAM-a.

testthenext · 04.04.2026

malipirat je napisao(la):
Преласком на RTX 5090 са 32GB могао, би уместо модела 14B, да користиш модел са 32B (билион параметара).
Почели су да се појављују и већи модели (gpt-oss-120B (OpenAI)) али за тако нешто треба риг (са неколико картица).

Hvala.
Dakle, 32 Biliona parametara bi mi teorijski doneli sliku sa vise detalja? A istovremeno i brzinu, obzirom da nema "swapovanja"?

Sa druge strane, Trilion je mnogo mnogo mnogo vise.

1-2 triliona je preko 60x vise podataka - gradivnih elemenata AI generisane slike, ako dobro razumem?
To je nemoguce smestiti u bilo koju memoriju sem nVidia AI servera od pola miliona USD? sa tim ne mogu nikako da se takmicim?

marantz je napisao(la):
Nemam iskustva sa Win mašinom. Ne znam kako ide offload iz VRAM-a u RAM i koliko utiče na brzinu. Morao bi da odgovori neko ko je radio sa CUDA karticama i manje VRAM-a.

A ja sam pokusavao svasta. Ucitam i veci model od 16GB, koliko imam VRAM-a ali onda ide dosta sporije. Zabranio sam swap na SSD da mi ne kvari bez beze diskove.
Uspevao sam da ucitam i 32GB modele, ali Flux 2 od 43GB valjda nisam uspeo da pokrenem pre nego sam jednom M.2 Samsungu 990 Pro od 2TB dodelio da swapuje, ali to sam samo probao i nisam bas nesto bio zadovoljan rezlutatom a ni brzinom...

arcibalde · Juče u 09:44

marantz je napisao(la):
Možda zaživi ova Google kompresija za VRAM...

Zazivela je. Smanji 5x memoriju potrebnu za kontekst. Sa 2.5GB na 0.5GB za kontex window od 131k tokena.

testthenext · Juče u 15:27

@arcibalde

Moze li to da se primeni za generisanje grafike?
Da Flux2.dev od 64GB stane ceo u 32GB??

Hvala.

arcibalde · Juče u 16:53

@testthenext Hahaha to sam i ja mislio al ne smanjuje on velicinu modela, on smanjuje velicinu kontekst prozora. Da ne citas bezveze dalje ukoliko te ne zanima, sve sto pisem vezano je za tekst, ne znam da li i kako vazi za slike.
Kontekst prozor ti je u sustini sve napisano u okviru chat prozora i tvoji i njegovi odgovori. Konteks prozor od 131k tokena je velik oko 2.5GB sa turbo3 se smanji na 500MB. Doduse i to dovodi do gubitka kvaliteta, neznatnog, pa je preporucljivo da se k parametar stavi na 3 a da se v parametar stavi na 4, tada umesto 500MB zauzme oko 700MB. K parametar govori gde je informacija a V parametar govori sta je informacija pa kada se poveca V onda je precizniji u vezi toga sta je informacija u sustini kao da se ne koristi kompresija.

testthenext · Juče u 23:24

Hvala. U ovo se razumem kao djak prvak u sinuse i kosinuse 🙂
Samo me slika zanima, tekst je ipak neka druga tema...

Šta je potrebno za pokretanje lokalnog AI modela

Slavan

Znamenit

Slavan

Čuven

Poštovan

Slavan

Slavan

Slavan

Slavan

Čuven

Cenjen

Čuven

Slavan

Čuven

Čuven

Slavan

Slavan

Čuven

Slavan

Čuven

Slavan

Slavan

Čuven

Slavan

Čuven

- Test subject -

Čuven

- Test subject -

Čuven