Lokalno korišćenje AI modela

Lucas · 07.08.2025

Thunderbolt je napisao(la):
20B je teško smeće. Nisam očekivao mnogo, ali sam opet razočaran.

a 120B? ne radi na cli ollami

NSX · 19.10.2025

Kako vam se čini kombinacija Ryzen 395 i 128GB RAM-a(koji može skoro čitav da bude VRAM), to sad ima i u laptop varijantama tipa Asus Z13 za oko 3K toliko košta samo 5090 kod nas...

Lucas · 19.10.2025

NSX je napisao(la):
Kako vam se čini kombinacija Ryzen 395 i 128GB RAM-a(koji može skoro čitav da bude VRAM), to sad ima i u laptop varijantama tipa Asus Z13 za oko 3K toliko košta samo 5090 kod nas...

ako kupujes za AI ima boljih varijanti.

NSX · 19.10.2025

pa kupujem jer mi treba novi laptop (koristim neki Acer ko zna otkad), jeftinija varijanta mi je Lenovo IdeaPad Slim koji je oko 800e, Ryzen 395 je ipak dosta brži laptop a valjao bi mi "privatni" AI zbog toga što baratam sa strogo pov. dokumentima

Lucas · 19.10.2025

za AI imas dva parametra jedno je memorija -> koliki model mozes da ucitas
drugo je teraflops, tj broj tokena koje kartica moze da izbaci

taj laptop je dobar u prvom segmentu a los u drugom
znaci radice - ali sporo

presretach · 19.10.2025

Za telefon imate Locally Ai.

SuperStarr · 28.12.2025

Lucas · 19.03.2026

da li neko radi offloading

Enable Offloading to CPU/RAM or NVMe // recimo 50%
i Offload KV Cache to CPU/RAM

i kakvi su vam utisci, da li uopste mozete da uporedite sa i bez? koliko je sporiji sa offloadingom?

jimmytza · 31.03.2026

whatcani.run

Find the best models and how to run them locally.

www.whatcani.run

Lucas · 31.03.2026

M je impresivan za AI

G17 · 04.04.2026

NSX je napisao(la):
Kako vam se čini kombinacija Ryzen 395 i 128GB RAM-a(koji može skoro čitav da bude VRAM), to sad ima i u laptop varijantama tipa Asus Z13 za oko 3K toliko košta samo 5090 kod nas...

Zanima me, zar iako RAM moze da se koristi kao VRAM zar nije drastično sporiji, koliko sam shvatio samo Apple ima podršku da je RAM = VRAM po brzini

marantz · 04.04.2026

G17 je napisao(la):
Zanima me, zar iako RAM moze da se koristi kao VRAM zar nije drastično sporiji, koliko sam shvatio samo Apple ima podršku da je RAM = VRAM po brzini

Sporiji je dosta, a dodatno problem pravi što veliki model mora da se provlači preko PCI magistrale iz VRAM-a u RAM i obrnuto. To je dodatno usko grlo između, jer je protok u tom slučaju svega 64GB/s za PCI 5 x16.

Apple ima unificrani poll za VRAM/RAM i to je ogromna prednost (CPU direktno čita VRAM i obrnuto, ne ide se preko PCI magistrale), ali je Metal dosta sporiji nego CUDA kada je AI u pitanju.

Za AI je i dalje najbolja opcija nVidia grafika sa dosta VRAM-a, jer čak i RTX4090 ima 50% veći memory bandwidth nego M5 Max (1TB/s vs 600 GB/s). Međutim ta prednost se gubi, ako nema dovoljno VRAM-a. Tako je sistem sa nVidia 16GB i pored bržeg CUDA AI compute-a, sporiji od Mac-a sa 64GB RAM-a, ako koristiš veće modele.

d4313 · 07.05.2026

Accelerating Gemma 4: faster inference with multi-token prediction drafters

An overview of how Multi-Token Prediction (MTP) drafters are making Gemma 4 models up to 3x faster at inference.

blog.google

miljenko · 07.05.2026

Imam macbook m2, 24gb rama, ucitam gemma 4, qwen poeni, rade lepo i brzo kroz lm studio, ali cli, tu ne mogu se sastavim claude ne radi kako treba, ovi modi od 7b i 14b su preslabi za to, continue u vscode mi slab, nije ni prici copilot ili claude cli...
Imate li neku preporuku? Za cli

Protokol · 08.05.2026

Poz svima na temi

Ja sam se odlucio za 2 komada polovnih 3090 zbog VRAM-a, kao najbolju soluciju za kreiranje AI sadrzaja u lokalu.

Imam povece iskustvo sa Stable Diffusion ali sam odlucio da radim sa WAN 2.2 zbog prevelike Open source podrske i nebrojeno mnogo LoRA

Prethodna karta mi je bila 3070Ti, cisto radi poredjenja -

Wan 2.2 Low VRAM Workflow (ima jako dobar github fajl sa podesenim node-ovima koga zanima) 14B sa GGUF zbog RAM-a, 480p i da molis boga da ti je prompt bio dovoljno detaljan, ispravne LoRA i da si dovoljno dobro zategao CFG jer ide na osecaj i sustinski je gamble sta si dobio

sa dve 3090, druga prica. u isto vreme rade High Noise i Low Noise Expert (WAN 2.2 podrzava) i za manje od 2 minuta u proseku imas video koji mozes da korigujes sledecim prompt-om i negativnim prompt-ovima u tacno zeljeni sadrzaj

Sto brdo ljudi ne kapira - AI generisani sadrzaj zavisi od talenta takodje. Hardver je Lopata, Prompt je da znas gde da kopas

Dobar ucitelj je da uplatite neki wrapper site za 10-15 dolara (Higgsfield, CivitAI) i da testirate prompt, i da analizirate kako rade loRA-e. Cak nije lose ni pitati AI za prompt, da skapiras vokabular i da od -

"A beautiful woman walking down a street at sunset, realistic, cinematic" sto moze da bude odma pogodak ili odma horor film

Naucis da ovako prompt-ujes:

"Medium shot, fixed camera, woman in a red coat walks from left to right along a cobblestone street. Her movement is slow and deliberate. The camera remains stationary. Late afternoon sun casts long shadows. Her hair is tied back, no wind. She glances down once, then continues. Background buildings are blurred, depth of field. Natural lighting. No morphing. No warping. No extra limbs."

Echo · 09.05.2026

Sta znam, nekada malo duzi promptovi znaju da ga udrvene poprilicno. Recimo neka potpuno logicna skretanja paznje "No morphing. No warping" naprave previse isfragmentisanu i "nalepljenu" sliku. Recimo:
(prva je njegov freestyle, druga je sastavljanje "profi prompta" uz njegovu pomoc, pro model). Konkretno, prva je kako izgleda kada njemu samom neki element padne na pamet (tipa prasina koja je prekrila monolit), a druga je kada mu ja eksplicitno to isto navedem - a da ne pricam o samo nalepljenoj galaksiji i satelitima na nebu (dok recimo u prvoj, galaksija nije ni bila u promptu), itd.

krmeljar · 08.06.2026

ja koristim openvino qwen na laptop okej mi je brz 258v ono nije instant al radi posao, i za golang i male methode mi nije pravio gjubre neko veliko, sad hocu da vidim da lim mogu kritu da ranujem na njemu to bi bilo top posto imam yoga model

d4313 · 09.06.2026

ideogram-ai/ideogram-4-nf4 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

Ideogram 4 is Ideogram's first open weight text-to-image model. It is a state-of-the-art foundation model trained from scratch — not a fine-tune of any existing model. It introduces a new structured JSON prompting interface, with best-in-class multilingual text rendering, deep language understanding, explicit bounding-box layout and color-palette controls, and native 2k resolution images. The easiest way to try the model is online at ideogram.ai.

Jedan od najboljih modela do sad, generalno. Toliko su uspeli da spakuju u tako mali model, a opet je nenormalno moćan... nisam očekivao da će ovako rano stići Google i OpenAI.

Lucas · 10.06.2026

d4313 je napisao(la):
ideogram-ai/ideogram-4-nf4 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

Jedan od najboljih modela do sad, generalno. Toliko su uspeli da spakuju u tako mali model, a opet je nenormalno moćan... nisam očekivao da će ovako rano stići Google i OpenAI.

Pogledajte prilog 542430
Pogledajte prilog 542432
Pogledajte prilog 542434
Pogledajte prilog 542435
Pogledajte prilog 542436

u *** dobro izgleda!

ne mogu da nadjem koliko ima parametara? jel to ovoo? https://huggingface.co/ideogram-ai/ideogram-4-nf4

Lucas · 10.06.2026

9B !!! AU

a gde se ovo malo luče vozi loklano??

marantz · 10.06.2026

d4313 je napisao(la):
ideogram-ai/ideogram-4-nf4 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

Jedan od najboljih modela do sad, generalno. Toliko su uspeli da spakuju u tako mali model, a opet je nenormalno moćan... nisam očekivao da će ovako rano stići Google i OpenAI.

Pogledajte prilog 542430
Pogledajte prilog 542432
Pogledajte prilog 542434
Pogledajte prilog 542435
Pogledajte prilog 542436

Imaš li možda neki link ka workflow-u, mrzi me da pakujem nodove, a probao bih ovaj model.

unrealDeer · 10.06.2026

d4313 je napisao(la):
ideogram-ai/ideogram-4-nf4 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

Jedan od najboljih modela do sad, generalno. Toliko su uspeli da spakuju u tako mali model, a opet je nenormalno moćan... nisam očekivao da će ovako rano stići Google i OpenAI.

Pogledajte prilog 542430
Pogledajte prilog 542432
Pogledajte prilog 542434
Pogledajte prilog 542435
Pogledajte prilog 542436

ovo bas obecava! steta sto njihov APP jedino dopusta Google,Apple ili Microsoft mejlove za registraciju,nadam se da moze drugacije da se koristi, npr sa API ili slicno..

mknez · 19.06.2026

Odličan je Ideogram, može lokalno da se pokreće i preko Comfyui, testirao sam ga...
Ali nije mi zanimljiv pre svega pošto je non comercial. Sve je to lepo, ali iz mog ugla nema svrhe da ga pokrećem lokalno, osim ako neko hoće da se igra i radi nešto za sebe nekomercijalno.

https://www.llmfit.org Evo nešto korisno za pokretanje modela lokalno, detektuje vaš sistem i uradi procenu šta može da se pokrene i šta može da se očekuje...

zholinho · 20.06.2026

Jel probao neko lokalno da pokrene GLM 5.2?
Ja krenuo neki dan, kae treba mi 806GB ram memorije 😀

Ali vidim da su sad izbacili neke manje verzije pa cu probati ovih dana. Imam 256 rama na masini, valjda ce neka verzija raditi.

Generlano kad citam o tim modelima, sve mi zvuci kao spansko selo, kad spominju kvantizaciju i slicno.

mknez · 20.06.2026

zholinho je napisao(la):
Jel probao neko lokalno da pokrene GLM 5.2?
Ja krenuo neki dan, kae treba mi 806GB ram memorije 😀

Ali vidim da su sad izbacili neke manje verzije pa cu probati ovih dana. Imam 256 rama na masini, valjda ce neka verzija raditi.

Generlano kad citam o tim modelima, sve mi zvuci kao spansko selo, kad spominju kvantizaciju i slicno.

Bilo bi to cool. To je MOE model i verovatno neki GGUF bi radio dobro (Q2 ili slično, ali uz degradaciju kvaliteta), pitanje je koliki inference bi dobio i da li bi to bilo u domenu "uspeo sam da ga pokenem" ili da bude nešto što može da se koristi. Svakako obavesti nas o rezultatima i na čemu imaš 256gb rama. Ako je na PC onda očekivanja i nešto velika.

Lucas · 20.06.2026

bilo bi presporo realno

arcibalde · 20.06.2026

Na sistemskom ramu ocekuj verovatno 2-3 t/s. To ti je ono ko da kucas jednim prstom.

Jos je MoE i ako je Q2... Em bi bio glup a uz to i spor. Ovaj Qwen 3.6 od 27B je preko 10 puta manji od proslogodisnjeg Qwen od ~300B a bolji je.

zholinho · 20.06.2026

Ja sam mislio da je tu bitna grafička kartica.
Back to the drawing board😃
Mada na takvoj mašini nogu probati poteram kimija ili qwen.

Mare · 20.06.2026

Imas LM Studio i GPT 4 All za brzo isprobavanje. Na CPU sve to radi tek dovoljno za neku probu 30 minuta i gasi...

Shagon94 · 20.06.2026

Ovaj Qwen 3.6 35B je odlican i brz, ako gledate neki lokalno - bez problema je taj dobar (Q4 kvantizacija od unsloth).

Lokalno korišćenje AI modela

Čuven

- Honda RuleZ -

Čuven

- Honda RuleZ -

Čuven

Slavan

Znamenit

Čuven

Cenjen

Čuven

Poštovan

Slavan

Poznat

Slavan

Banned

Slavan

Prilozi

Poštovan

Poznat

Čuven

Čuven

Slavan

Poznat

Slavan

Slavan

Slavan

Čuven

- Test subject -

Slavan

Čuven

Poštovan