Lokalno korišćenje AI modela

Lucas · 07.08.2025

Thunderbolt je napisao(la):
20B je teško smeće. Nisam očekivao mnogo, ali sam opet razočaran.

a 120B? ne radi na cli ollami

NSX · 19.10.2025

Kako vam se čini kombinacija Ryzen 395 i 128GB RAM-a(koji može skoro čitav da bude VRAM), to sad ima i u laptop varijantama tipa Asus Z13 za oko 3K toliko košta samo 5090 kod nas...

Lucas · 19.10.2025

NSX je napisao(la):
Kako vam se čini kombinacija Ryzen 395 i 128GB RAM-a(koji može skoro čitav da bude VRAM), to sad ima i u laptop varijantama tipa Asus Z13 za oko 3K toliko košta samo 5090 kod nas...

ako kupujes za AI ima boljih varijanti.

NSX · 19.10.2025

pa kupujem jer mi treba novi laptop (koristim neki Acer ko zna otkad), jeftinija varijanta mi je Lenovo IdeaPad Slim koji je oko 800e, Ryzen 395 je ipak dosta brži laptop a valjao bi mi "privatni" AI zbog toga što baratam sa strogo pov. dokumentima

Lucas · 19.10.2025

za AI imas dva parametra jedno je memorija -> koliki model mozes da ucitas
drugo je teraflops, tj broj tokena koje kartica moze da izbaci

taj laptop je dobar u prvom segmentu a los u drugom
znaci radice - ali sporo

presretach · 19.10.2025

Za telefon imate Locally Ai.

SuperStarr · 28.12.2025

Lucas · 19.03.2026

da li neko radi offloading

Enable Offloading to CPU/RAM or NVMe // recimo 50%
i Offload KV Cache to CPU/RAM

i kakvi su vam utisci, da li uopste mozete da uporedite sa i bez? koliko je sporiji sa offloadingom?

jimmytza · 31.03.2026

whatcani.run

Find the best models and how to run them locally.

www.whatcani.run

Lucas · 31.03.2026

M je impresivan za AI

G17 · 04.04.2026

NSX je napisao(la):
Kako vam se čini kombinacija Ryzen 395 i 128GB RAM-a(koji može skoro čitav da bude VRAM), to sad ima i u laptop varijantama tipa Asus Z13 za oko 3K toliko košta samo 5090 kod nas...

Zanima me, zar iako RAM moze da se koristi kao VRAM zar nije drastično sporiji, koliko sam shvatio samo Apple ima podršku da je RAM = VRAM po brzini

marantz · 04.04.2026

G17 je napisao(la):
Zanima me, zar iako RAM moze da se koristi kao VRAM zar nije drastično sporiji, koliko sam shvatio samo Apple ima podršku da je RAM = VRAM po brzini

Sporiji je dosta, a dodatno problem pravi što veliki model mora da se provlači preko PCI magistrale iz VRAM-a u RAM i obrnuto. To je dodatno usko grlo između, jer je protok u tom slučaju svega 64GB/s za PCI 5 x16.

Apple ima unificrani poll za VRAM/RAM i to je ogromna prednost (CPU direktno čita VRAM i obrnuto, ne ide se preko PCI magistrale), ali je Metal dosta sporiji nego CUDA kada je AI u pitanju.

Za AI je i dalje najbolja opcija nVidia grafika sa dosta VRAM-a, jer čak i RTX4090 ima 50% veći memory bandwidth nego M5 Max (1TB/s vs 600 GB/s). Međutim ta prednost se gubi, ako nema dovoljno VRAM-a. Tako je sistem sa nVidia 16GB i pored bržeg CUDA AI compute-a, sporiji od Mac-a sa 64GB RAM-a, ako koristiš veće modele.

d4313 · 07.05.2026

Accelerating Gemma 4: faster inference with multi-token prediction drafters

An overview of how Multi-Token Prediction (MTP) drafters are making Gemma 4 models up to 3x faster at inference.

blog.google

miljenko · 07.05.2026

Imam macbook m2, 24gb rama, ucitam gemma 4, qwen poeni, rade lepo i brzo kroz lm studio, ali cli, tu ne mogu se sastavim claude ne radi kako treba, ovi modi od 7b i 14b su preslabi za to, continue u vscode mi slab, nije ni prici copilot ili claude cli...
Imate li neku preporuku? Za cli

Protokol · 08.05.2026

Poz svima na temi

Ja sam se odlucio za 2 komada polovnih 3090 zbog VRAM-a, kao najbolju soluciju za kreiranje AI sadrzaja u lokalu.

Imam povece iskustvo sa Stable Diffusion ali sam odlucio da radim sa WAN 2.2 zbog prevelike Open source podrske i nebrojeno mnogo LoRA

Prethodna karta mi je bila 3070Ti, cisto radi poredjenja -

Wan 2.2 Low VRAM Workflow (ima jako dobar github fajl sa podesenim node-ovima koga zanima) 14B sa GGUF zbog RAM-a, 480p i da molis boga da ti je prompt bio dovoljno detaljan, ispravne LoRA i da si dovoljno dobro zategao CFG jer ide na osecaj i sustinski je gamble sta si dobio

sa dve 3090, druga prica. u isto vreme rade High Noise i Low Noise Expert (WAN 2.2 podrzava) i za manje od 2 minuta u proseku imas video koji mozes da korigujes sledecim prompt-om i negativnim prompt-ovima u tacno zeljeni sadrzaj

Sto brdo ljudi ne kapira - AI generisani sadrzaj zavisi od talenta takodje. Hardver je Lopata, Prompt je da znas gde da kopas

Dobar ucitelj je da uplatite neki wrapper site za 10-15 dolara (Higgsfield, CivitAI) i da testirate prompt, i da analizirate kako rade loRA-e. Cak nije lose ni pitati AI za prompt, da skapiras vokabular i da od -

"A beautiful woman walking down a street at sunset, realistic, cinematic" sto moze da bude odma pogodak ili odma horor film

Naucis da ovako prompt-ujes:

"Medium shot, fixed camera, woman in a red coat walks from left to right along a cobblestone street. Her movement is slow and deliberate. The camera remains stationary. Late afternoon sun casts long shadows. Her hair is tied back, no wind. She glances down once, then continues. Background buildings are blurred, depth of field. Natural lighting. No morphing. No warping. No extra limbs."

Echo · 09.05.2026

Sta znam, nekada malo duzi promptovi znaju da ga udrvene poprilicno. Recimo neka potpuno logicna skretanja paznje "No morphing. No warping" naprave previse isfragmentisanu i "nalepljenu" sliku. Recimo:
(prva je njegov freestyle, druga je sastavljanje "profi prompta" uz njegovu pomoc, pro model). Konkretno, prva je kako izgleda kada njemu samom neki element padne na pamet (tipa prasina koja je prekrila monolit), a druga je kada mu ja eksplicitno to isto navedem - a da ne pricam o samo nalepljenoj galaksiji i satelitima na nebu (dok recimo u prvoj, galaksija nije ni bila u promptu), itd.

Pretraga

Pretraga

Lokalno korišćenje AI modela

Lucas

Čuven

NSX

- Honda RuleZ -

Lucas

Čuven

NSX

- Honda RuleZ -

Lucas

Čuven

presretach

Slavan

SuperStarr

Znamenit

Lucas

Čuven

jimmytza

Cenjen

whatcani.run

Lucas

Čuven

G17

Poštovan

marantz

Slavan

d4313

Poznat

Accelerating Gemma 4: faster inference with multi-token prediction drafters

miljenko

Slavan

Protokol

Banned

Echo

Slavan

Prilozi