Šta je novo?

Izrada e-verzije Vujaklije - obv. pogledati

dkee pa sto ne rece ti ondak da vam trebaju dobrovoljci FX
ajd, racunajte na mene. takodje za upload i download sam na raspolaganju - velicina podataka nije od znacaja .
 
DS9 je napisao(la):
BTW Vinsente, jel` imas ideju da prepoznate skenove (kako ja mislim da je zgodno) sacuvamo u word (.doc) formatu. Ako je tako (ili bilo kako drugacije), verovatno bi bilo zgodno da se dogovorimo oko finesa s tim.

Mislim, mozemo na nekoliko razlicitih nacina da dodjemo do slicnih rezultata i mislim da bi to trebali da usaglasimo. Znam iz iskustva da mnogi ljudi godinama koriste racunar a da nikad nisu u properties od stampaca promenili format stranice sa Letter na A4 (pa kucaju u wordu na letter). I u fine readeru je slicno pa ko ne otvori tu opciju u "save text as, ostace Letter kako je po defaultu nakon instalacije.

Da, D-KEE je to već dobro opisao. U Fine Readeru to nije problem, i radi to odlično, može u Word, Excel, html, Word perfect, txt...
 
Re: Vi(n)sente

DS9 je napisao(la):
Izvini za pogresno pisanje tvog nicka Visente, vec nekoliko puta to uradih, nekako mi zvucalo prirodno. K`o Van Gogh

Ma, nisam ni primetio. :D
 
Danas ću se videti sa "Ha" da mu predam diskove, pa možemo polagano početi sa poslom.
 
Comet Hunter je napisao(la):
Jedino sto nam treba i izgovor (latinica) a ti si radio sve sa cirilicom
Treba na to paziti prilikom OCR-a
pa bilo bi zaista mnogo :) imas reci turskog, engleskog, arapskog,... porekla i kada bi fine reader mogao da prepozna sve to - ljudi vise ne bi bili potrebni :)
 
Comet Hunter je napisao(la):
Mozete i na mene racunati. Ovo je stvarno projekat za svaku pohvalu.
Samo zar nije bolje da se prvo pokusa da se nabavi elektronska verzija, jer ceo recnik su kucali zaposleni u "Prosveti" (izdavackoj kuci).
Mozda nadjemo neke veze i ustedimo puno procesorskog (a i naseg) vremena. Nisu neke velike sanse ali vredi pokusati
Cekaj, cekaj, a da nema slucajno u planu elektronska verzija?

D-KEE je napisao(la):
pa bilo bi zaista mnogo :) imas reci turskog, engleskog, arapskog,... porekla i kada bi fine reader mogao da prepozna sve to - ljudi vise ne bi bili potrebni :)
Koliko vidim jedini problem je fonetska transkripcija.....i to veliki problem :(

D-Kee, imas moj broj, pa mi javni kada i gde da dodjem po materijal za obradu i software :)
 
D-KEE je napisao(la):
DS9 - sto se tice cuvanja u word doc formatu...ili nekom drugom -pa o tome pricamo ceo thread - ideja je da se prvo napravi taj word pa da se zatim napravi neka baza gde bi mogli da se pretrazuju ti pojmovi...

To je jasno.
Medjutim, kada imas ocrovan sken u fr-u, onda mozes direktno iz fr-a da ga sacuvas (File>Save text as) u npr. "word/doc".Ako to sacuvano otvoris iz worda on prijavljuje da je .rtf u pitanju. (ili je to neka varijanta bug-a FR-a ili officeaXP iz koga ja to otvaram)

A ako ga iz fr exportujes sa "Send selected pages to word" pa ga iz worda sacuvas (u nativnom word formatu), to ce sigurno u odredjenim stvarima da se razlikuje od prethodnog tipa ("rtf").

Za dalju obradu (bazu) ovo tesko da ima veze, medjutim mislim da bi bilo dobro da koraci budu jasni, posto neki mogu da se izvedu na razlicite nacine.
 
PJ je napisao(la):
Cekaj, cekaj, a da nema slucajno u planu elektronska verzija?
Koliko vidim jedini problem je fonetska transkripcija.....i to veliki problem :(
D-Kee, imas moj broj, pa mi javni kada i gde da dodjem po materijal za obradu i software :)
kakvi bre problemi o kakvim se fonetskim problemima radi - ja ih zaista ne vidim :)

ps. pogledaj atacment - ovo je fajl bez ikakvog sredjivanja - samo je povecan font... sa 9 na 12
 
DS9 je napisao(la):
...Za dalju obradu (bazu) ovo tesko da ima veze, medjutim mislim da bi bilo dobro da koraci budu jasni, posto neki mogu da se izvedu na razlicite nacine.
to bi mogao da bude problem - mislim da nije prevelik posao ako jedan covek odradi ocr (evo dobrovoljno se javljam) i onda posalje zainteresovanima da sredjuju eventualne greske (boldovati prvu rec (pojam), prebaciti je u novi red pa eventualno red izmedju reci da bi se lakse snalazili i sl... sto znaci da ce se oni lepo obrazovati :) - posto vujaklija ima ~1050 stranica - ako se podeli posao na 10 ljudi i ja okacim sve dobijene slike na net (nije mi problem) svako ce dobiti otprilike 8-9 mb za download iz lite rezima (tekst u doc formatu i tiff slicice za koje ce biti zaduzen) - da li je to ok svim zainteresovanim???
 
Ako si spreman da radiš taj posao, ja ću ti vrlo rado pomoći kasnije oko uklanjanja grešaka kojih će biti posle OCR-a.

Kada si mislio da to radiš???
 
Ljudi, sve je ovo lepo, ali dzaba bez baze podataka u koju treba ubaciti sve te reci... Rado bih pomogao po ovom pitanju, koliko mi vreme dozvoli... Za pocetak neka neko okaci jednu stranu u npr. txt ili word formatu koju je OCR-ovao
 
D-KEE je napisao(la):
to bi mogao da bude problem - mislim da nije prevelik posao ako jedan covek odradi ocr B]

To ce, cini mi se pojednostaviti posao. Bolje da bude jedan mozak i (nas) desetak fizikanera, jer bi u protivnom svako isporucio malo drugaciju varijantu u word formatu.
Pogledao sam tvoj Vujaklija1.doc i meni se cini super, upravo ono sto treba. Cirilica i latinica se slazu, ostaje da se svaki boldovan pojam dotera na pocetak (jedino nisam siguran da li treba da bude viseci[intendation]) reda, i da se otklanjaju crtice pri prelomu redova, kao i eventualni dupli space-ovi (vidim da i trostrukih ih ima prilicno).
Bice potrebno jos samo strpljenje.
 
D-KEE je napisao(la):
kakvi bre problemi o kakvim se fonetskim problemima radi - ja ih zaista ne vidim :)

ps. pogledaj atacment - ovo je fajl bez ikakvog sredjivanja - samo je povecan font... sa 9 na 12

Kod mene seoba fajla sa fontom velicine 12 i u brvom ima stvarno mnogo hijeroglifa u zagradam i dosta brojeva umesto slova i jednostavno nije citljivo, dok u ovom drugom fajlu je sve (koliko sam pregledao) sasvim OK.
Ovo je problem raspraviti pre pocetka, jer eto ja sam, kako kazes, isti fajl video razlicito :(
Word je 2k....
 
Da, vujaklija.doc se dosta razlikuje od vujaklija1.doc
Ne bi imalo sanse da se to ispravi, osim ako se ne gleda u papirnu verziju. Sa vujaklija1.doc je sasvim drugacije, nema nepoznatih karaktera.
 
ja sam vujaklija.doc doterao onako kako sam mislio da treba da izgleda - boldovao prve reci i odvajao pojmove sa po red razmaka........ u vujaklija1.doc sam u abbyy-ju ukljucio vise jezika za prepoznavanje od jednom (srpsku cirilicu, engleski i turski). zato nema problema sa recima od koje pojma potice - arapski prepoznaje kao turski i sasvim je lepo odradio posao sto se tice prepoznavanja karaktera - jedina intervencija kod tog fajla je bila promena velicine fonta a sve ostalo je onako kako je abbyy izbacio u word.... ostalo je da se svaki pojam bolduje, prebaci u poseban red, obrati paznja kod preloma (crtice), dulpe space-ove i sl... znaci fizikalija...

Ha - uze li ti skenirani materijal??

JOVAN-e - skini prvi atacment - on je malo sredjeniji pa probaj da napravis neku testnu bazu - ja imam obecanja nekih ljudi da ce pomoci po tom pitanju (porodicu programera (njih troje)) - pa cemo videti...
 
D-KEE je napisao(la):
Ha - uze li ti skenirani materijal??

Izvinjavam se na kasnjenju :) uzeo sam skenove i mozemo se dogovoriti oko preuzimanja. D-Kee javi se putem mail-a kad mozes, da se nebi ja raspravljao sa tvojom sekretaricom :D, a ja cu te potom nazvati na mobilni.

pozdrav!
 
Ako sam dobro shvatio, D-KEE ce uraditi sve skenove (da bi bili uniformni) a onda cemo (mi dobrovoljci) korigovati greske. To je mozda za ovako nesto najbolji nacin.
 
D-KEE je napisao(la):
to bi mogao da bude problem - mislim da nije prevelik posao ako jedan covek odradi ocr (evo dobrovoljno se javljam) i onda posalje zainteresovanima da sredjuju eventualne greske (boldovati prvu rec (pojam), prebaciti je u novi red pa eventualno red izmedju reci da bi se lakse snalazili i sl... sto znaci da ce se oni lepo obrazovati :) - posto vujaklija ima ~1050 stranica - ako se podeli posao na 10 ljudi i ja okacim sve dobijene slike na net (nije mi problem) svako ce dobiti otprilike 8-9 mb za download iz lite rezima (tekst u doc formatu i tiff slicice za koje ce biti zaduzen) - da li je to ok svim zainteresovanim???

No problemo! Meni to ne pravi problem
 
U vezi goreizloženog imam nekoliko sugestija.

1.) Mislim da je najbolje da jedna osoba uradi OCR kod sebe. Potom da podeli taj OCR-ovan materijal na onoliko delova koliko ima dobrovoljaca: ali da ga podeli u Abbyy "Batches" fajlove a ne kao prost tif. U praksi za one koji će to pregledati znači da će sa neta (kod koga to već bude okačeno na netu) skinuti deo za koji će oni biti zaduženi (stotinak stranica u jednom "Batches" abbyy direktorijumu). To će importovati u Fine Reader i preći na posao pregledanja (baz ikakve potrebe za papirnom verzijom Vujaklije).

2.) Ako sam dobro shvatio vi bi proveru radili u Wordu?! Ako sam ovo ispravno shvatio imao bih sugestiju da se to ne radi u Wordu - jer je to puno teže nego odradit taj posao u Fine Readeru, a tek finalnu proveru u Wordu (najpre automatsku, a kasnije i onu "peške")

3. Crtice pri prelomu redova Fine Reader može da otkloni automatski. Takođe one se mogu kasnije(kao i dupli space-ovi) otkloniti automatski (na search/replace) u Wordu - to ne bi trebalo da bude nikakav problem i neće uzeti puno vremena i energije.

4. Ako imamo ljude koji će odraditi bazu, trebalo bi ih obavezno konsultovati u kom obliku im odgovara da dobiju sirovi tekst Vujaklije. Inače bi se moglo desiti da mi uradimo formatiranja koja njima ne trebaju, ili im čak smetaju ili im ne odgovaraju takva već nekakva druga, pa bi morali još jednom odraditi posao koji smo već radili.

5. Valjalo bi sačiniti listu (oni koji okače OCR na net) iz koje će se videti koji delovi vujaklije su već preuzeti za pregled a koji se još mogu (i trebaju) preuzeti.

Oprostite na pametovanju, ali mislim da će nam ove sugestije biti od pomoći.
 
Da li neko kod nas polaze autorska prava na ovu knjigu?

Vezano za bazu... za programerske strane je idealno da u prelomljenom tesktu postoje neki znaci (delimiter) koji odvajaju medjusobne reci i njihove opise.
 
JOBAH je napisao(la):
Da li neko kod nas polaze autorska prava na ovu knjigu?

Moram priznati jednu svoju veliku gresku i previd, sve to u silnim obavezama koje sam imao proteklih dana i kad nisam mogao trezveno razmisliti ni o najelementarnijim stvarima.
Elem, u pitanju je bas autorsko pravo. ko je nosilac autorskog prava za ovaj rijecnik??? Da li neko zna?

Nakon moje silne inicijative, odjednom sam shvatio da je to sto sam ja zamislio, u stvari vrlo opasno, bas iz razloga sto krsenje autorskih prava
nosi sa sobom i krivicnu odgovornost, i da bi neko od ucesnika, nedaj Boze, mogao i da nastrada. Na zalost, ovo mi sad izgleda jako realno, a nebi ni u ludilu zelio da neko zbog moje gluposti nastrada.

Izlaz iz ove situacije vidim u tome da pronadjemo nosioca autorskog prava(pretpostavljam da bi to mogla biti porodica Milana Vujaklije) i da ih kontaktiramo(ovu obavezu bi ja u potpunosti preuzeo na sebe). U slucaju da oni nisu nosioci vec npr. "Prosveta"(mada mi je ovdije nejasan
pravni odnos izmedju izdavaca i pisca, pa ako neko zna nesto vise neka kaze) bio bi spreman otici kod direktora na razgovor i da mu objasnim sta mi to hocemo napraviti ... i da to nije komercijalno i sl. a ako bi nekim slucajem bila i neka ponuda za neki aranzman sa njihove strane ...sto da ne ... samo neka bude legalno.

Ono sto je po meni sada bitno jest da svako ko zna nesto o ovome da to iznese ovdije ili da me licno kontaktira. Kazem opet, ja cu preuzeti na sebe svaki vid kontakata sa nosiocem aut.pr.

Izvinjavam se svima koje sam mozda i sablaznio svojim cesto i arogantnim stavovima, koji su se evo na kraju pokazali kao pogresni.
Da bi pobijedio sujetu i priznao gresku morao sam to i na ovaj nacin, jer
sam se prevashodno o vecinu Vas ogresio, zato molim Vas prastajte!

Nisam odustao od namjere da ovo zazivi(osnovna ideja mi je i bila da se oko nekih dobrih stvari ujedinimo), jedino sto se, bar za mene, mora razrijesiti ova stvar sa autorskim pravom.

toliko od mene ....

zbogom!
 
dejandj je napisao(la):
Autorsko pravo je NARAVNO imao Vujaklija...
Autorska prava NE vaze 50god posle smrti autora...
znaci da cekamo jos 3 godine posto je Milan Vujaklija preminuo 1955
 
D-KEE je napisao(la):
znaci da cekamo jos 3 godine posto je Milan Vujaklija preminuo 1955
Ma ne samo napišemo da je izdato 2005 god :)
Moramo nekako da se snađemo :D
Bez veze bi bilo da sad sve propadne :(
 
dejandj je napisao(la):
Autorsko pravo je NARAVNO imao Vujaklija...
Autorska prava NE vaze 50god posle smrti autora...

Dejane skoro da znam da si mlad <18god pretpostavljam da je i ovo bila sala .. da li je?

Elem, bio Dejan mlad ili ne, pitat cu jednog advokata, a imam i neke
prijatelje pravnike. Ako saznam nesto odmah javljam. Ako neko sazna
adresu porodice pok.M.Vujaklije neka postuje, ja cu ih kontaktirati.
Ajd makar mi dajte neke informacije tipa odaklen je rodom gdje je tacno zivio i sl.

za Grobara: I meni bi bilo zao da ovo propadne, zato cemo se potruditi da nadjemo ono sto nam nedostaje ...



pozdrav!
 
Trebalo bi videti šta zakon predviđa u našem slučaju.Ono da nakon 50 godina od smrti autora prestaju autorska prava odnosi se na imovinska prava autora na njegovo delo. Uostalom evo citat:

"8. Trajanje autorskog prava
Član 96
(1) Imovinska prava autora traju za života autora i 50 godina posle njegove smrti.
(2) Moralna prava autora traju i po prestanku trajanja imovinskih prava autora."


Dobavio sam zakon o autorskim pravima ali nemam vremena da ga proučavam (Ima oko 50 stranica u Word formatu). Poslao sam ga preko e-maila "HA" (hm, a da izabereš neki drugi user name :) ), imao oko 220 KB

To je zvanična verzija zakona o autorskim pravima preuzeta iz službenog lista "Sl. list SRJ", br. 24/98
 
Jel kasno sad da se ukljucim?
Mislim zanima me cela stvar, ali nisam procitao ceo thread... pa da ne bude citao, a posle za dzabe... a i tri strane nisu malo...

Ajde molim vas nek mi neko kaze jel ste vec formirali tim...


Pozdrav, Lucas
 
Nazad
Vrh Dno