Šta je novo?

Scan u Text

zule

Čuven
Učlanjen(a)
17.02.2004
Poruke
25
Poena
604
Da li postoji program koji ce skenirani tekst (kao sliku) da pretvori u tekst (da moze da se preredjuje u npr. Word-u)? Hvala
 
Ako imas HP skener on ima u sebi OCR program (tako se zove grupa programa koja tebi treba), ne treba ti nista drugo. A i ja dajem preporuku za Abby, stvarno je odlican.
 
Obično uz skenere ide neka besplatna verzija nekog OCR programa. Ja sam uz Mustek dobio Abbyy (BTW, šta im to znači?) FineReader Sprint, neku bednu verziju FR-a 4. Za skeniranje knjiga i bilo čega većeg je neupotrebljivo, ali za nekoliko strana teksta je sasvim OK.
 
Jos jedan glas za 'ebi :) fine reader. Najmocniji program za OCR!
 
Poslednja izmena:
Jos jedan glas za 'ebi :) fine reader. Najmocniji program za OCR!
Ja moram da kažem da sam sa FR poprilično razočaran u mnogim stvarima... Prvo, ako hoću da sačuva layout i da izvezem u PDF moram u pixel da kropujem slike inače će u PDF-u svaka strana biti različite širine. Zar nisu mogli da urade da postoji glavni okvir za prepoznavanje i da se margine ignorišu a veličina margina u PDF-u podesi po želji?

Drugo, skenirao sam hrvatski tekst, mada ima rečnik za hrvatski dešava se da pogrešno prepozna neke reči, da su te reči nepostojeće ali da ladno ne prijavi ništa sumnjivo. Ovde nije rešenje da se čekira da prijavljuje sve reči kojih nema u rečniku, jer je tad svaka druga reč označena. Od programa koji služi za skeniranje knjiga ipak očekujem da ne moram celu knjigu da čitam reč po reč da bih proverio.

Treće (možda i najgore). Desi se kad je nezgodno savijena stranica da ne uhvati neku reč, onda početak reda uvuče unutra, ja kad naknadno ubacim tu reč nemam načina da reformatiram i ostane vrljavo pa moram naknadno da editujem PDF.

Ovo sve pričam o FR 7, možda je u novijim verzijama nešto popravljeno.
 
Poslednja izmena:
secam se programa omnipage koji je takodje lepo odradjivao taj posao.
nisam siguran kakav je taj program danas:smash:
 
I ja sam imao taj problem sa PDF-om, ali je on hvala bogu resen u osmici!
 
I ja sam imao taj problem sa PDF-om, ali je on hvala bogu resen u osmici!
Baš ću, čim mi se ukaže prilika, da isprobam i osmicu.

Po mom iskustvu, FR je program sa neverovatno dobrim algoritmima za prepoznavanje oblika slova, ali istovremeno i program lišen ma i minimuma "veštačke inteligencije". Npr. kakva je verovatnoća da u sredini reči bude veliko slovo? Ako program nije siguran zar ne bi bilo logičnije da reč "učenik" pročita baš tako, a ne kao "uČenik"? Milion postoji ovakvih primera gde bi uz nešto logike i statistike mogao da se postigne znatno bolji rezultat.
 
heh, u engleskom IT/Internet slengu, takva mogućnost je prilično velika ;)
Nije da mi nije palo na pamet, ali jezik za prepoznavanje je bio Serbian (latin).

U srpskom (niti u hrvatskom) ne postoji praktično suglasnička grupa kc. I zašto onda reč "keks" prepozna kao "kcks"? Tu bi malo statistike baš povećalo uspešnost skeniranja.

Nego, jel' 8 100% kompatibilno unazad sa 7? U pola sam posla pa se bojim da nešto ne zeznem. Da li da ipak sačekam da završim ovo što sad radim?
 
Poslednja izmena:
Da, ako imas neki posao koji si poceo, pa save-ovao, moci ces komotno da nastavis u osmici.
 
Ja sad radim nešto gde me je sedmica doterala do loodila. Naime, reč je o knjizi koja je previše sitno skenirana (nisam ja skenirao). Kad se uzme da su ta slova sitna FR 7 je maestralno odradio prepoznavanje, ali... U PDF i izvozi neviđeno sitna slova (šta da ti kažem, Times New Roman, veličina 5), tako da širina strana čak zavisi od toga kakve su širine reči, da li se završava na m ili i. Izvoz u DOC je isto tako debilan (i nisam uspeo da normalizujem a da mi se ne rasturi). On, očito, koristi normalan font samo ako je skenirano sa 300-600 dpi, a ova slova tretira kao neka minijaturna i tako ih i konvertuje. Na kraju sam odlučio da izvozim u TXT pa da ručno formatiram.

Javiću ti se ovih dana, hvala mnogo još jednom.
 
Vredelo bi... Baš sad čitam tehničke specifikacije i za verziju 9 mi je najviše privuklo pažnju ovo:

Overall accuracy has been improved by as much as 35 percent compared to the previous version.
 
Evo, dakle, krenuo sam redom pa baš sad isprobavam verziju 8. Veoma razočaravajuće. Svi problemi koje sam nabrojao prisutni su i dalje, osim problema sa ekstremno malim slovima prilikom OCR-a slika u niskoj rezoluciji, jer sad program automatski detektuje rezoluciju i prilagođava se tome. Dodata je i crop funkcija, ali u suštini je svejedno da li crop radite u samom FR-u ili u nekom programu za obradu slika. I dalje je to dosadna, spora i čisto manuelna funkcija.

Meni je šokantno da program koji se ovoliko godina razvija (i koji košta silne pare) čak ni u ovoj inkarnaciji nema autocrop (mada je očigledno u stanju da prepozna layuot teksta, trebalo bi da je autocrop a piece of cake) i da i dalje ne dozvoljava ni minimum formatiranja teksta. Štaviše, situacija sa formatiranjem mi izgleda još znatno gora nego u verziji 7, jer ako je sken loš ponekad poređa redove (iz meni nerazumljivih razloga) po nekom cik cak obrascu i nema apsolutno nikakvog načina da ih poravnjate.
 
Poslednja izmena:
ok meni Abbyy nece uopste da procita tekst koji je napisan timesom, font 10, ali u pitanju je cirilica i ima dosta teksta koji je u italic modu... posle radjenog ocr, nije prepoznao NITI JEDNU EEDNIU REC... Help anyone?
 
Evo, dakle, krenuo sam redom pa baš sad isprobavam verziju 8. Veoma razočaravajuće. Svi problemi koje sam nabrojao prisutni su i dalje, osim problema sa ekstremno malim slovima prilikom OCR-a slika u niskoj rezoluciji, jer sad program automatski detektuje rezoluciju i prilagođava se tome. Dodata je i crop funkcija, ali u suštini je svejedno da li crop radite u samom FR-u ili u nekom programu za obradu slika. I dalje je to dosadna, spora i čisto manuelna funkcija.

Meni je šokantno da program koji se ovoliko godina razvija (i koji košta silne pare) čak ni u ovoj inkarnaciji nema autocrop (mada je očigledno u stanju da prepozna layuot teksta, trebalo bi da je autocrop a piece of cake) i da i dalje ne dozvoljava ni minimum formatiranja teksta. Štaviše, situacija sa formatiranjem mi izgleda još znatno gora nego u verziji 7, jer ako je sken loš ponekad poređa redove (iz meni nerazumljivih razloga) po nekom cik cak obrascu i nema apsolutno nikakvog načina da ih poravnjate.


Vec dva meseca koristim 9-ku na poslu i mogu samo toplo da ti je preporucim. Zaboravi 8-cu i odmah pocni sa koriscenjem 9-ke.

Da li da je hvalim kada izvlaci i text sa faxa koje 7-ica nije mogla ni u snu. Probaj sigurno se neces razocarati
 
abbyy -scan to office-
 
Poslednja izmena:
Abby Fine Reader 9,letos sam skenirao neku knjigu drugaru od nekih 500-600 strana i odradio je savrseno dok npr sa v8 je bilo dosta problema oko prepoznavanja slova jer je knjiga na cirilici.Program je stvarno odlicno odradjen nema sta :)
 
Nazad
Vrh Dno