Scan u Text

zule · 27.11.2008

Da li postoji program koji ce skenirani tekst (kao sliku) da pretvori u tekst (da moze da se preredjuje u npr. Word-u)? Hvala

sirNemanjapro · 27.11.2008

Abby Fine Reader je program koji će ti pomoći.

a c a · 27.11.2008

Ako imas HP skener on ima u sebi OCR program (tako se zove grupa programa koja tebi treba), ne treba ti nista drugo. A i ja dajem preporuku za Abby, stvarno je odlican.

abc011abc · 27.11.2008

btw... Abbyy

wiz011 · 28.11.2008

Obično uz skenere ide neka besplatna verzija nekog OCR programa. Ja sam uz Mustek dobio Abbyy (BTW, šta im to znači?) FineReader Sprint, neku bednu verziju FR-a 4. Za skeniranje knjiga i bilo čega većeg je neupotrebljivo, ali za nekoliko strana teksta je sasvim OK.

SeeBeen · 28.11.2008

Jos jedan glas za 'ebi

fine reader. Najmocniji program za OCR!

wiz011 · 28.11.2008

CooLa je napisao(la):
Jos jedan glas za 'ebi fine reader. Najmocniji program za OCR!

Ja moram da kažem da sam sa FR poprilično razočaran u mnogim stvarima... Prvo, ako hoću da sačuva layout i da izvezem u PDF moram u pixel da kropujem slike inače će u PDF-u svaka strana biti različite širine. Zar nisu mogli da urade da postoji glavni okvir za prepoznavanje i da se margine ignorišu a veličina margina u PDF-u podesi po želji?

Drugo, skenirao sam hrvatski tekst, mada ima rečnik za hrvatski dešava se da pogrešno prepozna neke reči, da su te reči nepostojeće ali da ladno ne prijavi ništa sumnjivo. Ovde nije rešenje da se čekira da prijavljuje sve reči kojih nema u rečniku, jer je tad svaka druga reč označena. Od programa koji služi za skeniranje knjiga ipak očekujem da ne moram celu knjigu da čitam reč po reč da bih proverio.

Treće (možda i najgore). Desi se kad je nezgodno savijena stranica da ne uhvati neku reč, onda početak reda uvuče unutra, ja kad naknadno ubacim tu reč nemam načina da reformatiram i ostane vrljavo pa moram naknadno da editujem PDF.

Ovo sve pričam o FR 7, možda je u novijim verzijama nešto popravljeno.

ile · 28.11.2008

secam se programa omnipage koji je takodje lepo odradjivao taj posao.
nisam siguran kakav je taj program danas:smash:

SeeBeen · 28.11.2008

I ja sam imao taj problem sa PDF-om, ali je on hvala bogu resen u osmici!

wiz011 · 29.11.2008

CooLa je napisao(la):
I ja sam imao taj problem sa PDF-om, ali je on hvala bogu resen u osmici!

Baš ću, čim mi se ukaže prilika, da isprobam i osmicu.

Po mom iskustvu, FR je program sa neverovatno dobrim algoritmima za prepoznavanje oblika slova, ali istovremeno i program lišen ma i minimuma "veštačke inteligencije". Npr. kakva je verovatnoća da u sredini reči bude veliko slovo? Ako program nije siguran zar ne bi bilo logičnije da reč "učenik" pročita baš tako, a ne kao "uČenik"? Milion postoji ovakvih primera gde bi uz nešto logike i statistike mogao da se postigne znatno bolji rezultat.

abc011abc · 29.11.2008

wiz011 je napisao(la):
kakva je verovatnoća da u sredini reči bude veliko slovo?

heh, u engleskom IT/Internet slengu, takva mogućnost je prilično velika

wiz011 · 29.11.2008

abc011abc je napisao(la):
heh, u engleskom IT/Internet slengu, takva mogućnost je prilično velika

Nije da mi nije palo na pamet, ali jezik za prepoznavanje je bio Serbian (latin).

U srpskom (niti u hrvatskom) ne postoji praktično suglasnička grupa kc. I zašto onda reč "keks" prepozna kao "kcks"? Tu bi malo statistike baš povećalo uspešnost skeniranja.

Nego, jel' 8 100% kompatibilno unazad sa 7? U pola sam posla pa se bojim da nešto ne zeznem. Da li da ipak sačekam da završim ovo što sad radim?

SeeBeen · 30.11.2008

Da, ako imas neki posao koji si poceo, pa save-ovao, moci ces komotno da nastavis u osmici.

wiz011 · 30.11.2008

Ja sad radim nešto gde me je sedmica doterala do loodila. Naime, reč je o knjizi koja je previše sitno skenirana (nisam ja skenirao). Kad se uzme da su ta slova sitna FR 7 je maestralno odradio prepoznavanje, ali... U PDF i izvozi neviđeno sitna slova (šta da ti kažem, Times New Roman, veličina 5), tako da širina strana čak zavisi od toga kakve su širine reči, da li se završava na m ili i. Izvoz u DOC je isto tako debilan (i nisam uspeo da normalizujem a da mi se ne rasturi). On, očito, koristi normalan font samo ako je skenirano sa 300-600 dpi, a ova slova tretira kao neka minijaturna i tako ih i konvertuje. Na kraju sam odlučio da izvozim u TXT pa da ručno formatiram.

Javiću ti se ovih dana, hvala mnogo još jednom.

gadafi · 30.11.2008

Mozda nije lose da odmah probas devetku?

wiz011 · 30.11.2008

Vredelo bi... Baš sad čitam tehničke specifikacije i za verziju 9 mi je najviše privuklo pažnju ovo:

Overall accuracy has been improved by as much as 35 percent compared to the previous version.

wiz011 · 01.12.2008

Evo, dakle, krenuo sam redom pa baš sad isprobavam verziju 8. Veoma razočaravajuće. Svi problemi koje sam nabrojao prisutni su i dalje, osim problema sa ekstremno malim slovima prilikom OCR-a slika u niskoj rezoluciji, jer sad program automatski detektuje rezoluciju i prilagođava se tome. Dodata je i crop funkcija, ali u suštini je svejedno da li crop radite u samom FR-u ili u nekom programu za obradu slika. I dalje je to dosadna, spora i čisto manuelna funkcija.

Meni je šokantno da program koji se ovoliko godina razvija (i koji košta silne pare) čak ni u ovoj inkarnaciji nema autocrop (mada je očigledno u stanju da prepozna layuot teksta, trebalo bi da je autocrop a piece of cake) i da i dalje ne dozvoljava ni minimum formatiranja teksta. Štaviše, situacija sa formatiranjem mi izgleda još znatno gora nego u verziji 7, jer ako je sken loš ponekad poređa redove (iz meni nerazumljivih razloga) po nekom cik cak obrascu i nema apsolutno nikakvog načina da ih poravnjate.

djpaan · 06.12.2008

ok meni Abbyy nece uopste da procita tekst koji je napisan timesom, font 10, ali u pitanju je cirilica i ima dosta teksta koji je u italic modu... posle radjenog ocr, nije prepoznao NITI JEDNU EEDNIU REC... Help anyone?

filipos · 06.12.2008

wiz011 je napisao(la):
Evo, dakle, krenuo sam redom pa baš sad isprobavam verziju 8. Veoma razočaravajuće. Svi problemi koje sam nabrojao prisutni su i dalje, osim problema sa ekstremno malim slovima prilikom OCR-a slika u niskoj rezoluciji, jer sad program automatski detektuje rezoluciju i prilagođava se tome. Dodata je i crop funkcija, ali u suštini je svejedno da li crop radite u samom FR-u ili u nekom programu za obradu slika. I dalje je to dosadna, spora i čisto manuelna funkcija.

Meni je šokantno da program koji se ovoliko godina razvija (i koji košta silne pare) čak ni u ovoj inkarnaciji nema autocrop (mada je očigledno u stanju da prepozna layuot teksta, trebalo bi da je autocrop a piece of cake) i da i dalje ne dozvoljava ni minimum formatiranja teksta. Štaviše, situacija sa formatiranjem mi izgleda još znatno gora nego u verziji 7, jer ako je sken loš ponekad poređa redove (iz meni nerazumljivih razloga) po nekom cik cak obrascu i nema apsolutno nikakvog načina da ih poravnjate.

Vec dva meseca koristim 9-ku na poslu i mogu samo toplo da ti je preporucim. Zaboravi 8-cu i odmah pocni sa koriscenjem 9-ke.

Da li da je hvalim kada izvlaci i text sa faxa koje 7-ica nije mogla ni u snu. Probaj sigurno se neces razocarati

iceAge · 07.12.2008

abbyy -scan to office-

pavle93 · 13.12.2008

Abby Fine Reader 9,letos sam skenirao neku knjigu drugaru od nekih 500-600 strana i odradio je savrseno dok npr sa v8 je bilo dosta problema oko prepoznavanja slova jer je knjiga na cirilici.Program je stvarno odlicno odradjen nema sta

Scan u Text

Čuven

Slavan

Uticajan

Banned

Guest

Jež

Guest

Slavan

Jež

Guest

Banned

Guest

Jež

Guest

Slavan

Guest

Guest

Čuven

Čuven

Čuven

Slavan