Agurrak blogeko irakurle guztiei!
Uste dut ordenagailuan maiz lan egiten dutenek (ez dutela jolasten, hots, lana), testuen errekonozimenduari aurre egin behar izan ziotela. Beno, adibidez, liburu bateko laburpena aztertu zenuen eta orain zati hau zure dokumentuan txertatu behar duzu. Baina eskaneatutako dokumentua irudi bat da, eta testua behar dugu. Horretarako programa bereziak eta lineako zerbitzuak behar ditugu irudietatik testua aitortzeko.
Aitorpen programei buruz, dagoeneko idatzi nituen aurreko mezuetan:
- Testua eskaneatu eta aitortzea FineReader-en (ordaindutako programa);
- FineReader analogikoan lan egitea - CuneiForm (programa librea).
Artikulu berean, lineako zerbitzuetan murgildu nahiko nuke testua aitortzeko. Azken finean, 1-2 argazkirekin testu bat azkar lortu behar baduzu - ez du batere arazorik hainbat programa instalatzen ...
! Garrantzitsua Aitortzearen kalitatea (akats kopurua, irakurgarritasuna ...) irudiaren jatorrizko kalitatearen araberakoa da. Hori dela eta, eskaneatzean (argazkiak, etab.), Hautatu kalitatea ahalik eta altuena. Gehienetan, 300-400 dpi-ko kalitatea nahikoa izango da (dpi-a irudiaren kalitatea ezaugarritzen duen parametroa da. Eskaner ia guztien ezarpenetan parametro hau normalean adierazten da).
Lineako zerbitzuak
Zerbitzuek nola funtzionatzen duten erakusteko, nire artikuluetako baten pantaila-argazkia egin nuen. Pantaila-argazkia zerbitzu guztietara kargatuko da, jarraian deskribatzen dena.
1) //www.ocrconvert.com/
Asko gustatzen zait zerbitzu hau, duen sinpletasunagatik. Gunea, ingelesa izan arren, ondo funtzionatzen du errusiar hizkuntzarekin. Ez da izena eman beharrik. Aitortza hasteko, 3 ekintza egin behar dituzu:
- igo zure irudia;
- irudian agertzen den testuaren hizkuntza aukeratu;
- sakatu aitorpen botoia.
Formatuetarako euskarria: PDF, GIF, BMP, JPEG.
Emaitza beheko irudian aurkezten da. Esan behar dut, testua nahiko ondo ezagutzen dela. Gainera, oso azkar - literalki 5-10 segundo itxaron nituen.
2) //www.i2ocr.com/
Zerbitzu honek goian bezala funtzionatzen du. Hemen ere fitxategia deskargatu behar duzu, aitorpen hizkuntza aukeratu eta atera testuaren botoia. Zerbitzua oso azkar funtzionatzen du: 5-6 segundo. orrialde bat.
Onartutako formatuak: TIF, JPEG, PNG, BMP, GIF, PBM, PGM, PPM.
Lineako zerbitzu honen emaitza askoz ere erosoagoa da: berehala bi leiho ikusiko dituzu - lehenengoan, aitorpen emaitza, bigarrenean - jatorrizko irudia. Hori dela eta, aldaketak egitea nahikoa erraza da. Bide batez, zerbitzuan erregistratzea ere ez da beharrezkoa.
3) //www.newocr.com/
Zerbitzu hau bakarra da hainbat modutan. Lehenik eta behin, "newfangled" DJVU formatua onartzen du (bide batez, formatuen zerrenda osoa: JPEG, PNG, GIF, BMP, TIFF, PDF, DjVu). Bigarrenik, irudiko testu eremuen aukeraketa onartzen du. Oso erabilgarria da irudian testu-arloak ez ezik, aitortu behar ez dituzun arlo grafikoak ere.
Aitorpen kalitatea batez bestekoaren gainetik dago, ez da erregistratu beharrik.
4) //www.free-ocr.com/
Aitortzeko oso zerbitzu erraza: irudia igo, hizkuntza zehaztu, captcha sartu (bide batez artikulu honetako zerbitzu bakarra non egin behar duen) eta sakatu botoia irudia testuetara itzultzeko. Egia esan, dena!
Onartutako formatuak: PDF, JPG, GIF, TIFF, BMP.
Aitortzearen emaitza ertaina da. Akatsak daude, baina ez asko. Hala ere, jatorrizko pantailaren kalitatea handiagoa izango balitz, akats gutxieneko agindua egongo litzateke.
PS
Gaurko guztia da. Testua aitortzeko zerbitzu interesgarriagoak ezagutzen badituzu - partekatu iruzkinetan, eskertuko dut. Baldintza bat: komenigarria da erregistratzea behar ez izatea eta zerbitzua doakoa izatea.
Onenak!