OCR-tekniikka auttaa kielten käännöskehityksessä - Sanakirjakynä - Uutiset

Mikä on OCR?

Optinen merkintunnistus (OCR) tarkoittaa prosessia, jossa tekstikuvat muunnetaan koneellisesti luettavaan tekstimuotoon. Jos esimerkiksi skannaat lomakkeen tai kuitin, tietokone tallentaa skannauksen kuvatiedostona. Et voi muokata, etsiä tai laskea kuvatiedoston tekstiä tekstieditorilla. Voit kuitenkin käyttää tekstintunnistusta kuvien muuntamiseen tekstiasiakirjoiksi ja sisällön tallentamiseen tekstitietona.

png

Miksi OCR on niin tärkeä?

Useimpiin liiketoiminnan työnkulkuihin liittyy tietojen saaminen painetun median kautta. Paperiset lomakkeet, laskut, skannatut lakiasiakirjat ja painetut sopimukset ovat kaikki osa liiketoimintaprosessia. Näiden massiivisten asiakirjojen tallentaminen ja hallinta vie paljon aikaa ja tilaa. Huolimatta suuntauksesta kohti paperitonta asiakirjahallintaa asiakirjojen skannaaminen kuviksi on edelleen haastavaa. Prosessi vaatii ihmisen väliintuloa, on raskas ja hidas.

Lisäksi asiakirjojen sisällön digitalisointi voi johtaa kuvatiedostoihin, joissa on piilotekstiä. Tekstinkäsittelyohjelmat eivät voi käsitellä kuvissa olevaa tekstiä samalla tavalla kuin tekstidokumentteja. OCR ratkaisee tämän ongelman muuntamalla tekstikuvat tekstidataksi, joka voidaan analysoida muilla kaupallisilla ohjelmistoilla. Sen jälkeen voit käyttää tietoja analysoimaan, parantamaan toimintaa, automatisoimaan prosesseja ja lisäämään tuottavuutta.

7d9be6872456af033802d073206010b

Miten OCR toimii?

Kuvan hankinta

Skannerit lukevat asiakirjoja ja muuntavat ne binääritiedoiksi. OCR-ohjelmisto analysoi skannatun kuvan ja luokittelee vaaleat alueet taustaksi ja tummat alueet tekstiksi.

esikäsittely

OCR-ohjelmisto puhdistaa ensin kuvan ja poistaa virheet lukemiseen valmistautuessaan. Tässä on joitain siihen käytettyjä puhdistustekniikoita:

Skannattujen asiakirjojen pieni siirtymäkorjaus tai vino skannauksen aikana kohdistusongelmien korjaamiseksi.

Poista kohina, poista pilkkuja digitaalisista kuvista tai tasoita tekstikuvien reunoja.

Puhdista kuvan reunat ja viivat.

Käsikirjoituksen tunnistus monikielisellä OCR-tekniikalla

Tekstin tunnistus

Kaksi päätyyppiä OCR-algoritmeja tai ohjelmistoprosesseja, joita OCR-ohjelmisto käyttää tekstintunnistukseen, ovat kuvioiden täsmäys ja ominaisuuksien poimiminen.

Kuvioiden yhteensopivuus

Kuvioiden vastaavuus erottaa hahmon kuvan (kutsutaan kuvioksi) ja vertaa sitä tallennettuihin samankaltaisiin kuvioihin. Kuvioiden täsmäytys toimii vain, jos tallennetulla kuviolla on samanlainen kirjasin ja koko kuin syötetyllä kuviolla. Tämä menetelmä toimii hyvin tunnetuilla fonteilla syötettyjen asiakirjojen skannatuissa kuvissa.

Ominaisuuksien erottaminen

Ominaisuuden poiminta segmentoi tai hajottaa kuviot ominaisuuksiksi, kuten viivoiksi, suljetuiksi silmukaksi, viivan suunnaksi ja viivan tarkennukseksi. Sitten se käyttää näitä ominaisuuksia löytääkseen parhaan tai lähimmän vastaavuuden eri tallennettujen merkkien joukosta.

Jälkikäsittelyä

Analyysin jälkeen järjestelmä muuntaa puretut tekstitiedot tietokoneisiksi tiedostoiksi. Jotkin OCR-järjestelmät voivat luoda huomautuksilla varustettuja PDF-tiedostoja, jotka sisältävät skannattujen asiakirjojen esi- ja jälkiskannausversiot.

OCR-tekniikka auttaa kielikäännösten kehittämisessä