Optical Character Recognition (OCR) henviser til software, der skaber en digital version af et trykt, maskinskrevet eller håndskrevet dokument, som computere kan læse uden at skulle indtaste eller indtaste teksten manuelt. OCR bruges generelt på scannede dokumenter i PDF-format, men kan også oprette en computerlæsbar version af tekst i en billedfil.
Hvad OCR er
OCR, også kaldet tekstgenkendelse, er softwareteknologi, der omdanner tegn som tal, bogstaver og tegnsætning (også kaldet glyffer) fra trykte eller skrevne dokumenter til en elektronisk form, der lettere kan genkendes og læses af computere og andre softwareprogrammer. Nogle OCR-programmer gør dette, da et dokument scannes eller fotograferes med et digitalkamera, og andre kan anvende denne proces på dokumenter, der tidligere er blevet scannet eller fotograferet uden OCR. OCR giver brugerne mulighed for at søge i PDF-dokumenter, redigere tekst og omformatere dokumenter.
Getty Images
Hvad bruges OCR til?
For hurtige, daglige scanningsbehov er OCR muligvis ikke en stor sag. Hvis du laver en stor mængde scanninger, kan det spare en del tid, hvis du er i stand til at søge i PDF-filer for at finde den, du har brug for, og det gør OCR-funktionaliteten i dit scannerprogram vigtigere. Her er nogle andre ting, OCR hjælper med:
- Automatisk databehandling og dataindtastning (Eksempel: Jobansøgersporingssystemer til CV'er).
- Gør scannede bøger søgbare.
- Konvertering af håndskrevne scanninger til computerlæsbar tekst.
- Gør dokumenter mere anvendelige af læseprogrammer, der hjælper synshandicappede brugere.
- Bevarelse af historiske dokumenter og aviser, og gør dem også søgbare.
- Dataudtræk og overførsel til regnskabsprogrammer (eksempel: Kvitteringer og fakturaer).
- Indeksering af dokumenter til brug for søgemaskiner.
- Genkendelse af kørekortplader af en fartkamera og software til rødt lyskamera.
- Talesynthesizere til folk, der ikke kan tale – teoretisk fysiker, Stephen Hawking, er måske den mest kendte bruger af et talesynthesizerprogram.
Bundlinje
Hvorfor ikke bare tage et billede, ikke? Fordi du ikke ville være i stand til at redigere noget eller søge i teksten, fordi det bare ville være et billede. Scanning af dokumentet og kørsel af OCR-software kan gøre den fil til noget, du kan redigere og være i stand til at søge i.
History of OCR
Mens den allertidligste brug af tekstgenkendelse stammer fra 1914, begyndte den udbredte udvikling og brug af OCR-relaterede teknologier for alvor i 1950'erne, specielt med skabelsen af meget forenklede skrifttyper, der var nemmere at konvertere til digit alt- læsbar tekst. Den første af disse forenklede skrifttyper blev skabt af David Shepard og almindeligvis kendt som OCR-7B. OCR-7B er stadig i brug i dag i den finansielle industri til standardskrifttypen, der bruges på kreditkort og debetkort. I 1960'erne begyndte posttjenester i flere lande at bruge OCR-teknologi til at fremskynde postsortering i høj grad, herunder USA, Storbritannien, Canada og Tyskland. OCR er stadig kerneteknologien, der bruges til at sortere post til posttjenester rundt om i verden. I 2000 blev nøgleviden om grænserne og mulighederne for OCR-teknologi brugt til at udvikle CAPTCHA-programmerne, der blev brugt til at stoppe bots og spammere.
I løbet af årtierne er OCR blevet mere nøjagtig og mere sofistikeret på grund af fremskridt inden for relaterede teknologiområder såsom kunstig intelligens, maskinlæring og computersyn. I dag bruger OCR-software mønstergenkendelse, funktionsdetektion og tekstmining til at transformere dokumenter hurtigere og mere præcist end nogensinde før.
FAQ
Hvordan scanner jeg dokumenter med min telefon eller tablet?
Åbn Notes-appen på iOS, og opret en ny note. Åbn kameraet, og tryk derefter på Scan dokumenter. På Android skal du åbne Google Drev og vælge Plus (+), og derefter trykke på Scan for at scanne dokument med din telefon.
Hvordan bruger jeg OCR i Adobe Acrobat?
Åbn en PDF-fil, der indeholder et scannet billede, og vælg derefter Værktøjer > Rediger PDF. Acrobat anvender automatisk OCR, så du kan redigere teksten. Du skal bare vælge, hvor du vil redigere, og begynde at skrive.
Hvad er forskellen mellem OCR og OMR?
Optical Mark Recognition (OMR) er software, der registrerer mærker på papir, typisk et bobleark. OMR bruges til at behandle resultaterne af eksamener, undersøgelser, spørgeskemaer og endda valg. I modsætning til OCR kan OMR ikke tyde mærkerne på siden, men kun kontrollere, at mærkerne er der.