OCR: riconoscimento ottico dei caratteri e l’archiviazione facile
25 lug 2013 | Nessun commento | posted by Massimo | in EDM
La scorsa settimana abbiamo trattato l’argomento ricerca Full Text, come trovare un documento anche quando ci si ricorda solo una parola del testo in esso contenuto. Oggi poniamo l’accento sull’archiviazione dei documenti cartacei, inserendoli ad esempio con uno scanner.
In questo modo diventano documenti digitali e possono essere indicizzati utilizzando i metadati, le informazioni sul documento. Esiste però una forma di acquisizione che può supportare l’utilizzo della ricerca Full Text anche sui documenti testuali acquisiti per scansione: si chiama OCR (Optical Character Recognition). E’ un sistema in grado di riconoscere il testo dall’immagine del documento, interpretarlo e trasformarlo in testo digitale modificabile con un normale editor (word, notepad o altri). Cliccando questo link è possibile approfondire la storia e le varie peculiarità di questa utile tecnologia.
Tra gli sviluppi e le applicazioni più interessanti possiamo segnalarvi quella di Laserfiche con il modulo Quick Fields permette la cattura automatica delle informazioni critiche sia dai documenti di carta che elettronici e li organizza per un veloce ricupero. Migliora, inoltre, la qualità delle immagini scannerizzate con funzionalità quali rotazione, rimozione linee, ritaglio immagine, aggiustamento immagine, ecc… Lo strumento Zone OCR è una estensione di Quick Fields riconosce il testo in zone prescelte nei documenti che si vogliono processare (un esempio è l’estrazione dei codici fiscali da un bollettino ICI) per una rapida cattura e riempimento dei campi di indicizzazione.