OCR: riconoscimento ottico dei caratteri e l’archiviazione facile

La scorsa settimana abbiamo trattato l’argomento ricerca Full Text, come trovare un documento anche quando ci si ricorda solo una parola del testo in esso contenuto. Oggi poniamo l’accento sull’archiviazione dei documenti cartacei, inserendoli ad esempio con uno scanner.

In questo modo diventano documenti digitali e possono essere indicizzati utilizzando i metadati, le informazioni sul documento. Esiste però una forma di acquisizione che può supportare l’utilizzo della ricerca Full Text anche sui documenti testuali acquisiti per scansione: si chiama OCR (Optical Character Recognition). E’ un sistema in grado di riconoscere il testo dall’immagine del documento, interpretarlo e trasformarlo in testo digitale modificabile con un normale editor (word, notepad o altri). Cliccando questo link è possibile approfondire la storia e le varie peculiarità di questa utile tecnologia.

Tra gli sviluppi e le applicazioni più interessanti possiamo segnalarvi quella di Laserfiche con il modulo Quick Fields permette la cattura automatica delle informazioni critiche sia dai documenti di carta che elettronici e li organizza per un veloce ricupero. Migliora, inoltre, la qualità delle immagini scannerizzate con funzionalità quali rotazione, rimozione linee, ritaglio immagine, aggiustamento immagine, ecc… Lo strumento Zone OCR è una estensione di Quick Fields riconosce il testo in zone prescelte nei documenti che si vogliono processare (un esempio è l’estrazione dei codici fiscali da un bollettino ICI) per una rapida cattura e riempimento dei campi di indicizzazione.

Archiviazione file: indicizzazione Full Text

In questo post abbiamo provato a fornire alcuni consigli per archiviare i vostri file. Qualche tempo fa invece abbiamo evidenziato come la tecnologia, dal semplice computer al moderno tablet (o smartphone) ci fornisca degli strumenti importanti per aumentare la memoria per registrare i nostri contenuti e poterli conservare in uno spazio pressochè infinito e la velocità nel cercare e trovare ciò che ci interessa.

Oltre alla nomenclatura del file, già utile come base per avere degli archivi ordinati, è possibile utilizzare quelli che vengono chiamati Metadati, ovverosia i ‘dati sui dati’. Si tratta di informazioni inerenti il documento salvato: il creatore, la data di creazione, note varie, eventuali categorie, ecc… presenti per i più comuni file del vostro computer, qui di seguito un esempio della scheda metadati di un documento Word:

In base ai metadati è quindi possibile operare delle ricerche utilizzando i criteri presenti sulla scheda. Una delle differenze tra un file system (finestra di ricerca e visualizzazione file del sistema operativo) e un sistema di gestione documentale è la possibilità di integrare ai metadati la ricerca detta Full Text, a  testo intero. Si tratta di un metodo potente e veloce di reperire i documenti testuali. In questo caso è la memoria del computer che aiuta davvero quella dell’uomo.

Un esempio? Avete utilizzato il sistema di archiviazione elettronica per archiviare un documento tre anni fa ma non ricordate nulla dei metadati (titolo, nome del creatore, data di creazione, note, ecc…) però ricordate benissimo che si trattava di un file di word che conteneva almeno la parola ‘tubatura’. Questo piccolo ricordo vi basta! Il sistema cercherà in tutti i testi archiviati, all’interno del corpo del documento la parola ‘tubatura’ e vi presenterà i risultati, in modo che possiate trovare quello di interesse.

Comodo vero? :-) se volete approfondire ecco un link che fa per voi…

Archiviazione file: qualche idea…

L’azione di archiviare è una delle operazioni più frequenti quando si utilizza un PC (a volte è anche automatizzata). Più conosciuta come ‘Salva’ (o ‘Salva con nome’) tutti, anche i meno confidenti e preparati la effettuano almeno una volta al giorno.

Ci troviamo quindi di fronte a due scelte: la posizione in cui mettere il nostro file e il nome da affidargli. Spesso, in questo ultimo caso, la realtà supera la fantasia… :-) . Dopo alcune esperienze con nomi, acronimi, codici e denominazioni al limite del criptico, abbiamo pensato di condividere un elenco di consigli su come nominare i file, non esaustivo ma nel quale speriamo possiate trovare qualche utile spunto.

  1. Utilizzare nomi brevi e semplici da ricordare;
  2. Evitare gli acronimi formati da una o due lettere;
  3. Il file potrebbe necessitare di una data. Utilizzando la notazione americana (anno/mese/giorno), l’ordinamento dei file andrà di conseguenza secondo l’anno, il mese e il giorno;
  4. Se volete ordinarli numericamente (o per data) i numeri da 1 a 9 è meglio farli precedere da 0, così l’ordine rimarrà invariato anche con numeri da due cifre in su;
  5. Meglio evitare gli spazi, piuttosto utilizzate gli underscore (trattino basso): _ ;
  6. Utilizzare delle sigle per sintetizzare qualche cosa di inerente al documento stesso (‘rev’ al fondo del nome per dire che è una revisione, iniziali nome e cognome per indicare chi l’ha creato, V o A per documenti di vendita o acquisto, ecc…)

Avete altri suggerimenti? Che piccoli trucchetti utilizzate per ‘salvare’ i vostri file? Se volete condivideteli nei commenti, in questi campi, c’è sempre da imparare… :-)