L'OCR est une technologie qui permet de convertir des images numérisées en texte éditable et recherchable. Lorsqu'un fichier PDF est créé à partir d'une image numérisée ou d'un document qui n'a pas de texte éditable incorporé, il est souvent simplement une image statique dans le PDF, et le contenu du texte n'est pas directement accessible ou modifiable.
Cependant, si l'OCR est appliquée à ce type de PDF, le texte contenu dans l'image est extrait et converti en texte éditable, ce qui permet de rechercher, de copier et de modifier le texte comme n'importe quel autre document texte.
En résumé, un PDF avec OCR signifie qu'un processus de reconnaissance optique de caractères a été appliqué au PDF pour extraire le texte à partir d'images numérisées, le rendant ainsi éditable et recherchable. Un PDF sans OCR est simplement une image statique ou un document sans texte éditable incorporé.
Ici dans l'exemple, le PDF dispose de sa "couche texte". Ainsi en cas de recherche d'un mot, d'une phrase, ils apparaitront en surbrillance dans le fichier PDF.
L'OCR peut se faire en masse (processus automatiques) ou unitairement dans les applications bureautiques.
Comments