DecaTec

Programmieren, Fotografie, Home-Server und einiges mehr

Skript

Linux: OCR-Texterkennung für PDF-Dateien und Bilder

Logo OCR

Die Texterkennung (sog. OCR – Optical Character Recognition) sorgt bei Dokumenten verschiedenster Art dafür, dass Datei-Inhalte maschinell lesbar sind. Dadurch lassen sich Datei-Inhalte zum einen leicht markieren/kopieren (z.B. bei PDF-Dateien). Zum anderen werden die Inhalte der Dateien leicht durchsuchbar. Der folgende Artikel zeigt daher, wie PDF-Dateien mit einer Texterkennung verarbeitet werden können. Ebenso wird gezeigt, […]

, , , , ,