DecaTec

Programmieren, Fotografie, Home-Server und einiges mehr

Scanbot und Nextcloud zur Verwaltung digitaler Dokumente (mit OCR)

Nextcloud Scanbot Logo

Wer eine persönliche Cloud mit Nextcloud betreibt, wird diese sicherlich schon für viele Dinge des digitalen Alltags nutzen: Das Speichern von Dateien, Kalendern und Kontakten sind sicherlich nur einige Anwendungsbeispiele.

Besonders interessant wird die Sache mit dem Verwalten (digitaler) Dokumente. In der heutigen Zeit hat man im Normalfall noch sehr viel „Papierkram“, den man meistens in Ordnern oder Schnellheftern ablegt. Diese verstauben dann meist in irgendeinem Schrank und wenn man die Dokumente dann doch mal braucht, muss man immer erst umständlich suchen.

Hier wäre es doch sicherlich eine Erleichterung, wenn man den ganzen Papierkram digitalisieren könnte und einfach in der eigenen Cloud speichern könnte – geschützt vor den neugierigen Blicken großer Cloud-Anbieter.

Scannen von Dokumenten mit dem Smartphone

Für den Prozess der Digitalisierung denkt man zunächst einmal an einen Scanner. Gute Erfahrungen konnte ich hier mit Multifunktionsgerät (MuFu) wie dem Brother MFC-9142 (Affiliate Link) sammeln: Hier können (auch mehrseitige) Dokumente gleich als PDF mit verschiedenen Optionen (z.B. Farbe/schwarz-weiß) gescannt werden. Es gibt hier auch eine Option zur automatischen Texterkennung (OCR), allerdings kann man als Zielformat dann kein PDF wählen. Wenn man also PDF-Dateien scannen will, muss die Texterkennung nachträglich erfolgen, wie beispielsweise im Artikel Linux: OCR-Texterkennung für PDF-Dateien und Bilder erklärt wird.

Aber es gibt noch eine andere Möglichkeit: Jedes Smartphone hat mittlerweile eine Kamera mit an Bord, mit der man natürlich auch Dokumente abfotografieren kann. Ein Foto ist für ein Dokument nicht unbedingt das richtige Format, daher sollte eine App diese Dokumente gleich als PDF speichern können. Als ich noch ein Windows-Phone hatte (ja, es gab mal Leute, die ein Windows-Phone gern genutzt haben!), fiel meine Wahl hier auf die App Office Lens. Damit bekam man schon recht beeindruckende Ergebnisse, was z.B. die automatische Perspektiven-Korrektur anging. OCR war auch möglich, allerdings gestaltete sich die Integration in ownCloud/Nextcloud etwas umständlich, da man alle Dokumente manuell hochladen musste.

Scanbot: App zum Scannen von Dokumenten

Unter Android bin ich dann auf Scanbot gestoßen: Eine App, die genau die Features bietet, die ich für meinen Workflow benötige:

  • Einfaches Scannen von Dokumenten mit der Smartphone-Kamera.
  • Automatische Korrektur (Perspektive/Farbwerte).
  • Speichern diese Dokumente als PDF.
  • Texterkennung (OCR) für gescannte Dokumente. Wichtig war mir hierbei, dass die Texterkennung nicht in „irgendeiner Cloud“ abläuft, sondern rein lokal auf dem Smartphone ausgeführt wird.
  • Automatisches Hochladen der gescannten Dokumente nach der Texterkennung.

Die App an sich kostet erst einmal nichts. Erst wenn man erweiterte Funktionen nutzen möchte (wie z.B. OCR), dann ist eine Lizenz für Scanbot Pro für ein paar Euro notwendig.

Mittlerweile nutze ich diese App recht häufig zum Scannen von Dokumenten mit anschließendem Upload in meine Nextcloud. Daher möchte ich euch hier zeigen, wie man Scanbot am besten einrichtet, um mit eurer persönlichen Cloud zusammen zu arbeiten.

Scanbot mit Nextcloud verbinden

Wenn ihr Scanbot in Verbindung mit eurer Nextcloud verwenden möchtet, dann muss in der App zunächst einmal die Verbindung zur eigenen Cloud hergestellt werden.

Dazu geht ihr zunächst in den Einstellungen. Hier findet ihr die Option für die Cloud Dienste.

Scanbot: Einstellungen

Scanbot: Einstellungen

Den prominenten Eintrag für Google Drive lassen wir hier natürlich erst einmal links liegen und konfigurieren uns unsere eigene Verbindung mittels Dienst hinzufügen:

Scanbot: Einstellungen - Cloud Dienste

Scanbot: Einstellungen – Cloud Dienste

Anschließend wählen wir WebDAV:

Scanbot: Einstellungen - Cloud Dienste - WebDAV

Scanbot: Einstellungen – Cloud Dienste – WebDAV

Hier werden nun die Zugangsdaten für Nextcloud eingegeben. Neben Benutzername und Passwort ist auch eine WebDAV-URL notwendig. Hier geben wir einfach die WebDAV-URL des Root-Verzeichnisses der Cloud mit folgendem Schema an:

https://meinedomain.de/nextcloud/remote.php/dav/files/<User>/

Wichtig an dieser Stelle ist der Slash (‚/‘) am Ende der URL.

Scanbot: WebDAV Einrichtung

Scanbot: WebDAV Einrichtung

Wenn die Verbindung mit Nextcloud hergestellt werden konnte, dann erscheint die neue Verbindung nun im unteren Bildschirmbereich unter Verfügbare Cloud Dienste.

Nun können gescannte Dokumente einfach über die Schaltfläche MEHR… an diesen Cloud Dienst übertragen werden. Vor dem Upload muss lediglich das Verzeichnis angegeben werden, in das die jeweiligen Dokumente hochgeladen werden sollen.

Automatischer Upload mit Scanbot

Richtig komfortabel wird die Sache nun durch einen automatischen Upload, so dass gescannte Dokumente automatisch in der eigenen Cloud landen.

Hierzu gehen wir wieder in die Einstellungen der App unter Cloud Dienste. Hier kann nun unter Automatischer Upload das automatische Hochladen aktiviert werden:

Scanbot: Automatischen Upload aktivieren

Scanbot: Automatischen Upload aktivieren

Im erscheinenden Popup-Menü wählen wir nun die soeben angelegte WebDAV-Verbindung (in diesem Beispiel Bob). Nun sollte eine Meldung erscheinen, dass die Verbindung mit WebDAV erfolgreich konfiguriert wurde. Durch Klick auf den Ordner kann nun ein Upload-Ordner gewählt werden, in den gescannte Dokumente automatisch hochgeladen werden sollen. in diesem Beispiel wähle ich den Ordner /AutoUpload/Scanbot (neue Ordner können auch einfach aus der App heraus angelegt werden).

Ebenso kann die Option aktiviert werden, dass bereits bestehende Scans hochgeladen werden sollen:

Scanbot: Upload-Optionen

Scanbot: Upload-Optionen

Mit dem konfigurierten automatischen Upload läuft nun direkt nach dem Scan die Texterkennung (nur Scanbot Pro) und das Dokument wird automatisch in das angegebene Nextcloud-Verzeichnis hochgeladen.

Verwaltung digitalisierter Dokumente in Nextcloud

OK, wir haben also ein (Papier-)Dokument digitalisiert und in die eigene Cloud hochgeladen. Dieses befindet sich nun in diesem Beispiel im Ordner AutoUpload/Scanbot und hat den Dateinamen, der in Scanbot vergeben wurde. Meist ist dies einfach Scan JJJJ-MM-TT hh.mm.ss.pdf. Die Vorlage für Dateinamen kann in Scanbot übrigens unter Einstellungen – Dateinamen Vorlage geändert werden – hier gibt es dann noch weitere Variablen wie z.B. Stadt, Straße, Postleitzahl, etc.

Gescanntes Dokument nach dem Upload zu Nextcloud

Gescanntes Dokument nach dem Upload zu Nextcloud

Dateinamen digitalisierter Dokumente

Als erstes sollte das Dokument nun umbenannt werden. Ich verwende hier folgendes Schema: JJJJMMTT – Inhalt. Wenn ich beispielsweise eine Rechnung für eine neu gekaufte Tastatur gescannt habe, bekommt das Dokument den Dateinamen 20181001 – Tastatur.pdf. Der Dateiname bezieht sich dabei nur auf den Inhalt des Dokuments und nicht auf den Dokumenttyp.

Ordnerstruktur für Dokumente

Den Dokumenttyp (z.B. Rechnung) verwalte ich dann über eine Ordnerstruktur. Bei vielen unterschiedlichen Dokumenten macht es hier Sinn, nicht alle Dokumente in nur einem Ordner zu speichern, sondern sich eine sinnvolle Ordnerstruktur zu überlegen. Damit kann dann eine gewisse Ordnung in die Dokumente gebracht werden. Diese Ordnerstruktur ist immer von den individuellen Bedürfnissen abhängig, daher kann hier keine konkrete Empfehlung gegeben werden.

Beispielhafte Ordnerstruktur für Dokumente in der Cloud

Beispielhafte Ordnerstruktur für Dokumente in der Cloud

Nach dem Umbenennen des Dokuments verschiebe ich es abschließend noch in den entsprechenden „Typ-Ordner“ im Dokumenten-Verzeichnis.

Dokumente mit Tags versehen

Eine Variante oder Erweiterung des Vorgehens wäre es nun noch, wenn man keine Ordnerstruktur verwendet, sondern alternativ (oder zusätzlich) die Dokumente mit den entsprechenden Tags (z.B. Rechnung) versieht. Nextcloud unterstützt das Taggen von Dateien (und Ordnern) mit dem Feature „Collaborative Tags“: Dazu einfach in den Details zu einer Datei unter Tags das gewünschte Tag eingeben.

Nextcloud: Zuweisen von Tags zu Dokumenten

Nextcloud: Zuweisen von Tags zu Dokumenten

Als Erweiterung dazu gibt es im Nextcloud App Store noch die App Files automated tagging: Hiermit können Tags automatisch nach bestimmten Regeln vergeben werden. Im Nextcloud Administration Manual findet man hierzu einige Beispiele.

Dokumente mit der Volltextsuche finden

Den größten Vorteil bei digitalisierten Dokumenten bietet allerdings die Volltextsuche. Da bei Scanbot Pro bereits auf dem Smartphone eine Texterkennung gelaufen ist, kann man nun das Dokument und die entsprechenden Inhalte ganz einfach in der Cloud wiederfinden. Alles was wir dafür benötigen, liefert die Nextcloud-App Full Text Search: Mit der Volltextsuche für Nextcloud kann man ganz einfach nach Dateien oder Datei-Inhalten suchen, wie im Artikel Volltextsuche in Nextcloud (mit OCR) beschrieben.

Dank Texterkennung können Dokumente und Inhalte mittels Volltextsuche gefunden werden

Dank Texterkennung können Dokumente und Inhalte mittels Volltextsuche gefunden werden

Tipps & Tricks für Scanbot

Abschließend noch ein paar allgemeine Tipps & Tricks für das Scannen von Dokumenten mit Scanbot.

In bestimmten Situationen kann es hilfreich sein, keinen automatischen Upload zu konfigurieren, sondern den Upload immer manuell vorzunehmen.

Zum einen kann man Dateien noch vor dem Upload direkt in Scanbot umbenennen. Einfach die Datei in Scanbot öffnen und oben auf den Dateinamen klicken. Auf den ersten Blick mag es keine große Rolle spielen, ob man die Dateien nun in der App oder in Nextcloud umbenennt. Allerdings unterstützt Scanbot das Umbenennen von Dokumenten z.B. durch Ortungsdienste: Hier kann dann mit wenigen Klicks die Datei so umbenannt werden, dass beispielsweise gleich der Ort oder eine Sehenswürdigkeit in den Dateinamen einfließen. Das geht u.U. dann schneller von der Hand als das manuelle Umbenennen in der Cloud.

Scanbot: Umbenennen von Dokumenten

Scanbot: Umbenennen von Dokumenten

Mit dem zweiten Tipp kann man durch Komprimierung die Größe des Dokuments beeinflussen. Scanbot nimmt die Dokumente immer mit der nativen Auflösung der Smartphone-Kamera auf. Für einige Dokumente ist diese Auflösung zu hoch und die Scans benötigen dann relativ viel Speicherplatz. Scanbot bietet hier eine hilfreiche Funktion, um die Dokumente zu komprimieren. Dabei wird einfach die Auflösung der gescannten Dokumente verringert, was für einfachere Dokumente (z.B. Visitenkarten) vollkommen ausreicht.
Hierzu wird das Dokument wieder in der App geöffnet. Über das erweiterte Menü – die drei Punkte (Mehr) – kann man dann Komprimieren wählen.

Nach dem Umbenennen und dem Komprimieren eines Dokuments kann dies dann manuell in die eigenen Nextcloud hochgeladen werden. Auf diese Weise hat man bereits direkt nach dem Upload einen „richtigen“ Dateinamen und spart sich darüber hinaus noch etwas Speicherplatz.

Fazit

Mit dem Scannen von Dokumenten und dem Speichern dieser Dokumente in digitaler Form in der eigenen Nextcloud kann man sich einiges an „Papierkram“ sparen. Spätestens, wenn man ein spezielles Dokument sucht, wird man die Vorteile der Dokumentenverwaltung in der eigenen Cloud zu schätzen wissen: Nie mehr in irgendwelchen verstaubten Ordnern nach Rechnungen oder Schreiben suchen! Einfach den entsprechenden Ordner in Nextcloud öffnen, schon hat man alle Dokumente bei der Hand. Noch schneller geht es dann mit der Volltextsuche in Nextcloud. Hier findet man dann meist in wenigen Augenblicken das gesuchte Dokument.

Wieder ein Schritt weiter in Richtung „Papierloses Büro“.

Gewinnt eine von vier Lizenzen von Scanbot Pro

Neugierig geworden? Dank des freundlichen Supports von Scanbot habe ich vier Lizenzen für Scanbot Pro zu vergeben (Android oder iOS).

Was ihr dafür tun müsst? Hinterlasst mir einfach einen Kommentar unter diesem Beitrag. Beschreibt dabei, wie ihr eure Nextcloud zur Verwaltung von digitalen Dokumenten nutzt. Scannt ihr eure Dokumente mittels Scanner oder einer mobilen App? Welche Rolle spielt die Texterkennung (OCR) für euch? Wie bringt ihr Ordnung in eure Dokumente (z.B. per Tags oder spezieller Ordnerstruktur in der Cloud)?

Unter allen bis zum 15.11.2018 eingereichten Kommentaren werden vier Gewinner nach dem Zufallsprinzip ausgewählt und per E-Mail benachrichtigt.

Update: Gewinnspiel beendet, die Gewinner werden per Mail informiert. Vielen Dank an alle Teilnehmer des Gewinnspiels!

Weiterführende Artikel

Links

, , , , , , , , ,

Kommentare: 17

  • Tobias K. sagt:

    Ich suche bereits seit geraumer Zeit nach einer App zur Erfassung von handgeschriebenen Dokumenten. Taugt die App hierzu? Wäre irgendwie super wenn der Anbieter eine Testversion (mit Wasserzeichen oder Zeitbeschränkung) anbieten würde. In dem Sinne würde ich mich natürlich über einen Pro-Key zum Testen freuen.

    • Jan sagt:

      Hi Tobias,

      ich weiß leider nicht, wie gut die Texterkennung bei handgeschriebenen Dokumenten ist – das hängt denke ich ganz von der jeweiligen Handschrift ab. Ich weiß, dass Scanbot für die Texterkennung Tesseract verwendet, was ich auch schon in diesem Artikel verwendet habe. Wenn die beschriebene Lösung mit Bash-Skript für deine Anforderungen ausreicht, dann wirst du mit Scanbot genau das gleiche Ergebnis erzielen – nur eben mobil mit erheblich weniger Aufwand.

      Gruß,
      Jan

  • Homer sagt:

    Hallo Jan,

    wie meine Dokumente bei mir auf dem Server verwaltet werden glaube ich weißt du schon. Das Scannen mit der App wäre eine gute, schnelle Ergänzung zu meinem Scanner den ich hab. OCR und Volltextsuche sind ein Grund, weswegen ich den Aufwand betreibe.
    Bei mir erfolgt die Organisation mittels eindeutigem Dateinamen und einer Ordnerstruktur

  • Sammy sagt:

    Bislang lasse ich alle meine Uni Notizen aus Notability via WebDAV in meine NC speichern. Für gescannte Dokumente wäre das aber schon auch ziemlich praktisch wenn ich mir das so überlege. Insbesondere wenn man den Zettelberg der Apokalypse bei mir in der Ecke so betrachtet…

  • JohnDoe sagt:

    Danke für den aufschlussreichen Beitrag!
    Nutze die Nextcloud instanz unter vielen anderen Punkten auch für die Digitale Ablage von Dokumenten. Habe aber eine anderes Schema zur Namensgebung „Absender – Inhalt – ddmmyyyy“ ein Script durchläuft jede Nacht den Webdav/Scanner Ordner und sortiert nach Absender in Unterordner Falls ein bis dato unbekannter hinzu kommt wird es angelegt.

  • Lars sagt:

    Die Scanbot App ist klasse. Nutze ich seit ich Nextcloud nutze.
    Nur fehlt mir aktuell noch die Pro Lizenz. Dann wäre es perfekt.

  • Jakob Lenfers sagt:

    Ich nutze Scanbot schon mit meiner nextcloud, jedoch noch ohne pro Features. Daneben schreibe ich meine Briefe mit Latex und lasse die in Gitlab in PDFs übersetzen und speichere sie in nextcloud.

  • Roman sagt:

    Danke für die Anleitung.

    Habe es bei mir eingerichtet und nutze es mit 2 Android Geräten mit unterschiedlichen Usern.

    Die Bilder benenne ich vorher um und arbeite nachher mit Tags

  • Kilian sagt:

    Würde Scanbot auch gerne für die Nextcloud Integration nutzen. Denn leider bietet die Android Nextcloud App diese Funktionalität noch nicht.

  • Bernd sagt:

    Hallo Jan,

    also ich nutze meine Nextcloud mit Dokumenten wie folgt:
    Ich habe einen großen Multifunktionsdrucker, dieser scannt mir die Dateien in einen Ordner am Desktop und dieser wiederrum ist mit dem Sync-Client mit der Nextcloud verbunden.
    Ich kannte die App bisher nicht und werde die auf jeden fall testen, denn das wäre um einiges praktischer :D (es kann endlich Mobil gescannt werden + ich habe die Dokumente danach wie gewohnt auf dem Desktop.

    Gruß Bernd

    • Bernd sagt:

      Also ich teste die App jetzt seit ca. 1 Woche und bin echt begeistert :D wie konnte ich bisher nur ohne!!!
      Gerade die vordefinierten Tags und das automatische Hochladen sind super genial!
      Ich hatte diese Woche frei und hab mal nen Büro Tag eingelegt, hier musste ich einige Dokumente versenden usw… die App hat sich hier echt super gemacht, es wird sogar erkannt, das ein Dokument noch im Ordner ist und er erkennt die Umrisse trotzdem sauber auf das Format A4.
      Kurzum die App in verbindung mit der Cloud ist echt Klasse!
      Nur :D warum gibt es als Konto Owncloud vordefiniert und Nextcloud nicht… :D

      Gruß Bernd

      • Jan sagt:

        Hi Bernd,

        ja, von der App bin ich auch echt begeistert und das Ergebnis ist dieser Artikel. ;-)

        Warum die App ownCloud direkt unterstützt, Nextcloud jedoch nicht, kann ich dir allerdings nicht sagen. Technisch betrachtet ist das ja eigentlich das gleiche. Vermutlich funktioniert das einrichten eines Nextcloud-Accounts auch mit der Option für ownCloud. Wenn du gerne einen Punkt für Nextcloud in der App sehen möchtest, dann kontaktiere doch einfach mal den Support (support@scanbot.io). Die Jungs sind echt auf zack und vielleicht kommt dieses Feature dann ja in einem der nächsten Updates.

        Gruß,
        Jan

  • Mark sagt:

    Hallo,

    ich lege alle Scans als JPG ab in Ordnerstrukturen.
    Dies schon seit 2001 und Tausende Dokumente sind erstellt.
    Spiele schon länger mit PDFs und OCR rum, nur habe ich nocht nicht die Ideallösung gefunden.
    Habe mit ScanBot schon gespielt und würde gerne die Pro Version haben und den Workflow optimieren.

    Gruß,
    Mark

  • Marcel sagt:

    Hallo Jan,

    ich habe soeben Scanbot getestet und bin begeistert!

    Allerdings ist mir als Student die Pro-Version etwas zu teuer.
    Daher würde ich mich riesig über den Gewinn freuen!

    Vielen Dank für die großartigen Anleitungen und Tipps!

    Beste Grüße aus Hamburg
    Marcel

  • Hans sagt:

    Hallo Jan,

    ich nutze beides, Scanner und Smartphone.

    Klasse Beschreibung, wie immer 😉.

    Gruß Hans

  • Marwin sagt:

    Früher wollte ich das immer gerne mit einem Dokumentenscanner machen, war mir aber zu aufwendig. Office Lens habe ich bisher mit onedrive genutzt. Da ich nun aber meine private nextcloud installiert habe, gefällt mir diese Idee mit scanbot deutlich besser.
    Danke für den Artikel!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.