PHP OCR - Ein simpler Weg zur Texterkennung


Der Berg namens OCR

Genau wie beim Besteigen eines Berges trifft man bei der Entwicklung eines PHP OCR Scriptes auf viele Probleme, welche oft nicht so leicht zu lösen sind.

Ein paar dieser Probleme sind das Filtern der Charaktere aus dem Dokument, das erkennen des gefilterten Charakters, die Lernfähigkeit des PHP OCR Scriptes und vieles mehr.

Beim Filtern der Charaktere sind vor allem Rotation, Verzerrung und Farbwechsel problematisch.

Dieses PHP OCR Script behandelt lediglich das erkennen von einfachen Charakteren welche ohne Rotation, Verzerrung und vielen Farbwechseln dargestellt werden.

Der Weg zum Ziel

Es gibt viele Wege ein PHP OCR Script zu entwickeln.

Manche davon führen über Eigenvektoren und erfordern sehr gute Kenntnisse im Umgang mit Linearer Algebra.

Wir bedienen uns in diesem PHP OCR Script einfacher Logik und Schleifen um die Charaktere zu filtern und zu erkennen.


Charaktererkennung

Wir iterieren nun über die X und Y Achse, vergleichen den aktuellen Pixel mit den umliegenden Pixeln und erkennen, anhand der Unterschiede in den Farbwerten der Pixel, die Kanten der Charaktere.

Gehen wir davon aus das Kantenglättung genutzt wurde so müssen wir mittels compareColor() prüfen ob ein Farbwert mit Abweichung die Zielfarbe trifft.

Wenn ein Pixel sich vom Hintergrund unterscheidet gehen wir erst mal davon aus dass dieser zu einem Charakter gehören kann.

Um nur die Kanten eines Charakters zu vergleichen, prüfen wir ob der aktuelle Pixel sich zu den umliegenden Pixeln unterscheidet.

Wenn das zutrifft fügen wir die Koordinaten des Pixels in eine Matrix ein.

Wir erkennen ob das Ende eines Charakters erreicht ist, in dem wir die Streuung der Pixel auf der Vertikalen Y Achse überprüfen.

Dafür Summieren wir alle Farbwerte der Pixel auf dieser Achse und teilen diesen Wert durch die Höhe des Bildes.

Ist die Abweichung dieses Wertes kleiner als 0.7% des Farbwertes vom Hintergrund, so gehen wir davon aus dass wir das Ende eines Charakters erreicht haben.

Diese Methode sorgt dafür das sich Charaktere geringfügig überschneiden dürfen.

Somit erkennt das PHP OCR Script z.B. auch die Charaktere F und A (FA) welche sich auf der Y Achse überlagern.



Matrix Vergleich

Nun haben wir die Pixel der Charaktere in Matrizen zerlegt.

Jetzt folgt das zuordnen der Charakter Matrizen zu den Werten.

Dafür vergleichen wir unsere Matrizen mit vordefinierten Matrizen.

Diese Matrizen stellen die Punkte auf den X und Y Achsen der Pixel unseres Musters dar und haben unterschiedlich hohe Werte auf den für sie passenden Koordinaten.



Da unsere Matrizen höchst wahrscheinlich unterschiedliche Maße aufweisen, müssen wir diese in ein Verhältnis zu unseren im PHP OCR Script vordefinierten Matrizen setzen.

Nun prüfen wir den ins Verhältnis gesetzten Punkt und die umliegenden Punkte auf einen Treffer.

Von allen Pixeln nehmen wir nun den höchsten Wert und addieren diesen zu einer Variable welche den Treffer Wert des Charakters enthält.

Nachdem wir all unsere vordefinierten Matrizen verglichen haben ermitteln wir die Matrix mit dem höchsten Treffer wert.

Nun hat unser PHP OCR Script zu einer gewissen Wahrscheinlichkeit einen Charakter erkannt.


Schlusswort zum PHP OCR Script

Nun habt ihr also einen einfachen aber recht Fehler anfälligen Weg kennen gelernt wie man ein PHP OCR Script entwickeln kann.

Ihr werdet mit dem Aktuellen PHP OCR Script Probleme bei dem Vergleich mit der vordefinierten Matrix für den Buchstaben I haben.

Dieser Buchstabe hat nämlich keinen Whitespace und trifft, durch das „ins Verhältnis setzen der Koordinaten“, jeden Punkt.

Man könnte das reduzieren in dem man die Anzahl der gefilterten Punkte, mit den zu vergleichenden Punkten, mit in den Vergleich einbezieht.

Wie man sieht habe ich in der Matrix für den Buchstaben B bereits die Anzahl der gesamten Punkte und der maximal treffbaren Punkte eingetragen.

Damit könnte man den Treffer Wert ins Verhältnis zur gefilterten Matrix setzen und somit diesen Wert noch verfeinern.

    Teilen

    Kommentare