Google stottert?!

Bei uns war es im Rahmen der Integration einer Google Search Appliance bereits in einem Intranet aufgetreten. PDF-Titel mit verdoppelten Buchstaben auf der Trefferliste. Und so sieht es aus:

i-0879f7fa09f3884b31158aa7bcce3f74-goog_doppelte_buchstaben-thumb.gif

Und so sieht das Originaldokument aus. Auf den ersten Blick unauffällig. Macht Google eine Fehler bei der HTML-Konversion?

i-7ba2ec289c104be246c32a022cc05111-goog_doppelte_pdf.png

Schon Ideen? Ein Blick auf die HTML-Version (View as HTML) zeigt auch nichts besonderes, ausser wenn ich den Text markieren…

i-25435b0f018b20fd88795583b7c3e331-goog_doppelte_html-thumb.gif

Gott behüte uns! Da hat der Autor die Schrift mir einem Schatteneffekt “verschönert” und das Programm hat diesen Effekt damit erzeugt, dass der Buchstabe leicht versetzt doppelt gedruckt wurde. Im PDF waren die Buchstaben somit doppelt. Uff und ich dachte schon Logopädie müsse her ;-)

4 Gedanken zu “Google stottert?!

  1. @Milos. Workaround wäre wohl den Shading-Knopf in der Software (Word?) auszubauen… Einfluss auf den PDF-Konverter von Google (bei das Appliance) hast Du nicht. Zudem ist das Ding sonst sehr gut.

    In dem Projekt ASAAP (PDFs zerschneiden, Text extrahieren und Semantik reinraten) haben wir eine Heuristik die so was verhindert (vgl. Kommentar von Didier oben).

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

*

*

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>