namics Weblog
namics Weblog.
Persönliche Stimmen und Meinungen von Mitarbeiterinnen und Mitarbeitern.
namics @ www.flickr.com

Links

  • Sharepoint Weblog
  • about:namics
  • namics Website

AKTUELLE ARTIKEL

  • Firmenpolitik oder Sabotage
  • Erfolgsfaktoren für Intranet-Wikis in Unternehmen (Vortrag)
  • Zwei Fragen zu Online Kommunikation
  • Ich kann nicht mehr alles lesen, aber cool sieht es aus
  • Vortrag: Das Wiki wird erwachsen
  • Bei mehr als 1GB/Sekunde vorher melden: Die Wolkenfront ist da
  • Bildersuche nach Farbe (auf Basis von Flickr)
  • Vortrag auf dem ECM World Summit
  • Gleichberechtigte Sichten im Intranet
  • Pragmatisches User Centered Design bei bahn.de

Kategorien

  • Accessibility
  • Blogging
  • Business
  • CEO-Post
  • Collaboration
  • Design
  • Fehlermeldungen
  • Gesellschaft
  • Information Retrieval
  • Lotusphere
  • Mobile
  • Online Marketing
  • Orbit-iEX
  • Project Management
  • SEO+SEM
  • Technologie
  • Vorträge
  • Web Analytics

Archive

  • November 2008
  • Oktober 2008
  • September 2008
  • August 2008
  • Juli 2008
  • Juni 2008
  • Mai 2008
  • April 2008
  • März 2008
  • Februar 2008
  • Januar 2008
  • Dezember 2007
  • November 2007
  • Oktober 2007
  • September 2007
  • August 2007
  • Juli 2007
  • Juni 2007
  • Mai 2007
  • April 2007
  • März 2007
  • Februar 2007
  • Januar 2007
  • Dezember 2006
  • November 2006
  • Oktober 2006
  • September 2006
  • August 2006
  • Juli 2006
  • Juni 2006
  • Mai 2006
  • April 2006
  • März 2006
  • Februar 2006
  • Januar 2006
  • Dezember 2005
  • November 2005
  • Oktober 2005
  • September 2005
  • August 2005
  • Juli 2005
  • Juni 2005
  • Mai 2005
  • April 2005
  • März 2005
  • Februar 2005
  • Januar 2005
  • September 2004
  • August 2004
  • Juli 2004
  • Juni 2004
  • Mai 2004
  • April 2004
  • Februar 2004
  • Februar 2003

XML und Mumbo Jumbo

  • namics ag
  • namics ag
  • namics ag
  • Atom Feed
  • RSS 2.0 Feed
  • Creative Commons License
    Dieses Weblog untersteht der Creative Commons Lizenz
  • Powered by Movable Type 3.35
« Gross gegen Gross (oder: Was gesagt werden soll, wird gesagt werden) | Übersicht | Project Management: A Dismal Science? »
13
Nov
Google stottert?!
gepostet von Jürg Stuker am 13.11.2006 um 09:27

Bei uns war es im Rahmen der Integration einer Google Search Appliance bereits in einem Intranet aufgetreten. PDF-Titel mit verdoppelten Buchstaben auf der Trefferliste. Und so sieht es aus:

Google Trefferliste mit einem Titel bei welchen alle Buchstaben doppelt sind

Und so sieht das Originaldokument aus. Auf den ersten Blick unauffällig. Macht Google eine Fehler bei der HTML-Konversion?

Der Titel des in der Trefferliste referenzierten PDF-Dokument

Schon Ideen? Ein Blick auf die HTML-Version (View as HTML) zeigt auch nichts besonderes, ausser wenn ich den Text markieren...

HTML-Version des Dokumentes  wobei die ersten paar Zeichen in einer Version markiert sind


Gott behüte uns! Da hat der Autor die Schrift mir einem Schatteneffekt "verschönert" und das Programm hat diesen Effekt damit erzeugt, dass der Buchstabe leicht versetzt doppelt gedruckt wurde. Im PDF waren die Buchstaben somit doppelt. Uff und ich dachte schon Logopädie müsse her ;-)


TRACKBACK

TrackBack URL for this entry:
http://blog.namics.com/mt/mt-tb.cgi/679

KOMMENTARE

Tja! Mit text-shadow wäre das nicht passiert. Aber das wird wohl von den meisten Browser-Herstellern nie implementiert werden.

gepostet von Matthias am 13.11.06 10:34

This "shading" effect is done in some cases with twice the words in different colours with a slight skew.

It looks like it was done this way here also.

We had this issue to fix in our ASAAP tool (PDF -> XML/HTML) in the past. It seems that Google still has to do it ;-)

See http://blog.publiconnect.ch/archives/45

gepostet von Didier DURAND am 13.11.06 11:04

;-)) Der ist köstlich! .. Und habt Ihr schon ein Workaround?

gepostet von Milos am 13.11.06 20:10

@Milos. Workaround wäre wohl den Shading-Knopf in der Software (Word?) auszubauen... Einfluss auf den PDF-Konverter von Google (bei das Appliance) hast Du nicht. Zudem ist das Ding sonst sehr gut.

In dem Projekt ASAAP (PDFs zerschneiden, Text extrahieren und Semantik reinraten) haben wir eine Heuristik die so was verhindert (vgl. Kommentar von Didier oben).

gepostet von Jürg Stuker am 13.11.06 21:54

KOMMENTAR SCHREIBEN

Name:

E-Mail Adresse:

URL:

Bitte das Ergebnis von 1 + 2 als Ziffer (Spamschutz):