gymel  >> Tools  >> Sneezer

sneezer.pl

Das allegro-Utility SNIFFER testet auf ungültige Kategorien etc., geht jedoch von im wesentlichen intakten Datenbanken aus. Im Gegensatz dazu verfolgt sneezer.pl einen "pessimistischen" Ansatz, indem es zunächst einmal Dateien herstellt, die grundlegenden formalen Ansprüchen genügen.

allegro-.cLD-Dateien werden ausgelesen. Identifizierbare, aktive Datensätze werden in eine Ausgabedatei geschrieben, gesperrte Sätze, Datenschrott und korrupte Sätze in jeweils andere.

Mit SNEEZER gewonnene Dateien sollten mit SNIFFER nachgetestet werden, da SNEEZER nicht auf korrekte Reihenfolge der Kategorien in den Datensätzen oder das Vorkommen illegaler oder doppelter Kategorien testet.

Download etc.
SVN: https:/svn.extra.gymel.com/repos/allegro/tools/konsis/
Browse SVN-Version
Download der SVN-Version

Aufrufschalter:

-a nnn Aufbohrfaktor fuer produzierte .cLD-Dateien (wird sonst ermittelt, falls .TBL oder .cPI-Datei vorhanden)
-g produziere allegro-Grunddatei (d.h. ohne Satznummernplatzhalter)
-l n maximale Hierarchiestufe in den Daten (0..6): Trennzeichen nicht erlaubter Hierarchiestufen können dann als illegal erkannt werden
-p Satznummern bleiben in den Ausgabedateien erhalten
-q keine "Animation" nach STDERR
-s Ersetze (OSTWEST-)illegale Zeichen in den Daten durch ">>#n#<<"
-? Hilfe

Empfohlener Aufruf (in einem frischen Verzeichnis):

     for %f in (%-D%\%-b%_*.cLD) do perl sneezer.pl %f

Im Optimalfall entstehen leere Dateien vom Typ .cLX und .cLY. Die Dateien mit der Extension .cLZ enthalten alle gelöschten Sätze, die mit der Extension .cLS enthalten alle aktiven Sätze im .cLD-Format und können nach Umbenennen

ren %-b%_*.aLS %-b%_*.cLD
sofort mit INDEX -f7 -n0 ... zu einer neuen Datenbank aufgebaut werden.

Beschreibung:

Für jede Datei xxx_nnn.cLD werden im aktuellen Verzeichnis angelegt:

xxx_nnn.cLT
Protokoll: Zuordnung der Zeilen (=Datensätze) in der Ausgangsdatei zu den Zieldateien.
xxx_nnn.cLS
Gesunde Datensätze. Die Satznummer ist durch "xxxx" ersetzt (entfällt bei Aufrufoption -g, bleibt erhalten bei Aufrufoption -p)
xxx_nnn.cLZ
Gelöschte Datensätze. Die Satznummer ist durch "xxxx" ersetzt (entfällt bei Aufrufoption -g, bleibt erhalten bei Aufrufoption -p)
xxx_nnn.cLY
Problematische Daten (Teile von Sätzen, am Anfang oder Ende verstümmelt). Diese lassen sich nach manuellem Editieren oft weiterbenutzen.
xxx_nnn.cLX
Datenschrott.

Bugs:

Hierarchische Datensätze nie getestet


History:

26.03.04:
Hierarchiestufen, Zeichenersetzung und Aufbohrfaktor berücksichtigt
09.08.00:
Erweiterung des Ostwest-Zeichensatzes nachvollzogen: Jetzt kaum noch illegale Zeichen zu erkennen

submit more bugs here