CSV, PDF, Word in GEDCOM umwandeln – Vorbereitung (1.Teil)

Ich habe und Verwandten- und Ahnenlisten in den unterschiedlichsten Formaten erhalten, als Word-Datei, als 100 Seiten langes PDF, als Excel-Datei oder noch ganz oldschool in Papierform (mit Nadeldrucker gedruckt und kopiert). Ich erkläre dir, wie du CSV, PDF, Word in GEDCOM umwandeln kannst.

Wichtig:

Es geht nicht einfach und nicht schnell. Arbeite ohne Eile und gewissenhaft, dann bekommst du wunderbares Ergebnis.

Liste mit Ahnendaten

Lange habe ich nach einem Tool gesucht, in welchen ich die Daten aus diesen Dokumenten in mein ein Programm bekomme (heredis). Das klassische Datenaustauschformat für Genealogie –Dateien ist GEDCOM. Wie ich diese dann dort hineinbekomme, werde ich weiter unten berichten. Zuerst brauche ich meine Daten, egal wie ich sie bekommen habe, in einer Form, welche ich später nach GEDCOM exportieren kann. Das ideale Importformat ist CSV.

Das Dateiformat CSV steht für englisch Comma-separated values (seltener Character-separated values) und beschreibt den Aufbau einer Textdatei zur Speicherung oder zum Austausch einfach strukturierter Daten. Die Dateinamenserweiterung lautet CSV.
WIKIPEDIA
GEDCOM (engl. GEnealogical Data COMmunication) ist die Spezifikation eines Datenformates, das den Austausch von Daten zwischen verschiedenen Computerprogrammen zur Genealogie (Ahnenforschung) ermöglicht.
WIKIPEDIA

Vorbereitung der Daten

In den seltensten Fällen liegen die Daten als CSV vor. Das heißt ich muss die Daten aus allen anderen Formaten so ordnen, anpassen, umwandeln, dass ich sie in eine Excel-Tabelle einfügen kann, welche ich später als CSV abspeichere.

Daten aus PDF-Dokumenten extrahieren

Dazu empfehle ich dir das Tool PDF24. Das kannst du online nutzen oder dir als Windows Anwendung herunterladen. Du wählst die Funktion „PDF-Dateien in andere Dateiformate umwandeln“. Ist das PDF bereits in Tabellenform, dann wähle als Ausgabeformat Excel. Jede Seite wird EIN Tabellenblatt/Sheet – d.h. eventuell musst du diese ALLE noch auf das erste Blatt kopieren. Sind die Daten im Blockformat, wähle als Ausgabeformat Word, damit du sie dann dort weiter bearbeiten kannst.

Probiere verschiedene Formate aus und schau Dir das Ergebnis an!

Wichtig:

Ein Datensatz zu einer Person umfasst immer nur eine Zeile! Das heißt alles, was zu dieser Person gehört (Geburtsdatum, Sterbedatum, Hochzeitsdatum, Ehepartner, Notizen etc.) muss zwingend auf einer Zeile stehen.

Daten in Word bearbeiten

Sind Daten über mehrere Zeilen verteilt, entferne die fehlerhaften Zeilenumbrüche.

Zeilen in Blöcke oder Spalten teilen

Meist ist der Datensatz am Stück. Das heißt, in einem nächsten Schritt müssen die Zeilen in „Spalten/Felder“ aufgeteilt werden. In einer CSV-Datei ist üblicherweise das Semikolon (;) als Feldtrenner in Verwendung. In Schreibprogrammen wie Word ist es der Tabulator.

Ich schaue mir den Datensatz an, wie er aufgebaut ist. Überwiegend arbeite ich im Word-Programm mit der „Suchen und Ersetzen“ Funktion. Und ersetze dann z. B. Leerzeichen/Kommata etc. durch Tabulator.

Wichtig:

Prüfe, ob die Daten an den richtigen Stellen getrennt worden sind und korrigiere (ist bei mir immer notwendig).

Danach alles markieren und die Funktion „umwandeln in Tabelle“ verwenden.

Datensätze nach Excel kopieren

Anschließend kopiere ich Datensätze nach Excel bzw. ein anderes beliebiges Tabellenprogramm wie LibreOffice (welches ich benutze). Dann wieder kontrollieren, ob die Daten korrekt in Zeilen und Feldern eingetragen sind

.

Exceltabelle mit Ahnendaten

Als Letztes wähle ich die Funktion Daten als CSV speichern „Speichern unter…“ und Dateiformat CSV. Als Feldrenner das Semikolon verwenden.

Wichtig:

Es wird immer nur das aktuelle Tabellenblatt (Sheet) nach CSV exportiert.

Kontrolle der CSV-Datei

Jetzt gehst du an den Speicherort, suchst dir die CSV-Datei, klickst mit der rechten Maustaste darauf und wählst die Option „Öffnen mit“ und dann „Editor“. Eventuell musst du in dem Menüpunktformat den Eintrag „Zeilenumbruch“ deaktivieren.

CSV Testdatei für Import nach GEDCOM

Jetzt schau, ob die Felder ordentlich mit dem Semikolon getrennt sind. Dies ist jetzt nur als Kontrolle.

Nicht alle Arbeitsschritte lassen sich automatisieren. Fast immer ist noch jede Menge Handarbeit notwendig. Arbeite ohne Eile, gründlich und gewissenhaft, umso besser ist dein Endergebnis.

Fazit:

Damit hast du deine Daten in einer ordentlichen Excel-Tabelle, in dieser wird nun weitergearbeitet. Jetzt ist diese noch für den Import nach GEDCOM anzupassen. Zusätzliche Spaten sind hinzuzufügen und die Spaltenköpfe mit den korrekten Überschriften zu benennen. Die verwendeten Spaltenüberschriften orientieren sich an den Bezeichnern des internationalen Gedcom-Formats.

Im Netz wird folgende Excel-Anwendung (mit Makros) angeboten, um CSV in GEDCOM umzuwandeln: GedTool. Ich komme damit nicht zurecht, zudem läuft die Datei wirklich nur unter Excel (nicht in Libre Office etc.). Welche einfachen Softwarelösungen zum CSV-Import nach GEDCOM ich gefunden habe, liest du im nächsten Artikel:

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert