Gendam2010 alpha versie

Voor de download zie onderaan op de pagina.

Gendam (versie 2010) is een verzameling programma's die met elkaar bieden waar de afkorting Gendam voor staat:Genealogische Data Mining.

Of om het anders te zeggen: Gendam wordt gemaakt met als doel om van de grote hoeveelheden schijnbaar onsamenhangende genealogische gegevens die onder meer via het internet te vinden zijn een samenhangende stamboom te maken.

Om dat doel te bereiken zijn er verschillende zaken die geregeld moeten worden:

  • Invoer verzamelen
  • Invoer controleren en verbeteren.
  • Invoer samenvoegen en structureren
  • De resultaten controleren
  • De gegegevens beschikbaar stellen in een aantal formaten.

Invoer verzamelen
Gendam krijgt (cq heeft inmiddels) de volgende mogelijkheden om invoer aan te bieden.

  • Gedcom bestanden uit diverse systemen
  • Bestanden afkomstig uit de Digitale Stamboom Monitor en de Genlias monitor.
    Hoewel het programma de gedcom bestanden uit deze bron wel kan verwerken, is het aan te bevelen om de htm bestanden te gebruiken. Gendam maakt hier intern een veel 'rijkere' gedcom van.
  • Als platte tekst beschikbare parentelen en kwartierstaten (nog niet in de huidige versie)

Gedcom en parentelen/kwartierstaten zult u zelf moeten zoeken. Het verzamelen van de gegevens uit de Genlias- en de Digitale stamboom monitor kunt u aanvragen en automatisch ophalen met behulp van het programma coretdownloads. (Om dat programma te downloaden gaat u met Internet Explorer naar http://: www.famrozendaal.nl/coretdownloads/publish.htm). De functies van de programma zullen niet worden geïntegreerd in het hoofdprogramma van Gendam.

Invoer controleren en verbeteren
Op dit moment zijn er twee functies actief die invoer controleren en verbeteren.

  1. het verbeteren van gedcom door de gegevens in een standaardformaat op te slaan. Deze functie controleert onder andere
    • of er meerdere beroepen op een regels staan genoemd
    • of er datums bij de regel met een beroep, plaatsnaam of adres staan
    • of er namen over meerdere regels verdeeld zijn opgenomen het bestand
    • of er titels zijn opgenomen op de regels met namen

    In alle gevallen zodat het programma ervoor dat een standaard constructie wordt toegepast. Voor documentatie over hoe een standaard constructie in Gedcom er uitziet verwijs ik u naar het document als bijlage bij deze pagina is opgenomen.

  2. het inlezen van de html bestanden uit de Genlias- en Digitale stamboommonitor.
    Deze functie gebruikt de html bestanden ( in tegenstelling tot de GedCom bestanden) als invoer voor het systeem. Dat wordt gedaan omdat de html bestanden vaak extra gegevens bevatten en bovendien eenvoudiger te corrigeren zijn. Het resultaat van deze functie is een pseudo GedCom bestand, dat specifiek gemaakt is voor verdere verwerking met behulp van dit programma. Binnenkort zal het ook mogelijk zijn er een normale GedCom uit te laten komen.
    Deze functie kan alleen goed werken indien van alle onderdelen van namen van personen bekend is wat voor onderdeel het is. Door middel van een aantal praktische regels kan het systeem tot 60 a 70 % van de namen herkennen de rest zal gevraagd worden aan de gebruiker. Het is hierbij van belang te weten dat naarmate er meer namen in de invoer zitten het herkenningpercentage snel omhoog gaat. Het is daaraan te delen om zoveel mogelijk bestanden tegelijk aan te bieden aan het systeem.

    Invoer samenvoegen en dubbele verwijderen
    Deze functie doet exact wat de naam zegt: van de invoer uit meerdere bestanden met een nieuw bestand aangemaakt, waarbij personen die meerdere malen in invoer voorkomen opgezocht en samengevoegd tot één persoon. Deze actie verloopt grotendeels automatisch, maar toch zal een deel van de namen of personen of relaties onvoldoende duidelijk zijn om automatisch te verwerken, daar wordt er in die gevallen gevraagd of het systeem wel of niet moet samenvoegen. De gevoeligheid van deze functie is instelbaar middels de parameters van het programma, het is echt aan te raden niet teveel automatisch laten gebeuren (anders gezegd om het minimum aantal vereiste overeenkomsten tussen twee personen niet te laag te maken) omdat er dan waarschijnlijk ten onrechte mensen en relaties worden samengevoegd. Als de eisen echter te streng worden gesteld, kan het systeem helemaal niet meer automatisch en bent u dagen bezig met het verwerken van een klein bestand.
    De invoer voor deze functie kan bestaan uit GedCom bestanden of uit html bestanden. Om te voorkomen dat deze bestanden haalde malen moeten worden verwerkt door de controle routines, is er een database gekoppeld aan het programma. Deze database kan de ingeleefde bestanden bevatten, waardoor herhaald verwerken eenvoudiger wordt. Daarnaast bevat de database de lijst met namen (of liever delen van namen), de lijst met standaard correcties voor tikfouten en de lijst met antwoorden op vragen die tijdens het samenvoegen zijn gesteld, en waarbij is opgegeven dat indien exact dezelfde vraag zich nogmaals voordoet hetzelfde antwoord mag worden gebruikt. Het type database is instelbaar, waarvoor niet deskundigen is het niet aan te raden om de standaard te wijzigen. Wel kan het handig zijn om een afzonderlijke database te gebruiken voor diverse projecten. Ook dit is instelbaar in de opties van het programma.

    De resultaten controleren
    het controleren van de resultaten is hoofdzakelijk handwerk. Met dien verstande dat het programma een uitgebreid log bijhoudt van de gebruikte invoer en de uitgevoerde acties, een bestand met de fouten die het in de invoer is tegengekomen en een bestand met alle resultaten van de uitgevoerde acties. Deze bestanden zijn in te zien vanuit het hoofdprogramma onder de optie "tonen". Maar ook door op de desbetreffende bestanden te klikken vanuit Windows Explorer. In dat geval wordt een zelfstandig programma geopend waarin het bestand wordt getoond. De bestanden zijn te doorzoeken middels de functie zoeken in het menu waarbij in tegenstelling tot de meeste zoekfunctie niet alleen het gezochte woord wordt weergegeven maar het hele item in het desbetreffende bestand. De zoekfunctie is hoofdletter gevoelig.

    De resultaten beschikbaar stellen diverse formaten
    Op dit moment zijn er twee manieren waarop de gegevens beschikbaar gesteld kunnen worden, afgezien van de database die ook onafhankelijk van het programma benaderd kan worden (de default van het programma is een Accesss database).

    De eerste is een GedCom in het formaat van het Aldfaer programma. Hierbij is wel een aanpassing aan het normale gebruik gemaakt : omdat er zeer veel bronnen bij personen kunnen voorkomen, en Aldfaer geen goed systeem voor het omgaan met veel bronnen heeft, is ervoor gekozen een enkel feit op te nemen bij elke persoon, en daarin alle bronnen te groeperen. Het resultaat is dat wanneer een rapport met bronnen wordt afgedrukt, alle bronnen op een rijtje staan, en dat wanneer de rapporten zonder de bronnen wordt afgedrukt enkel wordt vermeld hoeveel bronnen bij de persoon er zijn.

    De tweede manier is via de vele tabellen die het systeem weergeeft de exacte gegevens die nodig zijn selecteren en via het menu van de tabel afdrukken als bijvoorbeeld spreadsheet.

    Daarnaast bevatten veel schermen verwijzingen naar personen en relaties. Deze zijn altijd aanklikbaar waardoor er direct alle gegevens van de persoon of relatie worden getoond. Ook de menuopties kunnen sterkk wisselen afhankelijk van welk scherm er actief is (en welke of hoeveel items er geselecteerd zijn).
    Gewoon proberen dus.