Normalisering af stednavne i KIP

Startet af Towle, 28 Dec 2017 - 10:49

Forrige emne - Næste emne

Towle

DDA insisterede i sin tid på, at indtastninger af arkivalier skulle være bogstavret - altså en præcis gengivelse af hvad der var skrevet i kilden.

Princippet er godt nok. Problemet er bare, at en efterfølgende bearbejdning aldrig er sket. Jeg har på det seneste leget lidt med FT1845 og det har været ret skræmmende at konstatere hvor svært det er at søge i stednavne. Der er på det nærmeste ingen grænser for hvor mange forskellige skrive- og stavemåder der er for en lokalitet.

I mine øjne vil det derfor være en kæmpe fordel, hvis stednavne blev normaliseret. At det også ville være herligt for personnavne, nævner jeg blot som en våd drøm, men det jo medfører jo mange andre og mere komplekse problemer.

Der har i tidens løb været en imponerende vilje til at bidrage til KIP. Nu er spørgsmålet så, om der kan mobiliseres en tilsvarende vilje til at bidrage til et projekt, der kan/skal gøre indtastningerne mere anvendelige i praksis.

Lis B. Jensen

Hej

Jeg synes du skal skrive direkte til Nanna Floor  Clausen der er leder af projektet - så kan hun tage det med på møde i KIK-Komiteen

Godt Nytår
Lis B. Jensen
* * * * * * * *
Ses i Legacy Forum: http://legacydansk.com og
https://vordingborglokalarkiv.dk/

Towle

#2
Tak, Lis. Det vil jeg gøre.

Jeg er lidt uerfaren med dette forum og jeg kan ikke lige finde ud af at finde Nanna's profil, så jeg kan sende hende en besked. How?


Georg Brandt Christensen

Nanna Clausen holder op i DDA den 30/1 2018.

Det er derfor bedre altid at skrive til mailboxDDD@sa.dk som er den officielle adresse.

Iøvrigt er jeg enige i at det er svært at søge på stednavne, både fordi de er stavet forskelligt gennem tiderne, at folketællingskommissærerne måske har en anden dialekt, fordi de har været svære at læse samt at den kiletro indtastning i nogle tilfælde er lidt for tro ;)

I Sydsjælland er der indtastet en del stednavne med ü, ö, og ÿ. Jeg har en tro på at disse bliver rettet inden Nanna holder op ???

Man kan se hvorledes stednavne har været stavet gennem tiderne i Rigsarkivets digdag-database: http://www.digdag.dk/index.php/sog-pa-stednavne

Netop pga. ovenstående bruger jeg sjældent stednavne i mine søgninger. Man får alt for ofte 0 hits.
Jeg bruger kun stednavnene som dokumentation når jeg har fundet de personer jeg søgte efter.
M.v.h. Georg Brandt Christensen

http://igbc.dk

Slægter: Brandt, Refslund, Lautrup, Kristensen, Christoffersen, Stampe, Tvede

Towle

Citat fra: Georg Brandt Christensen [385] Dato 28 Dec 2017 - 22:39
Nanna Clausen holder op i DDA den 30/1 2018.

Det er derfor bedre altid at skrive til mailboxDDD@sa.dk som er den officielle adresse.

Too late. Jeg nåede at skrive til Nanna i går. Nå, men hun svarer vel.

Citat
I Sydsjælland er der indtastet en del stednavne med ü, ö, og ÿ. Jeg har en tro på at disse bliver rettet inden Nanna holder op ???

Bortset fra at rette åbenlyse indtastningsfejl, så går jeg ind for at bevare den kildetro originale indtastning for eftertiden. Det jeg foreslår er at lave en normaliseret kopi.

Citat
Netop pga. ovenstående bruger jeg sjældent stednavne i mine søgninger. Man får alt for ofte 0 hits.
Jeg bruger kun stednavnene som dokumentation når jeg har fundet de personer jeg søgte efter.

Jo, men søgning efter personnavne er da endnu mere uberegneligt. Ud over navnet Lars, Las, Lasse, Laurends, Laurits, Lauritz, Laurids, Laurs og Lavrids, kan den samme mand jo hedde Nielsen eet sted og Vestergaard et andet sted.

Jeg må indrømme at jeg anser det for at være umuligt at blive enige om hvilket normaliseret form der i givet fald skulle bruges.

Det er derimod meningsfuldt og overskueligt at rette "Rachebye paa Morsö".

Lars Erik Bryld

Citat fra: Kurt Hansen [37016] Dato 29 Dec 2017 - 07:33
Bortset fra at rette åbenlyse indtastningsfejl, så går jeg ind for at bevare den kildetro originale indtastning for eftertiden. Det jeg foreslår er at lave en normaliseret kopi.

Der er DDA's indtastingsvejledning så bare et inkonsekvent miskmask af dårligt definerede instrukser. Det kan heller ikke sådan lige lade sig gøre at indtaste helt kildetro med et almindeligt tegnsæt.

Et eksempel: I originalkilden anvendes der ofte to varianter af s - den lange og den korte form. Det lange s kan så vidt jeg husker ikke indtastes i ASCII-format - kun i Unicode/UTF-8. En kildetro indtastning bør indbefatte konsekvent brug af langt s. Hvad mener indtastningsvejledningen om det? Ingenting, så vidt, jeg kan læse.
Indtasterne - selv de mest hårdnakkede kildetroværdighedsevangelister - har bare brugt det samme korte s for de to forskellige former.

Førhen har jeg derfor også talt for at normalisere ö til dansk normal-ø ud fra den betragtning, at det er en computerhistorisk tilfældighed, at ASCII-tegnsættet giver let mulighed for at anvende umlaut-versionen, som ikke har naturlig hjemstedsret i en rent dansk kilde. Af samme grund, har jeg ikke noget problem med at oversætte dobbelt-a til å i en transkription. Jeg mener ikke, at disse ortografiske transkriptionsvalg har noget med kildetroværdighed at gøre.

Jeg er derimod helt enig i, at stavefejl og deslige ikke skal rettes i selve kilden - højst som en tilføjelse i kantet parentes. Det falder inden for min fortolkning af, hvad kildetroværdighed i transkriptionen er.

Men min hovedanke mod DDA's indtastningsvejledning er, at de ikke har tænkt enkeltbogstavsproblematikkerne igennem og defineret en præcis standard på området.

Georg Brandt Christensen

#7
Citat fra: Kurt Hansen [37016] Dato 29 Dec 2017 - 07:33
Bortset fra at rette åbenlyse indtastningsfejl, så går jeg ind for at bevare den kildetro originale indtastning for eftertiden. Det jeg foreslår er at lave en normaliseret kopi.

Citat fra: Lars Erik Bryld [122] Dato 30 Dec 2017 - 10:14
Der er DDA's indtastningsvejledning så bare et inkonsekvent miskmask af dårligt definerede instrukser. Det kan heller ikke sådan lige lade sig gøre at indtaste helt kildetro med et almindeligt tegnsæt.

.....

Men min hovedanke mod DDA's indtastningsvejledning er, at de ikke har tænkt enkeltbogstavsproblematikkerne igennem og defineret en præcis standard på området.

Jeg er helt enig med Lars om at indtastningsvejledningen bør gøres mere præcis.
Lejligheden til dette kommer formentlig i løbet af 2018-2019, idet jeg forudsætter at DDA interfacet, og databasen, bliver lavet om i den periode.

Jeg har flere gange advokeret for at der indføres en inputvalidering i indtastningsmodulet således at umlaut karakterne bliver konverteret til danske karakterer, og at datoer blive indsat både kildetro og i dd-mm-åååå form og at det er denne sidste form der anvendes ved beregning af alder.
Det sidste for at man kan søge alder også for de folketællinger hvor aldersfeltet indeholder fødselsdatoen.

Jeg har også flere gange advokeret for at begrænsningen på at man kun kan få resultatsæt på 256 poster bliver fjernet og at formatet på resultatlisterne bliver ændret så hver enkelt post ikke fylder så mange linier,

Jeg vil sørge for at kildeindtastningskomiteen bliver bekendt med debatten i denne tråd.

M.v.h. Georg Brandt Christensen

http://igbc.dk

Slægter: Brandt, Refslund, Lautrup, Kristensen, Christoffersen, Stampe, Tvede

Towle

Citat fra: Lars Erik Bryld [122] Dato 30 Dec 2017 - 10:14
Førhen har jeg derfor også talt for at normalisere ö til dansk normal-ø ud fra den betragtning, at det er en computerhistorisk tilfældighed, at ASCII-tegnsættet giver let mulighed for at anvende umlaut-versionen, som ikke har naturlig hjemstedsret i en rent dansk kilde. Af samme grund, har jeg ikke noget problem med at oversætte dobbelt-a til å i en transkription. Jeg mener ikke, at disse ortografiske transkriptionsvalg har noget med kildetroværdighed at gøre.

Da jeg i min ungdom brugte Statsbiblioteket i Århus meget, tog det mig en del tid at vænne mig til, at man i SOL skulle skrive "Gøttingen" hvis man ville søge efter "Göttingen", men efter en vis tilvænning gav det mening.

Lars J. Helbo

Jeg kan godt se, at det her er en ældre diskussion, så måske er sagen gået i sig selv igen, men jeg forstår ikke helt problemet .....

Angående stednavne, så er amt-herred-sogn jo normaliseret. Det er kun felterne kildestadnavn og matr.nr./adresse, der evt. kunne normaliseres og her vil der ofte stå ting som "en gaard", "et hus" eller et stednavn, som længst er gået ud af brug. Det kunne også være et gård- eller stednavn, som har ændret sig gennem tiden - og hvad skal man så normalisere til?

Så kan der være fødestedet. Men det synes jeg er problematisk, fordi man risikerer at normalisere til noget forkert. Man kunne måske ønske sig en verificering; men det er da vist uoverkommeligt?

Hvad angår normalisering af personnavne kan jeg slet ikke se behovet. Det er da rigtigt, at samme person kan stå som Lars, Las, Lasse, Laurends, Laurits, Lauritz, Laurids, Laurs eller Lavrids. På samme måde kan han stå som Nielsen, Nielssen eller Nielsøn og hvis det var en kvinde kunne hun også stå som Nielsdatter eller Nielsdotter. Og så er der de nævnte forskelle med ø/ö, æ/ä, aa/å og ss/ß; men det kan jo altsammen uden problemer klares med en fonetisk søgefunktion, så hvorfor bruge kræfter på det i indtastningen? Jeg synes også, det er problematisk. Det kan godt ske, at rent danske kilder normalt vil indeholde æ og ø; men hvad så med folketællinger fra Slesvig-Holsten?

Så nævnes grænsen på 256 poster for søgeresultater. Det kan naturligvis diskuteres. Jeg har selv lagt en grænse på 200 poster. Jeg synes simpelthen, det må være nok. Hvis man støder mod denne grænse, så er det IMHO, fordi man ikke har tænkt sig om, da man fastlagde sine søgekriterier.

Georg Brandt Christensen

Citat fra: Lars J. Helbo [904] Dato 20 Okt 2018 - 21:22
....

Så kan der være fødestedet. Men det synes jeg er problematisk, fordi man risikerer at normalisere til noget forkert. Man kunne måske ønske sig en verificering; men det er da vist uoverkommeligt?

....

Så nævnes grænsen på 256 poster for søgeresultater. Det kan naturligvis diskuteres. Jeg har selv lagt en grænse på 200 poster. Jeg synes simpelthen, det må være nok. Hvis man støder mod denne grænse, så er det IMHO, fordi man ikke har tænkt sig om, da man fastlagde sine søgekriterier.

Hej Lars

Du skriver at det er da vist uoverkommeligt at verificere fødestedet.

Tror du ikke at det kunne gøres ved at stednavnet verificeres op mod Digdag-datasættet under indtastningen. Dette datasæt formodes at kende alle stednavne i Danmark igennem tiderne???

Selvfølgelig bør det være muligt at gennemtvinge et stednavn, hvis den automatiske verificering ikke kender et bestemt stednavn, men jeg tror at en automatisk verificering vil kunne gøre livet noget sikrere på søgeresultaterne når stednavnene er med i søgeargumenterne.

Grænsen på 256 poster for søgesættene:
Jeg selv forsøger ofte, i en enkelt søgning, at finde den samme person igennem mange folketællinger, og muligvis i flere nærliggende amter, for hurtigt at danne mig et overblik over vedkommendes liv.

I den situation kan begrænsningen på 256 poster være irriterende.
M.v.h. Georg Brandt Christensen

http://igbc.dk

Slægter: Brandt, Refslund, Lautrup, Kristensen, Christoffersen, Stampe, Tvede

Lars J. Helbo

Problemet med fødestedet er, at der nogle gange ikke står det, man tror. Jeg har f.eks. en ane, som jeg troede var født i Sejling sogn. Det viste sig senere, at han var født i landsbyen Selling i Ødum sogn. Det kan godt være, at DigDag og kender stednavnet Selling, og hvis jeg er heldig, får jeg normaliseret til det og ikke til Sejling; men det hjælper jo ikke, ved en søgning, hvor jeg jo nok vil søge efter Ødum.

Hvis det virkelig skulle hjælpe ved søgning, så skal jeg indsætte et ekstra felt med et normaliseret fødested i formen amt-herred-sogn. Det ville kunne bruges til noget, men det kræver kirkebogsopslag for hver enkelt person.

Er det derimod kun en normalisering af stednavnene, så kan vi igen (meget nemmere) løse problemet med fonetisk søgning. At vi så har snakket om behovet for det i 25 år uden at der er sket noget .....