Danske Slægtsforskeres Forum

For alle => Slægtsforskning - metode og teknik => Emne startet af: John Nielsen Dato 16 Jul 2022 - 12:14

Titel: Kirsten Andersen Biblioteket
Indlæg af: John Nielsen Dato 16 Jul 2022 - 12:14
Hej

I "Dommerfuldmægtigene den 1. juli 1963" mangler starten af linierne på ulige sidenumre, og det er værst sidst i bogen.

Som sædvanligt har i mistet bindestreger sidst på linien, og i tekst med 2 og 3 kolonner er der tusindvis.
Jeg forstår ikke hvorfor i ikke gør noget ved det for det har stået på længe og det ødelægger søgningen.

Hilsen John Nielsen
Titel: Sv: Kirsten Andersen Biblioteket
Indlæg af: Per Andersen Dato 16 Jul 2022 - 19:01
Hej John,
Vi producerer online-versionerne efter bedste evne. Desværre er skanningerne ikke altid perfekte, og vi har desværre ikke mulighed for i større udstrækning af justere OCR-delen (du har allerede tidligere fået svar på dit spørgsmål om bindestreger). Det beklager vi, men heldigvis er der rigtig mange, der finder arbejdet brugbart alligevel.
Med venlig hilsen,
Per
Leder, Slægtsforskernes Bibliotek
Titel: Sv: Kirsten Andersen Biblioteket
Indlæg af: John Nielsen Dato 16 Jul 2022 - 23:06
Hej Per

Hvis jeg OCR læser nøjagtigt de samme scanninger så mangler bindestregerne ikke,
så det er helt sikkert noget der kan undgås, og vi snakker om ca. 5000 pr. bog.

Jeg finder så sandelig også arbejdet meget brugbart,
men det er da dumt at blive ved når det er noget der kan rettes.

Hilsen John Nielsen
Titel: Sv: Kirsten Andersen Biblioteket
Indlæg af: Per Andersen Dato 16 Jul 2022 - 23:18
Hej John,
Du har siden 2020 jævnligt fremført de samme argumenter og kritiseret bibliotekets arbejde som havende en meget dårlig kvalitet. Vi er uenige i dine betragtninger - og mere har vi egentlig ikke at sige til det.
Med venlig hilsen,
Per
Leder, Slægtsforskernes Bibliotek
Titel: Sv: Kirsten Andersen Biblioteket
Indlæg af: John Damm Sørensen Dato 17 Jul 2022 - 23:00
Det er vist et problem med PDF-læsernes måde at håndterer soft-hyphens på. PDF-filerne på slægtsbiblioteket indeholder soft-hyphens.

Denne online PDF-læser finder også ord med bindestreger i "Dommerfuldmægtigene den 1. juli 1963" fra slægtsbiblioteket.
https://smallpdf.com/da/pdf-reader

Søger man efter soft-hyphens på nettet forekommer det som om, der er endeløse diskussioner om, hvordan PDF-læseprogrammer skal håndtere disse bindestreger.
Med dette indlæg har jeg ikke noget ønske om at starte tilsvarende endeløse diskussioner. Blot for at gøre opmærksom på, at der åbenbart ikke i en bredere kreds er enighed om, hvordan problemet skal løses.

Hilsen
John
Titel: Sv: Kirsten Andersen Biblioteket
Indlæg af: John Nielsen Dato 17 Jul 2022 - 23:24
Hej John

Der er såvidt jeg kan se ikke tale om soft-hyphens, men om manglende bindestreg.

Det mærkelige er at jeg får bindestregerne når jeg læser samme scanning.
Jeg går ud fra biblioteket stadig bruger Finereader og det gør jeg også,
så det er muligvis et versions problem eller opsætning.
Jeg får også bindestregerne når jeg læser med Tesseract.

Med hensyn til Dommerfuldmægtigene så var det mangler i scanningen og ikke bindestreger.

Hilsen John Nielsen
Titel: Sv: Kirsten Andersen Biblioteket
Indlæg af: Mikkel Eide Eriksen Dato 18 Jul 2022 - 10:55
Hej

Jeg vil blot kort sige, at resultatet af tekstkopiering fra PDF-filer afhænger næsten 100% af programmet man bruger. Teksten står ikke som i et tekstredigeringsprogram, men som bogstaver placeret med koordinater. Kopiering af tekst fra den samme fil kan afhængig af programmet også mangle mellemrum fordi det grafiske mellemrum er for smalt til at programmet tæller det med. Det kan fx. løses ved at gøre tekststørrelsen meget lille, så mellemrummene bliver relativt større (teksten er jo alligevel gjort usynlig når der er tale om OCR-læste billeder).

På samme måde er kopiering af soft-hyphens (som kun er synlige hvis ordet rammer et linjeskift) afhængig af programmet. Nogle programmer oversætter til hard-hyphens (som altid er synlige). Det er også forskelligt om OCR-læseren bruger hard- eller soft-hyphens.

Så ja, desværre er det ikke en eksakt videnskab.

mvh
Mikkel
Titel: Sv: Kirsten Andersen Biblioteket
Indlæg af: John Nielsen Dato 18 Jul 2022 - 11:23
Hej Mikkel

Når søgning i PDF'en finder dem med bindestreg, men ikke dem uden,
så må det vel være bevis nok uanset teknikken bag.

Jeg forstår ikke hvorfor man har så meget imod at rette en simpel fejl.

Hilsen John Nielsen
Titel: Sv: Kirsten Andersen Biblioteket
Indlæg af: Per Andersen Dato 18 Jul 2022 - 16:50
For at tydeliggøre bibliotekets politik omkring OCR-behandling kan jeg oplyse følgende:

Bibliotekets formål med OCR-behandling er ikke, at man skal kunne udtrække teksten korrekt fra OCR-laget (dvs. transskribering), dog med enkelte undtagelser som Hirschs Officerer. Formålet med OCR-behandlingen er alene at kunne foretage fritekstsøgning.

Vi er således klar over, at der er en vis procentandel fejl i OCR-behandlingen. Det er vores opfattelse, at dette ikke nedsætter søgbarheden væsentligt, idet begreber og navne, som man typisk vil søge på, vil optræde mere end én gang i de titler, der er mest interessante og dermed med stor sandsynlighed er genkendt korrent mindst én gang.

Det er vores politik, at vi ikke ud over titelblad, indholdsfortegnelse o.lign. læser korrektur på OCR. At skulle efterbehandle OCRen ville være så tidskrævende, at det slet, slet ikke ville stå mål med den marginalt øgede søgbarhed. På dette punkt prioriterer vi volumen over fejlfri OCR.

Vi kan således ikke tilgodese de få personer, der ikke anvender vores arbejde, som det var tiltænkt, eller som ønsker at anvende særlige programmer.

Med venlig hilsen,
Per
Leder, Slægtsforskernes Bibliotek

Titel: Sv: Kirsten Andersen Biblioteket
Indlæg af: John Nielsen Dato 21 Jul 2022 - 12:34
Hej Per

I behøver så sandlig ikke at tilgodese mig, jeg har ikke et problem.
Det er dine medlemmer der søger direkte i PDF'en der har et problem.
Det ser ud til at de er ligeglade, så det kan jeg også være.

Hilsen John Nielsen
Titel: Sv: Kirsten Andersen Biblioteket
Indlæg af: John Damm Sørensen Dato 21 Jul 2022 - 17:19
Hvis nogen skulle have problemer med soft hyphens i forbindelse med søgning i deres PDF-læser, er der en udmærket liste med alternativer her:
https://github.com/sumatrapdfreader/sumatrapdf/issues/1189

Jeg kan anbefale Foxit.

Hilsen
John
Titel: Sv: Kirsten Andersen Biblioteket
Indlæg af: John Nielsen Dato 22 Jul 2022 - 11:16
Hej John

Det har intet med soft hyphens at gøre, eller tidskrævende korrektur og efterbehanling.
Det er udelukkende et OCR problem.
Når jeg OCR læser de eksakt samme scanninger uden nogen form for ekstra tidsforbrug,
så er bindestregerne der med Finereader og Tesseract, men ikke når biblioteket gør det.

Hilsen John Nielsen