Kirsten Andersen Biblioteket

Startet af John Nielsen, 16 Jul 2022 - 12:14

Forrige emne - Næste emne

John Nielsen

Hej

I "Dommerfuldmægtigene den 1. juli 1963" mangler starten af linierne på ulige sidenumre, og det er værst sidst i bogen.

Som sædvanligt har i mistet bindestreger sidst på linien, og i tekst med 2 og 3 kolonner er der tusindvis.
Jeg forstår ikke hvorfor i ikke gør noget ved det for det har stået på længe og det ødelægger søgningen.

Hilsen John Nielsen

Per Andersen

Hej John,
Vi producerer online-versionerne efter bedste evne. Desværre er skanningerne ikke altid perfekte, og vi har desværre ikke mulighed for i større udstrækning af justere OCR-delen (du har allerede tidligere fået svar på dit spørgsmål om bindestreger). Det beklager vi, men heldigvis er der rigtig mange, der finder arbejdet brugbart alligevel.
Med venlig hilsen,
Per
Leder, Slægtsforskernes Bibliotek

John Nielsen

Hej Per

Hvis jeg OCR læser nøjagtigt de samme scanninger så mangler bindestregerne ikke,
så det er helt sikkert noget der kan undgås, og vi snakker om ca. 5000 pr. bog.

Jeg finder så sandelig også arbejdet meget brugbart,
men det er da dumt at blive ved når det er noget der kan rettes.

Hilsen John Nielsen

Per Andersen

Hej John,
Du har siden 2020 jævnligt fremført de samme argumenter og kritiseret bibliotekets arbejde som havende en meget dårlig kvalitet. Vi er uenige i dine betragtninger - og mere har vi egentlig ikke at sige til det.
Med venlig hilsen,
Per
Leder, Slægtsforskernes Bibliotek

John Damm Sørensen

Det er vist et problem med PDF-læsernes måde at håndterer soft-hyphens på. PDF-filerne på slægtsbiblioteket indeholder soft-hyphens.

Denne online PDF-læser finder også ord med bindestreger i "Dommerfuldmægtigene den 1. juli 1963" fra slægtsbiblioteket.
https://smallpdf.com/da/pdf-reader

Søger man efter soft-hyphens på nettet forekommer det som om, der er endeløse diskussioner om, hvordan PDF-læseprogrammer skal håndtere disse bindestreger.
Med dette indlæg har jeg ikke noget ønske om at starte tilsvarende endeløse diskussioner. Blot for at gøre opmærksom på, at der åbenbart ikke i en bredere kreds er enighed om, hvordan problemet skal løses.

Hilsen
John

John Nielsen

Hej John

Der er såvidt jeg kan se ikke tale om soft-hyphens, men om manglende bindestreg.

Det mærkelige er at jeg får bindestregerne når jeg læser samme scanning.
Jeg går ud fra biblioteket stadig bruger Finereader og det gør jeg også,
så det er muligvis et versions problem eller opsætning.
Jeg får også bindestregerne når jeg læser med Tesseract.

Med hensyn til Dommerfuldmægtigene så var det mangler i scanningen og ikke bindestreger.

Hilsen John Nielsen

Mikkel Eide Eriksen

Hej

Jeg vil blot kort sige, at resultatet af tekstkopiering fra PDF-filer afhænger næsten 100% af programmet man bruger. Teksten står ikke som i et tekstredigeringsprogram, men som bogstaver placeret med koordinater. Kopiering af tekst fra den samme fil kan afhængig af programmet også mangle mellemrum fordi det grafiske mellemrum er for smalt til at programmet tæller det med. Det kan fx. løses ved at gøre tekststørrelsen meget lille, så mellemrummene bliver relativt større (teksten er jo alligevel gjort usynlig når der er tale om OCR-læste billeder).

På samme måde er kopiering af soft-hyphens (som kun er synlige hvis ordet rammer et linjeskift) afhængig af programmet. Nogle programmer oversætter til hard-hyphens (som altid er synlige). Det er også forskelligt om OCR-læseren bruger hard- eller soft-hyphens.

Så ja, desværre er det ikke en eksakt videnskab.

mvh
Mikkel
Interesse: alt Gilleleje plus Lindberg/Humble (SE/DK) Svane (Mors) Behringer (Alsace/DK/NO) Bortvig/Fleischer (Lolland)

Hjælper gerne med Sverige: https://forum.slaegt.dk/index.php/topic,153986

John Nielsen

Hej Mikkel

Når søgning i PDF'en finder dem med bindestreg, men ikke dem uden,
så må det vel være bevis nok uanset teknikken bag.

Jeg forstår ikke hvorfor man har så meget imod at rette en simpel fejl.

Hilsen John Nielsen

Per Andersen

For at tydeliggøre bibliotekets politik omkring OCR-behandling kan jeg oplyse følgende:

Bibliotekets formål med OCR-behandling er ikke, at man skal kunne udtrække teksten korrekt fra OCR-laget (dvs. transskribering), dog med enkelte undtagelser som Hirschs Officerer. Formålet med OCR-behandlingen er alene at kunne foretage fritekstsøgning.

Vi er således klar over, at der er en vis procentandel fejl i OCR-behandlingen. Det er vores opfattelse, at dette ikke nedsætter søgbarheden væsentligt, idet begreber og navne, som man typisk vil søge på, vil optræde mere end én gang i de titler, der er mest interessante og dermed med stor sandsynlighed er genkendt korrent mindst én gang.

Det er vores politik, at vi ikke ud over titelblad, indholdsfortegnelse o.lign. læser korrektur på OCR. At skulle efterbehandle OCRen ville være så tidskrævende, at det slet, slet ikke ville stå mål med den marginalt øgede søgbarhed. På dette punkt prioriterer vi volumen over fejlfri OCR.

Vi kan således ikke tilgodese de få personer, der ikke anvender vores arbejde, som det var tiltænkt, eller som ønsker at anvende særlige programmer.

Med venlig hilsen,
Per
Leder, Slægtsforskernes Bibliotek


John Nielsen

Hej Per

I behøver så sandlig ikke at tilgodese mig, jeg har ikke et problem.
Det er dine medlemmer der søger direkte i PDF'en der har et problem.
Det ser ud til at de er ligeglade, så det kan jeg også være.

Hilsen John Nielsen

John Damm Sørensen

Hvis nogen skulle have problemer med soft hyphens i forbindelse med søgning i deres PDF-læser, er der en udmærket liste med alternativer her:
https://github.com/sumatrapdfreader/sumatrapdf/issues/1189

Jeg kan anbefale Foxit.

Hilsen
John

John Nielsen

Hej John

Det har intet med soft hyphens at gøre, eller tidskrævende korrektur og efterbehanling.
Det er udelukkende et OCR problem.
Når jeg OCR læser de eksakt samme scanninger uden nogen form for ekstra tidsforbrug,
så er bindestregerne der med Finereader og Tesseract, men ikke når biblioteket gør det.

Hilsen John Nielsen