For hvem som kan have interesse i det, så har jeg været i gang med at skanne nogle af vejviserne fra Horsens.
Forløbig drejer det sig om Horsens Vejviser fra 1917, 1927, 1938, 1944 og 1946.
Der vil løbende blive lagt flere på, efterhånden som jeg får dem skannet og bearbejdet og det er min hensigt at alle Horsens vejviserne fra 1832 og til 1958 skal skannes og ligges på nettet.
De er alle lavet søgebare og er der en som kan hjælpe eller komme med forslag til, hvordan de gamle vejvisere med gotisk skrift kan gøres søgebare, hører jeg gerne ???
Vejviserne kan findes her:
http://www.horsensbilleder.dk/historie/vis/vejvisere%20fra%20horsens (http://www.horsensbilleder.dk/historie/vis/vejvisere%20fra%20horsens)
Hej Jan
Tak for dit arbejde.
Har allerede fundet den første af min familie i Vestergade 50, Slagter Strand.
Hej Jan
Jeg går ud fra, at det er trykte gotisk skrift du efterspørger.
Kan du vedhæfte et eksempel, så vil jeg forsøge om jeg kan finde et forslag.
Dui kan evt. maile det til mig
Hej Jan
Finereader kan læse fraktur, men det er på en speciel licens.
Martin Henriksen har lavet en masse i det område: http://www.h58.dk/
Hilsen John Nielsen
John har ganske ret.
FineReader Online (http://finereader.abbyyonline.com/en) ser ud til at kunne klare opgaven.
Der er mulighed for at teste det gratis, så vidt jeg kan se.
Derudover skal der købes adgang - 200 sider koster 10$
Jeg vil kigge på om den version af FineReader, som jeg har adgang til kan klare det
Leif: Ja, det er den trykte gotiske skrift. Jeg forsøger at skaffe noget materiale.
John: Måske Henrik kan/vil hjælpe, hvis det kommer dertil?
Vil helst om der findes en gratis løsning, da det jo er privat og mine lommepenge det går ud over ;)
Hej Jan
Det må du snakke med Henrik om, men jeg mener at hans licens må være opbrugt med al det han har lavet.
Her du kikket på din OCR læste tekst som bruges til søgning i PDF'en.
De mange vejvisere jeg har lavet er scannet i 4-600 DPI og der er stadig en mange systematiske fejl som jeg retter med den ret sølle "søg og erstat" i Finereader, det burde have været en streaming editor (SED) istedet.
Hilsen John Nielsen
Måske kunne du have interesse i at se på denne gratis løsning (http://ask.metafilter.com/214068/Performing-OCR-on-a-FrankturBlackletter-PDF-and-getting-a-searchable-image-PDF)
Bemærk specielt det sidste afsnit SOLVED
Jeg hjælper gerne - men det kræver et par dokumenter, da systemet formentlig skal trænes.
Hej Jan og Leif
Tesseract er udviklet af HP og er en udmærket OCR maskine.
De opgav videre udvikling på den og overførte koden til free.
Jeg har for nogen tid siden kikket på Tesseract, men der manglede meget dengang.
Så min konklusion var at Finereader stadig var den bedste selvom jeg gerne ville have haft den udskiftet.
Så hvis Tesseract er blevet et reelt alternativ vil jeg gerne høre om det.
Stort set alle andre værktøjer jeg bruger er GNU.
Hilsen John Nielsen
Rigtigt fint arbejde!
Der står på hjemmesiden, at filerne "fylder utroligt meget" og at det derfor vil tage lang tid at downloade dem. Det synes jeg slet ikke er noget problem, og jeg har bestemt ingen hurtig forbindelse. Det er meget bedre at have muligheden for at downloade en fuldstændig scanning af en vejviser end at dele den op i små stykker eller (værre endnu) udelade dele. Så venter man gerne de ekstra minutter.
MVH
Carsten
Hejsa
Tusind tak for dit store abejde, har en del i Horsens.
Hej Jan, jeg har den Gratis løsning jeg har CD med ABBY Fine Reader 9,0 og ingen har mere fortjent den end du. Send en email hvor jeg kan aflever den.
Mvh
Vivi
Hej Vivi.
Jeg har sendt dig en mail, med ja tak for tilbuddet.
Hej Jan
Jeg har lige afprøvet Tesseract, og den er helt klart et alternativ idag.
Det må være fordi Google bruger den, at der er begyndt at ske noget.
Mit input 300 DPI 2 kolonner små typer.
Næsten perfekt output, der var enkelt o der blev 0 i en tekst, æøå leveres som UTF8, men det er nemt at rette.
Så de er kommet en meget lang vej siden jeg prøvede dem sidst.
Der følger en dansk fraktur defination med, den har jeg dog ikke prøvet.
Tesseract er lidt rå og upoleret, men der ser ud til at være anvendelige frontsystemer til den.
Hilsen John Nielsen
Hej Jan
Så har jeg også prøvet at læse gothic/fraktur med Tesseract.
Det giver en del flere fejl, men til prisen er det absolut ikke dårligt.
Jeg har ikke prøvet at lave en PDF endnu, men hocr optionen virker fint.
Jeg har prøvet nogen af de omtalte frontsystemer, men foreløbig skrammel.
Hilsen John Nielsen
Hej John
Har du forsøgt dig med træning?
Hej Leif
Nej, det er ver. 3.02.02 som den installerer sig.
Et løst gæt er fejlrate 5-8% ved fraktur, og 1-3% ved Latin.
Der er også en tysk fraktur, det er muligt at den er bedre.
Min tekst er fra 1860 så den er muligvis værre.
Hilsen John Nielsen
Men du kan træne progammet til at kunne forstå specielle skrifttyper.
Hat fu forsøgt det?
Hej Leif
Ja, det kan man.
Nej, det har jeg ikke, og jeg har heller ingen planer i den retning.
Det er ikke bestemte karakterer den fejler på, så det er ikke sansynligt at træning vil hjælpe.
Hilsen John Nielsen
Nu har jeg selv forsøgt med FineRearder 11 og Tesseract.
Tesseract er virkelig forbedret
Hej Leif
Ja, Tesseract virker fornemt nu, også rimeligt med fraktur.
Problemet er at der behøves mere end en OCR maskine.
Der mangler mulighed for at se og evt rette sideinddelingen,
der mangler editering af systematiske fejl ala SED.
der mangler manuel editering af den læste tekst mens den viser stedet i originalen,
der mangler mulighed for at lave søgbar PDF.
Kortsagt der mangler en anvendelig front.
Jeg har søgt efter sådanne løsninger uden held.
GNU har i masser af år haft de bedste værktøjer herunder grafiske, men sammenhængen har altid manglet.
GIMP er den hidtil bedste frontend og det er noget klamp i forhold til f. eks. IrfanView.
Hilsen John Nielsen
Tak for kommentarerne.
Leif, hvis der er ok, vender jeg tilbage, når jeg får fat på noget gotisk materiale
Det gør du bare - Jan
Så er Horsens vejviser 1905/06,
1909/10 og 1918 lagt på hjemmesiden