Information om DIS Arkiv og Bibliotek

John Nielsen · 27 Okt 2013 - 15:08

Hej

Jeg har i nyhedsbrevet set link til databasen, men har ikke kunnet finde indgange andre mere logiske steder.
Det fremgår at der er godt 10.000 poster i databasen, er der flere der ikke er registrerede og hvor mange.

Er der anskaffet:
Bogsaks
Scanner med arkføder
OCR programmer

Hvilket udstyr er der tale om ?

Har i erfaringer med anvendelsen ?
Har i fundet samarbejdspartnere/frivillige ?
Hvordan mere specifikt finder i ud af om ophavsretten er udløbet eller ikke håndhæves ?

Jeg er aktuelt igang med digitalisering af godt 2100 sider, og har digitaliseret masser af bøger indtil nu.

Hilsen John Nielsen

Poul Wachmann · 28 Okt 2013 - 10:37

Hej John og andre interesserede,

Der er p.t. adgang til DIS-Arkiv & Bibliotek fra forsiden af http://dis-danmark.dk. Flere links er planlagt, deriblandt også direkte fra Slægt & Data forsiden.

De 10.000 bibliografiske poster er oprettet på baggrund af et seddelkartotek over bøgerne på LAK's arbejdsbibliotek og omfatter formodentlig knapt halvdelen af de værker, vi har i Albertslund. Lige nu har vi registreret godt 1.000 bøger, tidsskrifter og kasser med mikrofilm, så vi også ved, hvor vi kan finde dem. Der er yderligere 15 ebøger lagt ud som PDF og nogle få også som EPUB, så de kan ses på Internettet.

- Vi har en mindre bogsaks, stillet til rådighed af et medlem.
- Som scanner med arkføder er der anskaffet en Canon Pixma MX925, der kan lave dobbeltsidet scanning. Vi er færd med at søge Nordea-fonden om støtte til køb af en bogscanner type Zeutschel OS15000 Advanced Plus.
- Som OCR program benytter vi ABBYY FineReader.
- Af øvrige programmer til efterbehandling benytter vi ScanTailor, XnView, PDF24, og OpenOffice, alle gratis Open Source Programmer.
Er der nogen, som kan hjælpe os med mere avanceret udstyr, eventuelt brugt udstyr, vil vi være taknemmelige.

Vi har allerede erfaring med det udstyr, vi har, og er i gang med at opbygge procesbeskrivelser og dedikerede vejledninger i brugen.

Bliver vores ansøgning til Nordea-fonden imødekommet, er det hensigten, at foretage scanningerne i Albertslund og søge medhjælpere i hele landet til efterbehandling og OCR behandling af værkerne. Det sidste kan foretages på en hjemmearbejdsplads.

Vi har indtil nu fokuseret meget på at få hoved og hale på de mange bøger i Albertslund samt at få IT delen til at fungere med en gruppe på 8 frivillige.

Du og andre er meget velkomne til at deltage i arbejdet med DIS Arkiv & Bibliotek. Vi er selvfølgelig også interesseret i at kunne integrere dine (og andres) digitaliserede værker i bestanden.

Med venlig hilsen
Poul

John Nielsen · 28 Okt 2013 - 14:22

Hej Poul

Tak for orienteringen.
Det er en ordentlig bunke i er gået igang med.

Jeg skærer også bøger op, men scanner manuelt, så jeg er ude efter erfaring med arkføde scannere til en rimelig pris.
Så vidt jeg kan se så er de alle rullescannere og dem tvivler jeg på kan bruges, de kan heller ikke tage ret mange sider af gangen.
Det var derfor jeg var ude efter erfaringer fra jeres scannere.

Slægtforsknings bøger er en stor udfordring for OCR programmer.
Masser af navne, steder, datoer, kolonner, portrætbilleder, karakterer fra 7 sprog.
Ofte ældre bøger med gamle fonte, håndsat, gulnet papir.
Der er ofte også, dårligt papir, dårligt tryk og små typer ned til 3-4 punkt.

Jeg anvender også Finereader.
Den har store problemer med inddeling af siderne, så det må gøres manuelt.
7 sprog skal enables for at den kan læse karaktererne, og ordbøgerne hjælper ikke men gør ondt værre.
Bogstaver ved siden af tal læses ofte som tal og omvendt.
Jeg ville ikke have for stor tillid til opretning af bølgede, skæve og forvrængede sider.
Der er kun "søg og erstat" til at rette de mange systematiske fejl.

Så regn med minimum 600 DPI 8 bit til de værste og 300 til resten.

Jeg går normalt udelukkende efter den biografiske del og tekst som output.
Jeg har dog også lavet en del søgbare grafiske PDF'er, de er normalt store og der er begrænsning på hvor mange billeder i stor opløsning FineReader kan håndtere.

Jeg vil være interesseret i at være medhjælper på biografiske bøger.

Hilsen John Nielsen

Leif Sommerdal · 28 Okt 2013 - 14:42

Jeg har selv gået længe og har kigget her http://www.diybookscanner.org/

Umiddelbart ser produktet vist fornuftigt ud - og er vel en del billigere end professionelle bogskannere.
Samtidig undgår man at ødelægge bogen ved at skulle skære den op, men der er naturligvis noget mere manuelt arbejde, da der naturligvis ikke er arkføder (selvom enkelte kreative personer har forsøgt sig med automatiske bladringssystemer.

John Nielsen · 28 Okt 2013 - 18:11

Hej Leif

Interressant link, det skal jeg have studeret nærmere.
Specielt omkring Tesseract, hocr og pdf.
Der måtte også gerne være en editor med reference til originalen og SED indbygget.

Sådan en Georg Gearløs opstilling har jeg haft i mange år, ca 300 sider i timen.
Det er en bookscanner der hænger på hovedet i 45 grader over en drejbar V formet bogholder.
Alle scanninger fra en bog er dog lidt besværlige på grund af indbindingen.
En del er umulige fordi teksten går helt ud i indbindingen eller at bogen er i laser.
Havde en hel stabel af vejvisere af den type, heldigvis hæftet så de kunne skilles ad og samles igen.

Jeg køber de bøger jeg kan finde af mursten- munkestenstypen for 10-50 kr. og skærer dem op.
Det er rimeligt behageligt og perfekt resultat.

Jeg har også fotograferet en del, men ikke med henblik på OCR.

Hilsen John Nielsen

Poul Wachmann · 28 Okt 2013 - 20:03

Valget af bogscanner har været drøftet længe. Vores første overvejelser drejede sig om en bogscanner af samme type som do-it-yourself bogscanneren. Der er 2 østrigske firmaer, som producerer lignende bogskannere: Treventus, som bl.a. benyttes af Nasjonalbiblioteket i Norge, og Qidenus, som benyttes af Det Kongelige Bibliotek. Vi har set scannerne på KB, mens de norske scannere stod i Nordnorge, og det var simpelthen for langt væk. Priserne ligger oppe omkring 500.000 kr.

Vi havde lejlighed til at teste Zeutschel scanneren på Rigsarkivet og tog kontakt til en dansk forhandler. Vi så her den aktuelle model i funktion. Det ser ud til at være en absolut professionel scanner, der er nem at betjene. Prisen er imidlertid kun en tredjedel af ovenstående.

Af de mere specielle bogskannere for selvbyggere kan jeg nævne et projekt på Google:
https://code.google.com/p/linear-book-scanner/

Det hævdes, at den kan bygges for $1.500 eller små 10.000 kr.

Med venlig hilsen
Poul

John Nielsen · 28 Okt 2013 - 20:44

Hej Poul

Jeg har fået scannet en del sider på det Kongelige bibliotek, sikkert med den scanner.
Resultatet var udmærket til OCR selvom kilden var en af de dårlige.

Min opstilling kostede BookScanneren, så vidt jeg husker 2.500 Kr.
Det er 1 side af gangen uden indbindingskrumning, tilskåret, vendt rigtigt og korrekt belyst, dvs lige til OCR uden yderligere behandling.

Du nævnte ikke hvad i gjorde med hensyn til ophavsret undersøgelse, men i er måske ikke rigtig nået dertil endnu.

Hilsen John Nielsen

Poul Wachmann · 29 Okt 2013 - 00:10

Hej John,

Ophavsretsloven er et yderst vanskeligt emne. Kirsten Andersen og jeg har deltaget i kurser, dog ikke samtidigt, i ophavsret med professor Morten Rosenmeier fra Københavns Universitet. Ja, vi er blevet klogere; men loven er upræcis og der er kun ganske få domme i ophavsretssager, så tolkning af de mere specielle regler bygger på formodninger.

Langt hen ad vejen mener vi dog, at vi kan vurdere, om et værk er ophavsretsligt beskyttet eller 'public domain'.

Når vi har nogle værker, som er ophavsretsligt beskyttet, men som vi ønsker at scanne og at publicere som ebøger, er der et par muligheder. Vi kan enten bede om tilladelse til scanning af forfatterne, eller lave en aftale med DANCOPY.

Med venlig hilsen
Poul

John Nielsen · 30 Okt 2013 - 15:44

Hej Leif

Jeg har nu kikket på dit link.
Ingen tvivl om at fotografering er hurtigere end scanning, men det meste af snakken og værktøjerne går på opretning, belysning, dewarping, tilskæring, vending, navngivning og konvertering til andre formater som andre af behandlingsprogrammerne behøver.
Alt dette er umiddelbart på plads med scanning, specielt med opskårne bøger.

Derudover er der mest fokus på læsning på forskellige platforme, mens OCR og kvaliteten af samme ikke betyder alverden fordi det ligger bagved originalen som søgetekst så ingen kan se hvor ringe det er.

Jeg har heller ikke fundet værktøjer der understøtter Tesseract, hocr, editering og PDF generering.

Hilsen John Nielsen

Leif Sommerdal · 30 Okt 2013 - 22:54

Hej John

Det var nu også mere for bogskannerne (foto-maskinernes) skyld jeg kom med linket.
Set i forhold til skannere kan de bevare arkivalierne samtidig med at de er hurtige.
De er tillige billige ift. de mere professionelle skannere.

John Nielsen · 01 Nov 2013 - 22:11

Hej Leif

Til OCR hælder jeg stadig mest til scanning, for det er utroligt så megen tid man kan bruge på efterbehandling og manuel editering.

Er du stødt på smart hocr editering og PDF generering ?

Tesseract har faktisk en bedre sideinddeling end Finereader, desværre forstår den ikke "~†" som bruges i det jeg OCR læser lige nu. Det værste er at fejllæsningen er absolut usystematisk.
Så vidt jeg kan se så kan man ikke tilføje karakterer, men skal starte helt forfra.

Hilsen John Nielsen

John Nielsen · 06 Nov 2013 - 20:55

Hej

Jeg er nu færdig med at OCR læse de 2100 sider.
Slutresultatet er reduceret til 25% af den læste tekst på 13,4 MB.

Som forsøg læste jeg 155 sider med Tesseract.
Man kan ikke umiddelbart se sideinddelingen,
men ud fra den læste tekst så det ud til at være perfekt.
Til gengæld var det læste væsentligt dårligere end Finereader.
Det viser sig at ~ er defineret, selv om den ikke kunne læse den.
Ret skal være ret Finereader 8 havde også lidt svært ved den.
Til gengæld var † ikke defineret, så det forklarer det usystematiske.

Samlet set så var Tesseract langsommere.
Det der vindes på sideinddeling og mere til tabes i slut editeringen.
Det er muligt at der kan vindes noget ved at tilpasse editeringen endnu bedre til Tesseract.

Metoden med opskæring hvor det er muligt er helt rigtig.
For at høste den fulde fordel skal scanningen automatiseres.

Krav til sådan en scanner:
Arkføder til mange sider
Flatbed scanner
600 DPI gråtoner min
rimelig pris

Hilsen John Nielsen

John Nielsen · 14 Nov 2013 - 21:59

Hej

Jeg lavede lige et forsøg med 1 side fra Post og Telegrafvæsenets årbog 1966.
Fonten er nede omkring 4-5 punkt men flot tryk og papir.
Jeg scannede i 300 og 600 DPI og begge i 1 og 8 bit.
Bit havde ingen betydning, mens 600 DPI gav halvering af fejl.
Jeg OCR læste med FineReader og Tesseract, og til min overraskelse var Tesseract bedst.
Tesseract 48 fejl 0,6%, Finereader 60 fejl 0,7%.
De fleste af fejlene var systematiske så de er til at rette automatisk.

Hilsen John Nielsen