Jeg kan udlæse det ordbogstillæg jeg laver som en tekstfil, men det er jo ved at blive en blandet forretning med for- efternavne, stillingsbetegnelser, stednavne o.s.v., så hvis du ønsker dette kan du da godt få den del.
Skal det være separate for-, efternavne, stillinger o.s.v. skal jeg lige finde de "rådata" jeg har hentet ned og bearbejde disse lidt med henblik på en separat tekstfil.
Jeg har generelt haft det hele inde til en behandling i excel for at finde og fjerne dubletter. Der findes jo mange slags "Møller" og "Smed" Nørgaard" o.s.v., men OCR behøver jo kun en af hver, medmindre selvfølgeligt der skal være separate eks. "Møller" og "møller" - altså fortegn, eller "Nørgaard" og "Nørgård", d.v.s. et bogstav der kan skrives på 2 måder.
Men jeg er absolut villig til at stille ordbogen eller dele deraf til rådighed.
I øvrigt bruger jeg FineReader, og det er et ret billigt, men godt program. Det er et russisk program og koster ca. halv pris af hvad noget lignene amerikansk program koster.
Fidusen ved OCR er jo netop en god tekstgenkendelse, d.v.s. med normale skrivemaskinetyper eller bogtryk mindst 300 dpi. Med små bogstaver som eksempelvis Adels Aarbøgerne må det anbefales at enten øge til 600 dpi, eller forstørre sidwerne/typerne allerede i indscanningen. Da Siderne er ca. halv størrelse kan det også være en fordel frem for at læse bogen så at se den på skærmen efter forstørrelse. Personligt skal jeg bruge både brillerne og en lup for at læse disse meget små typer.
Mange bøger, og selvfølgeligt især ældre bøger har den ulempe at typerne kan være uensartede i sværtningen og/eller er falmede med årene. Derfor husk at scanne i gråtoner.
FineReader kan godt fjerne nogle af de prikker/urenheder der er kommet på siderne i årenes løb. Kommer nogen gange også af urenheder i papiret. Jeg føler mig ganske sikker på at det kan ordentlige OCR-programmer også, men det kan måske knibe lidt med de programmer som medfølger ved scannerkøb. I hvert fald er mine erfaringer i den retning ikke verdens bedste, og jeg har nu min anden scanner i drift.
Dernæst, eller skal vi sige allerførst, køb en ordentlig scanner. Min kan også rullescanne, men det er nu ret sjældent jeg har brugt denne facilitet. Der var dog en enkelt gang hvor jeg scannede 700 sider på en efterniddag uden at jeg behøvede andet end lægge mere papir i med korte mellemrum. De store dyre scannere har større papirbakker og skal ikke "*fodres" så tit, men prisforskellen !.
Da jeg ikke følger Kandu ret tæt, så kan det være en ide i givet fald at skrive på min e-mail: oldingen@varla.dk
Mange hilsener
Varla