Haku pdf-dokumentista, ongelmia

Tauno Hermola · Kesäkuu 6, 2016

Mistähän johtuu, että Adobe Acrobat Readerin tekstihaku ei joistain dokumenteista löydä haettavaa tekstiä? Vaikka haettava teksti siis dokumentissa on! Kyseessä ei kai ole skannattu dokumenttikaan; ainakin tekstin valinta ja 'Highligt text' toimii, mikä ei taas ainakaan omissa skannauksissa toimi. Joku merkistöongelmako, koska yllättäen haku löysi ainakin yksittäisiä kirjaimia piirrosten sisällä olevista teksteistä, vaikkei löydä niitä muualta!

OCR:n avulla homma pitäisi tietysti onnistua skannatusta dokumentistakin, tälläistäkin ominaisuutta joskus tarvitsisi: ovathan monet vanhat dokumentit (esim. onnettomuustutkintaraportit) netissä juuri pdf-muodossa talletettuja skannattuja dokumentteja.

Tatu Koiranen · Kesäkuu 6, 2016

Mistähän johtuu, että Adobe Acrobat Readerin tekstihaku ei joistain dokumenteista löydä haettavaa tekstiä? Vaikka haettava teksti siis dokumentissa on! Kyseessä ei kai ole skannattu dokumenttikaan; ainakin tekstin valinta ja 'Highligt text' toimii, mikä ei taas ainakaan omissa skannauksissa toimi. Joku merkistöongelmako, koska yllättäen haku löysi ainakin yksittäisiä kirjaimia piirrosten sisällä olevista teksteistä, vaikkei löydä niitä muualta!

OCR:n avulla homma pitäisi tietysti onnistua skannatusta dokumentistakin, tälläistäkin ominaisuutta joskus tarvitsisi: ovathan monet vanhat dokumentit (esim. onnettomuustutkintaraportit) netissä juuri pdf-muodossa talletettuja skannattuja dokumentteja.

Kopioipa sitä tekstiä ja liitä vaikka notepadiin ja katso tuleeko sieltä oikeita kirjaimia. Jos se on skannattu ja sille on tehty ORC, sekin on voinut mennä pieleen...

Tauno Hermola · Kesäkuu 6, 2016

Kopioipa sitä tekstiä ja liitä vaikka notepadiin ja katso tuleeko sieltä oikeita kirjaimia. Jos se on skannattu ja sille on tehty ORC, sekin on voinut mennä pieleen...

Ei tullut järkevää! Mietin, millähän sen näkisi hexana, kun debug ei enää toimi 7:ssa, mutta tuossahan se taitaa näkyä, kun copy-pastasin

Firefoxiin:

Tämä on screenshot, koska esikatselussakaan se ei enää näkynyt oikein. Jokainen 'laatikko' on siis alkuperäisen tekstin yksi merkki!

Jotain ihme merkistöähän tuo on: 3 tavua/merkki, joista kaksi ylintä tavua on aina 0x1000 ja alin tavu ihan tunnistettavia ASCII-koodeja.

Acrobat Reader osaa siis näyttää tekstin, mutta ei osaa hakea siitä? ???

John Firth · Kesäkuu 7, 2016

Ei tullut järkevää! Mietin, millähän sen näkisi hexana, kun debug ei enää toimi 7:ssa, mutta tuossahan se taitaa näkyä, kun copy-pastasin

Firefoxiin:

Tämä on screenshot, koska esikatselussakaan se ei enää näkynyt oikein. Jokainen 'laatikko' on siis alkuperäisen tekstin yksi merkki!

Jotain ihme merkistöähän tuo on: 3 tavua/merkki, joista kaksi ylintä tavua on aina 0x1000 ja alin tavu ihan tunnistettavia ASCII-koodeja.

Acrobat Reader osaa siis näyttää tekstin, mutta ei osaa hakea siitä? ???

Näitä tulee aina välillä, jotkut pdf-pulauttimet rikkovat tekstihaun käyttämällä omituista merkistö-fontti-yhdistelmää. Jos tarvitset hakua, voin OCR:aa pdf:n sinulle uudelleen - laita linkki yv:llä.

Tauno Hermola · Kesäkuu 7, 2016

Näitä tulee aina välillä, jotkut pdf-pulauttimet rikkovat tekstihaun käyttämällä omituista merkistö-fontti-yhdistelmää. Jos tarvitset hakua, voin OCR:aa pdf:n sinulle uudelleen - laita linkki yv:llä.

Kiitos, ei tarvitse, ei tämä ole niin tärkeää: yritin vaan käyttää hakua verratessani kahta versiota samasta dokumentista, vanhemmassa haku ei toiminut. 'Properties' näytti, että kumpikin versio on 'tislattu' Macintoshin Acrobaatilla, eri versioilla, olisiko se syynä, ettei haku toimi PC:ssä?

Näitä tosiaan tulee aina joskus vastaan, osa skannattuja, joita ei ole sen pitemmälle prosessoitu. Osaako Acrobat Distiller erottaa tekstin skannatusta dokumentista, vai vaatiiko se jonkun erillisen työkalun?

John Firth · Kesäkuu 8, 2016

Kiitos, ei tarvitse, ei tämä ole niin tärkeää: yritin vaan käyttää hakua verratessani kahta versiota samasta dokumentista, vanhemmassa haku ei toiminut. 'Properties' näytti, että kumpikin versio on 'tislattu' Macintoshin Acrobaatilla, eri versioilla, olisiko se syynä, ettei haku toimi PC:ssä?

Näitä tosiaan tulee aina joskus vastaan, osa skannattuja, joita ei ole sen pitemmälle prosessoitu. Osaako Acrobat Distiller erottaa tekstin skannatusta dokumentista, vai vaatiiko se jonkun erillisen työkalun?

Itse olen todennut Acrobat Pro:n tekstintunnistuksen parhaimmaksi vaihtoehdoksi.

Kirjaudu sisään

Haku pdf-dokumentista, ongelmia

6 viestiä aiheessa

Jaa viesti

Link to post

Jaa muulla sivustolla

Jaa viesti

Link to post

Jaa muulla sivustolla

Jaa viesti

Link to post

Jaa muulla sivustolla

Jaa viesti

Link to post

Jaa muulla sivustolla

Jaa viesti

Link to post

Jaa muulla sivustolla

Jaa viesti

Link to post

Jaa muulla sivustolla

Luo uusi käyttäjätunnus tai kirjaudu sisään

Luo käyttäjätili

Kirjaudu sisään