Tauno Hermola

Haku pdf-dokumentista, ongelmia

6 viestiä aiheessa

Mistähän johtuu, että Adobe Acrobat Readerin tekstihaku ei joistain dokumenteista löydä haettavaa tekstiä? Vaikka haettava teksti siis dokumentissa on! Kyseessä ei kai ole skannattu dokumenttikaan; ainakin tekstin valinta ja 'Highligt text' toimii, mikä ei taas ainakaan omissa skannauksissa toimi. Joku merkistöongelmako, koska yllättäen haku löysi ainakin yksittäisiä kirjaimia piirrosten sisällä olevista teksteistä, vaikkei löydä niitä muualta!

 

OCR:n avulla homma pitäisi tietysti onnistua skannatusta dokumentistakin, tälläistäkin ominaisuutta joskus tarvitsisi: ovathan monet vanhat dokumentit (esim. onnettomuustutkintaraportit) netissä juuri pdf-muodossa talletettuja skannattuja dokumentteja. 

Jaa viesti


Link to post
Jaa muulla sivustolla

Mistähän johtuu, että Adobe Acrobat Readerin tekstihaku ei joistain dokumenteista löydä haettavaa tekstiä? Vaikka haettava teksti siis dokumentissa on! Kyseessä ei kai ole skannattu dokumenttikaan; ainakin tekstin valinta ja 'Highligt text' toimii, mikä ei taas ainakaan omissa skannauksissa toimi. Joku merkistöongelmako, koska yllättäen haku löysi ainakin yksittäisiä kirjaimia piirrosten sisällä olevista teksteistä, vaikkei löydä niitä muualta!

 

OCR:n avulla homma pitäisi tietysti onnistua skannatusta dokumentistakin, tälläistäkin ominaisuutta joskus tarvitsisi: ovathan monet vanhat dokumentit (esim. onnettomuustutkintaraportit) netissä juuri pdf-muodossa talletettuja skannattuja dokumentteja. 

 

Kopioipa sitä tekstiä ja liitä vaikka notepadiin ja katso tuleeko sieltä oikeita kirjaimia. Jos se on skannattu ja sille on tehty ORC, sekin on voinut mennä pieleen...

Jaa viesti


Link to post
Jaa muulla sivustolla

Kopioipa sitä tekstiä ja liitä vaikka notepadiin ja katso tuleeko sieltä oikeita kirjaimia. Jos se on skannattu ja sille on tehty ORC, sekin on voinut mennä pieleen...

 

Ei tullut järkevää! Mietin, millähän sen näkisi hexana, kun debug ei enää toimi 7:ssa, mutta tuossahan se taitaa näkyä, kun copy-pastasin

Firefoxiin: :)

 

notepad.gif.df0454b742ecf3dad08846380307d6ad.gif

Tämä on screenshot, koska esikatselussakaan se ei enää näkynyt oikein. Jokainen 'laatikko' on siis alkuperäisen tekstin yksi merkki!

 

Jotain ihme merkistöähän tuo on: 3 tavua/merkki, joista kaksi ylintä tavua on aina 0x1000 ja alin tavu ihan tunnistettavia ASCII-koodeja.

Acrobat Reader osaa siis näyttää tekstin, mutta ei osaa hakea siitä? ???

Jaa viesti


Link to post
Jaa muulla sivustolla

Ei tullut järkevää! Mietin, millähän sen näkisi hexana, kun debug ei enää toimi 7:ssa, mutta tuossahan se taitaa näkyä, kun copy-pastasin

Firefoxiin: :)

 

Tämä on screenshot, koska esikatselussakaan se ei enää näkynyt oikein. Jokainen 'laatikko' on siis alkuperäisen tekstin yksi merkki!

 

Jotain ihme merkistöähän tuo on: 3 tavua/merkki, joista kaksi ylintä tavua on aina 0x1000 ja alin tavu ihan tunnistettavia ASCII-koodeja.

Acrobat Reader osaa siis näyttää tekstin, mutta ei osaa hakea siitä? ???

 

 

Näitä tulee aina välillä, jotkut pdf-pulauttimet rikkovat tekstihaun käyttämällä omituista merkistö-fontti-yhdistelmää. Jos tarvitset hakua, voin OCR:aa pdf:n sinulle uudelleen - laita linkki yv:llä.

Jaa viesti


Link to post
Jaa muulla sivustolla

Näitä tulee aina välillä, jotkut pdf-pulauttimet rikkovat tekstihaun käyttämällä omituista merkistö-fontti-yhdistelmää. Jos tarvitset hakua, voin OCR:aa pdf:n sinulle uudelleen - laita linkki yv:llä.

 

Kiitos, ei tarvitse, ei tämä ole niin tärkeää: yritin vaan käyttää hakua verratessani kahta versiota samasta dokumentista, vanhemmassa haku ei toiminut. 'Properties' näytti, että kumpikin versio on 'tislattu' Macintoshin Acrobaatilla, eri versioilla, olisiko se syynä, ettei haku toimi PC:ssä?

 

Näitä tosiaan tulee aina joskus vastaan, osa skannattuja, joita ei ole sen pitemmälle prosessoitu. Osaako Acrobat Distiller erottaa tekstin skannatusta dokumentista, vai vaatiiko se jonkun erillisen työkalun?

Jaa viesti


Link to post
Jaa muulla sivustolla

Kiitos, ei tarvitse, ei tämä ole niin tärkeää: yritin vaan käyttää hakua verratessani kahta versiota samasta dokumentista, vanhemmassa haku ei toiminut. 'Properties' näytti, että kumpikin versio on 'tislattu' Macintoshin Acrobaatilla, eri versioilla, olisiko se syynä, ettei haku toimi PC:ssä?

 

Näitä tosiaan tulee aina joskus vastaan, osa skannattuja, joita ei ole sen pitemmälle prosessoitu. Osaako Acrobat Distiller erottaa tekstin skannatusta dokumentista, vai vaatiiko se jonkun erillisen työkalun?

 

Itse olen todennut Acrobat Pro:n tekstintunnistuksen parhaimmaksi vaihtoehdoksi.

Jaa viesti


Link to post
Jaa muulla sivustolla

Luo uusi käyttäjätunnus tai kirjaudu sisään

Sinun täytyy olla jäsen osallistuaksesi keskusteluun

Luo käyttäjätili

Rekisteröi uusi käyttäjätili helposti ja nopeasti!


Luo uusi käyttäjätili

Kirjaudu sisään

Sinulla on jo käyttäjätili?


Kirjaudu sisään