Igiho knižnica - poznámky1.

By Administrator at júna 02, 2019 07:30
Filed Under: Atari

Než budem pokračovať ďalej v uverejňovaní ďalších spravodajov a ich príloh by som rád napísal pár riadkov k tomu ako to robím a s akými problémami sa stretávam a potýkam:


- rozložím spravodaj na jednotlivé stránky (no problem, sú moje)

- naskenujem ich na formát A5 v rozlíšení 150dpi (farebná predná strana), na 300dpi vlastná

  strana obsahu (toto je už v čb), ukladám vo formáte tif (cca 4.3Mbyte strana)

- následne to pozriem v Adobe Photoshop, orežem, čiže pekne ručne jednu stránku po druhej

  (uložím to zase v tife)

- preženiem to cez IrfanView, ktorý potom z toho urobí png súbory z rozlíšením 800 x 1200

  (potom má stránka veľkosť cca 230 až 500kB)

- potom ešte jednotlivé strany preženiem cez bitmapový editor, metódou IRDC (Igiho Ručné

  Digitálne Čistenie), kde sa to snažím vyčistiť od všelijakých drop-outov a škrábancov

  (následne si takéto vyčistené png súbory pre jedno číslo v zipe aj odkladám)

- až potom vyrobím z jednotlivých strán výsledný pdf súbor, ktorý tak isto ide von v 300dpi

 

Niekedy to ide dobre (teda je to naozaj dosť prácne, ale stojí to za to) vyčistiť, niekedy to vzdávam a nechám stranu v pôvodnom stave pretože vyčistenie by bolo extrémne náročné. Nuž píšem to tu pre to, aby ste vedeli že je s tým dosť roboty a ak to vzdám tak to naozaj jednoducho prečistiť nejde. S OCR sa mi robiť nechce, pretože výsledok je mi dopredu jasný - niekomu sa nepodarí niečo prečítať a dostať to do počítača a tak teda nasledovala by reklamácia, na koho - je celkom vec predvídateľná. Sorry, ale toto fakt nepotrebujem - a rozhodne mi to nechýba.

 

Na niektorých číslach sa podpísala "ľudová tvorivosť", hlavne na prednej stránke, kde je hrubým fixom napísaný obsah čísla - tak toto mi na reštaurovanie dá zabrať asi najviac, aby som to digitálne odstránil (zase metódou IRDC, "výrobný postup" si nechám pre seba) a uviedol to tak do pôvodného stavu. Ale ako vždy, škoda veľa slov, idem na ukážku (a že takto "upravených" predných strán mám celkom dosť):


Miestna ľudová tvorba

"podpísaná"

na prednom obale.

 

Nevyzerá to takto lepšie ?

 

A pozrime si ako to občas vyzerá po skenovaní ak je už predloha vekom naozaj žlto-hnedo zafarbená  (toto už lepšie nespracujem ... - toto je už neskoršia, dodatočná poznámka - teda toto som si myslel v okamžiku písania tohoto článku, ale našťastie som sa mýlil):

 

 

Aj v nasledujúcom čísle bude pár stránok horšej kvality (dodatočná poznámka: nebudú, podarilo sa mi to opraviť), proste je tam použitý horší papier na niektoré stránky a nie vždy mám zdvojené všetky materiály - aj tak vždy vyberám a skenujem z toho lepšieho čo mám k dispozícii. Nakoniec - aj tak sa to dá bez väčších problémov prečítať, akurát vďaka šedému podkladu je potom výsledný súbor o poznanie väčší ako keď je podklad čisto biely. No ale čo s tým, varím z toho čo mám k dispozícii. Celý tento pokec smeruje len k tomu aby som vysvetlil prečo občas kvalita skenu je tak premenlivá že ma až samého zaráža aké sú rozdiely v kvalite v tom samom jednom čísle.


Toľko na vysvetlenie.

Momentálne spracovávam 4 prílohy z roku 1988, ktoré samozrejme budú onedlho uverejnené. Keď to robím takto v dávkach tak ma to baví viac ako keď sa snažím robiť jedno samostatné číslo.

___________________________________________________________

Ešte dnes som dostal od Pavla postup, jednoduchý, ale ako to býva - jednoducho som si na takýto postup ani nespomenul ... asi v tom už sedím príliš zažrato, naozaj to berie "strojový čas" celkom dokonale. Laughing

Igi,
keď sa stiahnu nízke hodnoty sivej na nulu (alebo aspoň blízo nuly), ostane podklad biely. Potom sa dajú vytiahnuť písmená do tmavej, až do čiernej. Pri príliš veľkom skoku trochu utrpia obrysy písmen, ale stále zostanú dobre čitateľné.
Pavel.

Moja poznámka:

Jednoduché, účinné a 100%-ne funkčné. Vďaka !!!

_____________________________________________________

Vaše hodnotenie, Rate post:

Comments

2. 6. 2019 9:31:20 #

Pavel

Klobúk dolu. Viem, čo sa človek nasedí pri počítači ešte z čias, keď bolo treba vyretušovať fotky skenované z negatívov. Igi, predvádzaš záslužnú prácu.
Pavel.

Pavel Slovakia |

2. 6. 2019 10:45:21 #

Admin

Pavel, vďaka zaTvoj komentovaný postup ako si pomôcť, naozaj to funguje na jednotku. Paráda !!!

Admin Slovakia |

3. 6. 2019 10:25:33 #

trackback

Directory  Atari.

Directory  Atari.

Igi blog |

3. 6. 2019 12:38:24 #

jirka

Dobrá práce.
V případě lepší kvality zdroje by stálo za to výsledné PDF ještě prohnat OCRkem - alespoň na automatiku - aby bylo možno v tom dokumentu vyhledávat, nebo z něj třeba vykopírovat nějaký fragment textu.
Nejde to sice aplikovat u jakéhokoli zdroje - resp. nemá to valný smysl - např. u starých materiálů tištěných na jehličkové tiskárně nebo pokud je třeba text bez diakritiky. Pak je chybovost rozpoznání obrovská a automatické OCR nemá smysl.

Nicméně zkusil jsem takto prohnat třeba Tvůj ZAK Praha 88/5 a výsledek je poměrně dobrý.
Dal jsem to pro posouzení do úschovny, ale nevím, jestli při uvedení adresy nespadne tento komentář do spamu - zkusím to:
www.uschovna.cz/zasilka/NIPG4NUP2Y8PULVG-GJC/

jirka Czech Republic |

5. 6. 2019 8:36:59 #

Admin

Stiahol som si to. Všetky komentáre sú moderované ručne, pretože automatika hádzala všetko do koša ako spam. Pozerám to tak 1x denne, preto môže chvíľu trvať než sa komentár objaví na webe. Ďakujem !

Admin Slovakia |

5. 6. 2019 10:14:46 #

Radim Polasek

ano, s0ouhlasim a uz jsem to kdysi @igorovi rikal, ze ocr by se hodilo, ale respektoval jsem, ze se mu s tim nechtelo travit vice casu, nez je potreba. kdyby prece jenom nahodou ano, pak mam velmi dobre zkusenosti s touhle utilitkou - ocrmypdf.readthedocs.io/.../introduction.html

Radim Polasek Czech Republic |

4. 6. 2019 22:34:27 #

Radim Polasek

@igor, toto je skvela prace a velke diky za to, ze obetujes svuj cas na tak chvalyhodnou cinnost, jako je scanovani teto literatury. diky!

Radim Polasek Czech Republic |

5. 6. 2019 8:39:30 #

Admin

Radime, vďaka!

Ja mám tých ZAK Praha tuším okolo 48kusov, mám dohodnuté (možno to vyjde) doplnenie na všetky čísla čo vyšli, to by bolo bolo fak dobré, len to celé chvíľu potrvá ...

Admin Slovakia |

Info o autorovi

Volám sa Igor Gramblička, bydlisko: Bratislava, Slovakia. Môj nick: Igi. Blog je o mojich záujmoch, predtým som pracoval ako IT špecialista na počítačové siete a redakčné systémy pre viaceré denníky - až som pred rokmi nakoniec v jednom z nich zakotvil a kde som to potiahol až do konca mojej profesnej kariéry.

Rok, mesiac, počet článkov: