Sdružení knihoven ČR
Předseda:RNDr. Tomáš Řehák
Sídlo:Mariánské náměstí 98/1, 110 00 Praha 1
Tel./Fax.:+420 222 113 456/+420 734 684 729
IČ:70282170
DIČ:CZ70282170 - nejsme plátci DPH
Číslo účtu:2300910355/2010, Fio banka a.s.
   

Zápis z jednání IT sekce SDRUK

Zápis z jednání sekce IT SDR­UK Havlíčkův Brod, 9. - 10. 6. 2005

Přivítání Tomáš Gec (Krajská knihovna Vysočiny Havlíčkův Brod)

Úvodní slovo Tomáš Řehák (Městská knihovna v Praze)

  • úkolem nově vznikající sekce informatiků je vytvořit poloformální sdružení lidí z oblasti IT v různých krajích, navázat kontakty pro další formy spolupráce
  • momentálním tématem je vytvoření základních doporučení pro postupy při digitalizace dokumentů

Adolf Knoll: Digitalizace

  • data X metadata
  • kvalita dat je dána účelem pro který jsou pořizována
  • náhrada originálu (archivace audia, videa)
  • nekomprimovaná data
  • možnost vytvoření budoucí kvalitní reprodukce
  • případně i únosně ztrátově komprimovaná data (MPEG, JPEG)
  • zajištění širšího přijatelného zpřístupnění
  • přijatelný stupeň komprese
    • řešitelistrátor projektu odpovídá za kvalitu úměrnou cílům projektu
  • kvalita dat záleží na
  • kvalitě originálu
  • kvalitě analogového signálu
  • subjektivním vnímáním věrnosti podání
  • metadata podle pravidel pro popis objektů
  • informace o celku i o jeho autonomních částech
  • metadata pro rozlišení fyzických a logických částí (vyznačení stránkování atd.)
  • doplňková metadata - technické parametry, rozšířený fyzický popis

Složené dokumenty - obsahují data i metadata (na platformě SGML/XML)

Co je třeba:

  • domluvit se na struktuře komplexních digitálních dokumentů
  • vybrat z nástrojů k dispozici:
  • M-Edit (volně k dispozici: msnkaip.dtd)
  • editory na bázi XMetal pro Kramerius
  • Sirius (Elsyst Engineering)
  • něco jednoduchého, aby mohl dokumenty vytvářet a používat každý

Dotazy:

  • staráme se jen o digitalizaci analogových materiálů, nebo i práci s již digitálními daty? současně dobré řešit snadné zpřístupňování digitálních dokumentů.
    • akutní zadání je primárně digitalizace, souvislosti je nicméně jistě dobré neopomenout
    • pracovní pole nemůžeme neomezeně rozšířit, abychom udrželi myšlenku
  • pro jaký účel chceme digitalizovat?
    • "amatérsky" nebo "profesionálně"
  • pravidla pro digitalizaci musejí být pro každého přijatelná, jednoduchá a stravitelná, jinak se cesty dříve či později rozdělí

Bohdana Stoklasová

  • pokusit se vyhnout slepým uličkám, jakou bylo ve své době rozhodnutí pro UNIMARC
  • aspekt uložení dat - vzniká idea centrálního datového úložiště, které bude outsourcováno a bude mít prostor pro expanzi

Petr Žabička: Manuscriptorium

  • jakým způsobem vkládat nové dokumenty? v tuto chvíli zařazuje pouze Albertina, to je drahé a pomalé - tudy ne.
  • technická metadata - problém s editací už jednou vytvořeného XML
  • měla by existovat možnost odkazovat se zvenčí na přesné místo v této digitální knihovně
  • komunikace v protokolech Z39½ a OAI (protokol pro přenos metadat ve formátu XML nad HTTP)

Diskuse

Manuscriptorium představuje poměrně speciální záležitost, ne všechny pravidla aplikovaná zde jsou užitečně aplikovatelná i pro další projekty digitalizace - lepší základnu zde představuje spíše projekt Kramerius.

Máme 4 skupiny standardů:

  • digitálních objektů
  • metadat (popisná / technická)
  • složených objektů
  • komunikačních protokolů

Jednotlivé cykly digitalizace?

  1. vznik digitálních dat
  2. vznik metadat
  3. zpřístupnění
  4. archivace

Je dobré je diskutovat odděleně.

1. vznik digitálních dat

Bavíme se především o masové digitalizaci běžných knih a periodik.

Obrazové formáty:

  • většina dat se ukládá v mírně komprimovaném JPEG
  • DjVu
    • formát původně vyvinutý AT&T, originální konvertor dosud poskytován na komerční bázi, ale existuje opensource komunita, jejíž konvertory a pluginy pro různé platformy fungují uspokojivě
    • jiná metoda oblbování smyslů, významně datově úspornější (oproti JPEG 1:5 - 1:10)
    • nevýhoda: není tak obecně rozšířeno a podporováno jako např. formáty JPEG, PDF
  • konverze JPEG >> DjVu jde dobře, obráceně dochází k podstatnému zhoršení kvality

Doporučení: Ukládat mírně komprimovaný JPEG (ekvivalent komprese 5 v Adobe Photoshopu)

Techniky pořízení dat:

  • různé technologie pro různé typy dokumentů
  • digitalizace textu v kvalitě použitelné pro OCR
  • budou specifikována doporučení kvality pro jednotlivé typy dokumentů a jednotlivé typy užití

Typy zařízení:

  • book scannery
    • jeden typ obrací poměrně nešetrně, velmi drahé zařízení neúsporných rozměrů
    • druhý typ scanuje dokumenty do formátu A4, cena i velikost řádově nižší (cena do 1MKč, velikost srovnatelná s běžnou kopírkou)
    • další typy využívající digitální fotoaparáty, cenově zase více dostupné
  • maloformátové scannery, výstupy se pak mohou pospojovat
    • evné scannery ovšem barví dožluta či jinak
  • digitální fotografie
    • stejně podstatné jako rozlišení čipu také použitá kvalita objektivu
    • třeba místnost s teplotně stálým, rovnoměrným osvětlením

2. vznik metadat

Jak moc hluboko vlastně chceme definovat standardy metadat? Chceme popisovat i např. názvy kapitol v rámci dokumentu, jeho částí atd.?

Jedna možnost je definovat popis dokumentu složený následovně:

  • obecná metadata popisující dokument
    • UNIMARC či MARC21
  • metadata o vazbách v dokumentu (jak na sebe vážou jednotlivé části, kapitoly, stránky)
  • metadata obsahující informace o přístupových právech k jednotlivým částem dokumentu
  • technická metadata

Jsou tři struktury pro komplexní zapis metadat - Kramerius pro knihy a periodika definovaný NK ČR, METS (Metadata Encoding Transmission Scheme)
definovaný Kongresovou knihovnou (pravděpodobně budoucí světový standard) a MPEG21-DIDL (Digital Item Declaration Language).

Migrace mezi nimi by měla být realizovatelná "se ztrátou malých kytiček". Největší problém při výměně ale nebývá jiný formát, ale špatně respektované katalogizační postupy.

Počáteční náklady nutné k digitalizaci do Krameria, se pohybují v řádu několika desítek tisíc korun.

Pokud by NK v budoucnu chtěla používat digitální knihovnu, do které by obecně přijímala digitální dokumenty definovaného standardu včetně metadat a zpřístupňovala je, našli by se jistě knihovny, které by to uvítaly.

Digitalizace by měla u některých typů dokumentů probíhat velmi masově - i popis digitalizovaného dokumentu v metadatech by tomu měl odpovídat časovými nároky.

Doporučení: Kramerius není špatně, ostatní řešení by se měly snažit být s ním kompatibilní alespoň na úrovni výstupů a sdílení dat.

3. zpřístupnění

  • může být užitečné mít několik digitálních kopií dokumentu (například v různých formátech), systém popisu s tím musí počítat
  • tam, kde to je možné, je jistě žádoucí aplikovat OCR
    • kdo? asi není efektivní, aby si OCR SW kupovaly všechny knihovny

Doporučení k jednoznačné identifikaci objektů (také standardy pro názvy jednotlivých obrazových souborů) dodá právě vzniklá pracovní skupina: NK, MZK Brno, VK Olomouc.

4. archivace

Archivaci digitálních dat může minimálně v blízkém výhledu obstarat NK. Digitalizovaná data je ostatně stejně třeba ukládat ve více kopiích na různých místech.

Digitalizované dokumenty dodávané s nějakou aplikací zpřístupňující jednotlivé obrazové záznamy, musejí být použitelné i BEZ této aplikace - musí být definováno nějaké kompatibilní rozhraní, které musejí všechny tyto dokumenty splňovat.

Standardizovat bude třeba v souladu s českým právem i smlouvy a dodatky smluv stran budování a užívání digitálních archivů.

Archivace na diskových polích - i levných, lépe než na DVD discích (nutné multiplikáty, monitorování jejich stavu...).

Petr Žabička: webové sklizně Digitally-born dokumentů

  • sklizeň omezeného množství serverů několikrát ročně, celoplošná sklizeň obvykle 1x ročně - přes určité technické komplikace přináší vždy poměrně značné množství nových dokumentů
  • je poměrně náročné stažené články indexovat
  • momentálně není možné je dále zpřístupnit
    • ani v budoucnu nebude možné uvolnit všemi způsoby, ale bude třeba vyhledávat a studovat v knihovně (archivní režim)
  • google má doporučení jak označit části webu, které jsou z hlediska vyhledávání dokumentů více nadějné, lze to u něj zaregistrovat
  • Apache by měl umět komunikovat přes OAI - např. vypsat seznam článků od určitého data - usnadnění pro získání nových článků při web sklizních

Diskuse:

  • Jak zajistit, že sklizené dokumenty nejrůznějších formátů půjdou za několik let prohlédnout?
    • To úplně nezajistíme - prohlédneme si to, co bude ve standardních formátech nebo na co třebas v rámci sklizně také stáhneme soft.
    • stálo by za to vydat doporučení s autoritou NK, kde by byla určitá definice jak publikovat dokument, aby se mohl stát součástí kulturního dědictví a bylo ho lze přečíst i po delší době
  • prezentace, zprávy ze služebních cest - zůstávají v rámci organizací a po nějakém čase se ztratí

ad Kramerius: mělo by být možno přistoupit s více formáty, ty budou jednak konvertovány do hlavního formátu, na kterém je úložiště postavené, ale také zůstanou v tom formátu, ve kterém přišly (například MARCu).

Doporučení: Je třeba mít širší dlouhodobou vizi Národní digitální knihovny. Rychlost její implementace bude záviset na rozpočtových možnostech. I z toho důvodu je třeba celý koncept budovat jako maximálně modulární, tak, aby bylo možné spojovat dohromady moduly (SW, datové) z různých zdrojů.

Přehled současných digitalizačních aktivit:

  • MKP: Věnuje se digitalizaci vzácných a historických dokumentů již více jak 4 roky. Účast v projektech VISK 6 a VISK 7. Digitalizováno: Pražská bible, Orientační plán Prahy z roku 1938 (plán je doplněn interaktivním rejstříkem ulic a objektů) + další dokumenty. V rámci vlastního projektu Paměť Prahy bude v tomto roce z programu VISK 6 digitalizován Věstník královského hlavního města Prahy. Plánují vytvoření vlastního digitalizačního pracoviště.
  • Ostrava: digitalizovat regionální noviny z z 19/20st., v knihovně už program digitalizace probíhá. Starších knih bude mít knihvona málo, leda sbírat po klášterech a farách.
  • Brno: digitalizuje se u Albertiny v rámci VISK6. Třetím rokem se fotí při zpracování titulní listy zpracovávaných starých tisků, zpracovávají se staré grafické sbírky. Pořízené digitální podoby se čtenářům zpřístupňují na požádání i na CD.
  • Olomouc: zatím chybí digitalizační pracoviště, nějakými digitálními podobami nicméně disponují, jest začlenit do systému, dořešit zpřístupnění.
  • Karlovy Vary: zatím chybí digitalizační pracoviště, dobré by bylo se zaměřit především na staré regionální tisky a periodika.
  • Kladno: zatím nedigitalizuje, uvažuje o region. periodikách staršího data a několika monografiích. Není dořešena otázka zpřístupnění - dosavadní úvahy spíše počítají s menším objemem digitálního materiálu. Tím spíše je vítaná spolupráce s centrálním úložištěm pro ukládání i zpřístupňování.
  • Liberec: digitalizace především v souvislosti s ochranou fondu (region. periodika a monografie), digitalizují se mikrofilmy (již asi 40 ročníků vybraného periodika) z VISK7. Problém je vhodné vyhledávání. Digitalizace vlastními silami se připravuje.
  • NK: probíhá digitalizace periodik do Krameria, cílem je provázat s JIB. Asi 150 strukturovaných historických textů v jiném formátu by se mělo zařadit během letošního roku. Probíhá několik dalších projektů, jednání s dalšími i zahraničními partnery. Plán vytvořit verzi 2 Manuscriptoria, začlenění do Evropského projektu.
  • Zlín: tento rok se bude digitalizovat Zlínské periodikum - získání praktických zkušeností. Zapojení do Krameria.
  • Hradec Králové: jsou digitalizovaná periodika (outsourcing), řeší se zpřístupnění a začlenění do Krameria. Samostatně se s digitalizací seznamují, pracoviště by ve výhledu mohlo a mělo vzniknout.

Závěr

Problémem jsou technické nástroje k prohlížení a možnosti zpřístupňování z hlediska autorského práva.

Doporučení: jest věnovat zvýšenou péči autorským aspektům procesu digitalizace.

Na téma digitalizace se sekce IT SDRUK sejde cca za půl roku, či v říjnu. Kromě toho vznikne emailová konference účastníků tohoto setkání.

Vyjde-li najevo další zajímavé téma, sejdeme se podle potřeby.

­
PR akademie
Copyright © 2016 Sdružení knihoven ČR Tvorba www stránek Winternet