Polona/Labs

Zabezpieczenie cyfrowe plików obrazów statycznych w Narodowym Archiwum Cyfrowym


    Zagadnienie digitalizacji jest nieodłącznie związane z ochroną zasobów cyfrowych. Narodowe Archiwum Cyfrowe dysponuje szeroką gamą wysokowydajnych urządzeń do digitalizacji fotografii, dokumentacji aktowej oraz mikrofilmów, które rocznie generują ponad 2 miliony kopii cyfrowych wysokiej jakości (ponad 600 skanów z oryginałów dziennie). Liczby te korespondują z rosnącym zapotrzebowaniem na pojemne repozytorium cyfrowe, łączące obszerną przestrzeń do głębokiej archiwizacji plików z relatywnie niskimi kosztami utrzymania systemu. Sprzeczność między wymogiem zapewnienia najwyższej możliwej jakości obrazów cyfrowych, a wysokimi kosztami rozbudowy macierzy dyskowych jest nierozerwalnie związana z przebiegiem procesu digitalizacji w archiwach państwowych i ma podłoże zarówno techniczne, jak i ekonomiczne.  Nowoczesne repozytorium cyfrowe stanowi jeden z dwóch filarów długoterminowej ochrony zasobów cyfrowych. Drugim jest utrzymywana i rozwijana przez Narodowe Archiwum Cyfrowe baza danych – Zintegrowany System Informacji Archiwalnej, w którym każda kopia cyfrowa otrzymuje opis archiwalny zgodny ze standardem EAD [ang. Encoded Archival Description]. Wszystkie państwowe zbiory archiwalne w Polsce są poddawane ewidencji oraz inwentaryzacji. System ten powstał w 2006 roku i od tamtego czasu podlega regularnym aktualizacjom. Odkąd digitalizacja uznana została za jeden z głównych kierunków działalności archiwów państwowych w XXI wieku, na Narodowym Archiwum Cyfrowym spoczęła odpowiedzialność za administrację i rozbudowę archiwalnego data center – Centralnego Repozytorium Cyfrowego Archiwów Państwowych. CRC AP pełni dwoistą rolę – z jednej strony stanowi głębokie archiwum, jako przestrzeń do zapisu cyfrowego kopii zabezpieczających, z drugiej – przechowywane są w nim kopie użytkowe udostępniane w internecie. CRC AP zostało zaprojektowane z myślą o archiwizacji formatów TIFF (master) i JPG (kopia użytkowa), a także metadanych opisowych zeskanowanych materiałów archiwalnych w formacie .xml. Od niedawna przechowuje również nagrania dźwiękowe w formacie WAVE PCM i MP3, a także dokumentację audiowizualną w formatach plików DPX i MOV (ProRes 422 HQ).

    U podstaw systemu długoterminowej archiwizacji zbiorów cyfrowych w Narodowym Archiwum Cyfrowym leży Archiwum Cyfrowe, które bazuje na rozwiązaniu Quantum StorNext, zakupionym przez NAC w 2015 roku i od tego czasu regularnie rozwijanym i aktualizowanym. Komponentami Archiwum Cyfrowego są urządzenia StorNext M662XL Metadata, wspomagające zarządzanie danymi, przełączniki SAN Brocade 6510, przełączniki 10G LAN, macierze dyskowe NetApp E5660 oraz serwer Dell PowerEdge R630 pełniący funkcję silnika bazy danych.

    Archiwum Cyfrowe chronione jest autonomicznym systemem przeciwpożarowym. Ponadto precyzyjna klimatyzacja utrzymuje odpowiednie warunki środowiskowe, zwłaszcza właściwą temperaturę i wilgotność powietrza. Zasilanie repozytorium pochodzi z dwóch niezależnych obwodów, wspomaganych dodatkowo przez centralne układy UPS. Każdy system produkcyjny jest uruchamiany w klastrze niezawodnościowo-wydajnościowym, który pozwala na pobór zasobów z innego serwera działającego w tym klastrze każdorazowo w przypadku awarii serwera natywnego. Dla każdego obrazu cyfrowego i nośnika taśmowego tworzone są dwie kopie zapasowe, przechowywane w dwóch odrębnych lokalizacjach. Środki te zostały zaimplementowane z myślą o konsolidacji wszystkich zasobów cyfrowych, zwiększonej pojemności repozytorium, centralizacji zarządzania danymi, poprawie bezpieczeństwa i możliwości masowej migracji danych niezależnie od rodzaju platformy i jej producenta. W 2017 roku Narodowe Archiwum Cyfrowe zaktualizowało system generowania kopii użytkowych. Oprogramowanie do konserwacji klastra maszyn wirtualnych – CommVault –  zostało zakupione wraz z biblioteką taśm LTO Scalar Quantum i6. Te działania pozwoliły NAC rozpocząć automatyczne tworzenie kopii użytkowych do wszystkich zachowanych plików master za pomocą narzędzia StorNext Storage Manager, które zastąpiło stosowany wcześniej skrypt konwersji kopii zabezpieczających przechowywanych na zewnętrznych twardych dyskach na kopie użytkowe do publikacji w internecie.

    Od 2019 roku łączna powierzchnia netto na przechowywanie danych w Archiwach Państwowych wynosiła 1 PB, podczas gdy ogólna wielkość całej produkcji cyfrowej ze wszystkich polskich archiwów państwowych przekroczyła 2,5 PB. Tylko w 2018 roku Narodowe Archiwum Cyfrowe przesłało 1 425 788 skanów do Centralnego Repozytorium Cyfrowego Archiwum Cyfrowego. Ilość ta odpowiada 1 334 TB kopii zabezpieczających i kolejnym 769 TB kopii użytkowych. Norma ta zachowana została również w 2019 roku. Wymienione powyżej dane wskazują na stale rosnącą potrzebę rozbudowy repozytorium cyfrowego, które musi nadążać za coraz szybszym tempem procesu digitalizacji. Interesujące jest to, że wspomniane powyżej 2,5 PB stanowią tylko 2,5% wszystkich zbiorów archiwalnych w Polsce, które zostały zdigitalizowane. Całkowita liczba produkowanych kopii cyfrowych, a także szybkość współczesnej cyfryzacji osiągana na wysokowydajnych skanerach, znacznie przewyższa możliwości rozrostu przestrzeni zabezpieczania cyfrowego, a chociaż koszty dodatkowych GB są dość niskie, gdy przeliczane na złotówki, to tempo wydatków na tenże cel znacząco uszczupla budżet instytucji. System Archiwum Cyfrowego bazuje na dwóch głównych katalogach – pierwszy dla kopii zabezpieczających w formacie TIFF, a drugi dla kopii użytkowych w formacie JPG. Wszystkie obrazy cyfrowe w formacie TIFF przekazywane do NAC przez archiwa państwowe w latach 2006-2018 na zewnętrznych nośnikach pamięci były poddawane masowej konwersji do formatu użytkowego JPG. W trakcie tego procesu specjalny skrypt generował z każdego pliku TIFF w wysokiej rozdzielczości trzy pliki JPG o różnych rozdzielczościach – 3500 pikseli dla powiększenia, 800 pikseli dla podglądu i 150 pikseli dla miniatury. Ów proces konwersji przeprowadzany był wyłącznie w środowisku Linux, ponieważ system Windows nie obsługiwał skryptów wykonawczych.

    Wydajność każdej konwersji wynosiła ok. 12000 kopii dziennie na dwóch komputerach Mac. Po zakończonej konwersji zewnętrzne nośniki pamięci z kopiami zabezpieczającymi były następnie podłączane do innej stacji roboczej w celu synchronizacji danych z serwerami. Ten szczególny etap cechowało największe ryzyko błędów. Jednocześnie wszystkie kopie użytkowe udostępnione online trafiały do tabeli zbiorczej, której edycja zajmowała jeszcze więcej czasu. W dalszej kolejności Oddział Programowania NAC rozpoczynał proces indeksacji oraz synchronizacji skanów z archiwalną bazą danych. Narastająca liczba skanów publikowanych kwartalnie w serwisie „Szukaj w Archiwach” wydłużała procesy indeksacji oraz synchronizacji, które ostatecznie wieńczył raport zawierający listę błędów, których korekta również była bardzo czasochłonna. Po realizacji wszystkich poprawek następowała druga indeksacja, w efekcie której nowo opublikowane skany łączone były z jednostkami archiwalnymi udostępnionymi już wcześniej w Internecie.

    Tak rozbudowany model zarządzania zasobami cyfrowymi polegał na głębokiej archiwizacji kopii zabezpieczających w CRC AP wraz z jednoczesnym zapisem kopii użytkowych oraz metadanych opisowych XML w Zintegrowanym Systemie Informacji Archiwalnej, skąd na dalszym etapie trafiały one do serwisu Szukaj w Archiwach, jednak nie zawsze wspomniane wyżej procesy przebiegały równolegle. W rzeczywistości w połowie 2018 r., podczas prac deweloperskich nad aktualizacją systemu ZoSIA zidentyfikowane zostały rozbieżności ilościowe między zawartościami katalogów kopii zabezpieczających i użytkowych. Ponadto pewna część skanów, które zostały udostępnione online, nie trafiła do bazy ZoSIA, ponieważ niektóre archiwa samodzielnie generowały kopie użytkowe z plików master i przesyłały te pliki oddzielnie. Zagadnienie to odzwierciedlone jest w liczbach.

    Na początku 2019 roku w Centralnym Cyfrowym Repozytorium Archiwów Państwowych zawierało 20 783 215 plików ze wszystkich archiwów (łącznie kopie wzorcowe i użytkowe), z których zaledwie 778 580 plików pochodziło wyłącznie z Narodowego Archiwum Cyfrowego. Zintegrowany System Informacji Archiwalnej – obecnie przechowuje 116 541 876 plików wraz z miniaturami, z których 29 135 469 plików to tylko kopie zabiezpieczające. W odpowiedzi na zaistniałą sytuację Narodowe Archiwum Cyfrowe sięgnęło po pewien prototypowy program, który opracowany został przez programistów NAC jeszcze w 2015 r. Narzędzie to miało na celu masowy transfer kopii zabezpieczających do CRC AP wraz z ich jednoczesną konwersją do plików JPG oraz zapisem w wybranym przez użytkownika katalogu w strukturze folderów odpowiadającej poziomom opisu archiwalnego w systemie ZoSIA, np. w konkretnej jednostce archiwalnej.

    Z biegiem czasu proces ten nabrał tempa, a w chwili obecnej obejmuje ok. 20000 skanów dziennie na czterech stacjach roboczych przeznaczonych wyłącznie do tej operacji. W 2019 r. Narodowe Archiwum Cyfrowe rozbudowało Centralne Repozytorium Cyfrowe Archiwów Państwowych, w tym bibliotekę taśmową, która została zwiększona do 400 nośników LTO-7 w 100 slotach. Wartość tej inwestycji wyniosła ok. 1 587 000 zł, a łączna przestrzeń zapisu cyfrowego osiągnęła 1,4 PB. Jednocześnie trwają prace nad Zapasowym Repozytorium Cyfrowym obejmujące relokację taśm LTO z najważniejszymi danymi do tego systemu. Jeden z głównych pomysłów na dłuższą dostępność wolnej przestrzeni bez konieczności zakupu nowych nośników do zabezpieczania cyfrowego bazuje na podziale zbiorów archiwalnych, obecnie tylko w NAC, na dwie kategorie – pierwsza dotyczy zdjęć o dużym znaczeniu historycznym, które zostaną zachowane w nieskompresowanym i bezstratnym formacie TIFF a w przyszłości być może RAW i DNG oraz pozostałe obrazy o mniejszym znaczeniu zarówno historycznym, jak i materialnym, które nie wykazują szczególnego znaczenia dla polskiej historii i narodowego dziedzictwa. Takie obrazy byłyby przechowywane w mniejszych plikach JPEG2000 zgodnie ze standardem JP2 Part 1, progresją RCPL i z kompresją bezstratną (o rozmiarze ok. 84,4 MB wobec 298 MB tego samego obrazu w formacie TIFF w 48-bitowym RGB i w rozdzielczości około 9000 x 5000 px). Obecnie ten format pliku nie został jeszcze zaimplementowany, jednak nawet wstępne testy wykazały znaczną oszczędność przestrzeni danych rzędu nawet 30%. Jeżeli ów format zostanie wdrożony do przechowywania wieczystego plików ze wszystkich archiwów państwowych, to nastąpiłby znaczny spadek kosztów utrzymania Centralnego Repozytorium Cyfrowego. Format JPEG2000 jest szczególnie atrakcyjny z punktu widzenia archiwizacji bardzo dużych ilości skanów dokumentacji tekstowej (ok. 80 000 kopii cyfrowych rocznie), które nie zawierają tak wielu szczegółów jak zdjęcia.

    Największe zidentyfikowane zagrożenie dotyczy kosztów oprogramowania do kodowania i dekodowania plików JPEG2000. W 2018 r. Narodowe Archiwum Cyfrowe przeprowadziło testy jakości JPEG2000 w różnych stopniach kompresji przy użyciu wersji programu KAKADU i chociaż wyniki były satysfakcjonujące pod względem zaoszczędzonego miejsca, koszty pełnej licencji przekroczyły możliwości budżetu NAC. Jak wspomnieliśmy wcześniej, Narodowe Archiwum Cyfrowe opracowało centralną, archiwalną bazę danych – Zintegrowany System Informacji Archiwalnej. Prototyp ZoSIA uruchomiony został w czerwcu 2007 r., gdy digitalizacja dopiero wkraczała do Polski, a już w rok później został wdrożony w dwóch archiwach państwowych – w Lublinie i w Poznaniu. Przez kolejne dziesięć lat ZoSIA była zaledwie jedną z kilku archiwalnych baz danych, stopniowo wdrażaną w kolejnych polskich archiwach. Dopiero od 2017 r., po rocznej migracji danych z innych systemów, stanowi jedyną, scentralizowaną bazę danych dla wszystkich archiwów państwowych. Zintegrowany System Informacji Archiwalnej przez prawie dwie dekady był rozwijany na otwartej architekturze Python, która w 2019 r. była już nieco przestarzała. Obecnie jest przepisywany na nową architekturę. W bieżącej formie system stanowi bazę danych klient-serwer zainstalowaną na zasobach sieciowych CRC AP. Każde archiwum jest oddzielną instancją w systemie, jednak osoby ze specjalnymi uprawnieniami administratorskimi mają wgląd do zbiorów wszystkich jednostek terytorialnych. Rdzeń systemu stanowi baza PostgreSQL, która zostanie zachowana w przyszłych iteracjach.

    W 2018 r. zeskanowanych zostało 37 748 fotografii, podczas gdy do Zintegrowanego Systemu Informacji Archiwalnej dodano zaledwie 2876 wraz z metadanymi opisowymi XML (i kolejne 94 309 rekordów w plikach .xml dodanych bez skanów). Rozbieżność ta wynika z priorytetu retrokonwersji zbiorów archiwalnych, czyli publikacji odręcznych opisów oryginalnych obiektów fotograficznych w archiwalnej bazie danych. W 2019 r. zeskanowanych zostało kolejne 55 000 zdjęć, które będą oczekiwać na metadane deskryptywne aż do realizacji priorytetów inwentaryzacji najważniejszych materiałów archiwalnych ze zbiorów NAC. Konsekwencją jest nadmierna podaż kopii cyfrowych przechowywanych na zasobach sieciowych poza cyfrowym repozytorium. Dlatego już teraz Narodowe Archiwum Cyfrowe prowadzi dalszy rozwój programu do masowego uploadu kopii cyfrowych na dużą skalę i nad zapisem cyfrowym w formacie JPEG2000. Równolegle do procesu deweloperskiego Zintegrowanego Systemu Informacji Archiwalnej w latach 2017 -2019 trwała modernizacja serwisu Szukaj w Archiwach – zewnętrznego interfejsu archiwalnej bazy danych, dostępnego dla wszystkich użytkowników. Oprócz najbardziej widocznych zmian projektu graficznego portal został przebudowany na zupełnie nową architekturę opartą na systemie zarządzania contentem LifeRay z dodatkiem kilku funkcji społecznościowych, skierowanych do zupełnie nowych odbiorców. Przez wiele lat Szukaj w Archiwach była główną archiwalną platformą internetową dla publikacji internetowych, głównie tekstowych, które przyciągnęły genealogów i historyków. Jednocześnie system nie pozwalał na udostępnianie zdjęć, nagrań dźwiękowych i treści audiowizualnych. Zmieniło się to w nowej iteracji, która została oddana do użytku w czerwcu 2019 r.

    Wszyscy użytkownicy Szukaj w Archiwach mogą przeglądać wszelkiego rodzaju treści archiwalne, wykonywać podstawową edycję zdjęć i zapisywać swoją pracę na komputerze. Ponadto wszyscy użytkownicy mogą tworzyć własne kolekcje, a co jeszcze wygodniejsze – zamawiać cyfrowe kopie w wysokiej rozdzielczości online. Z drugiej strony archiwa mogą tworzyć własne kolekcje złożone z najpopularniejszych lub najcenniejszych obiektów archiwalnych, umieszczać swoje niezidentyfikowane materiały, na przykład zdjęcia, w specjalnej strefie identyfikacji, gdzie mogą je rozpoznać użytkownicy zewnętrzni. Wszystkie informacje dostarczone przez tych użytkowników są weryfikowane przez archiwistów i, jeśli są wiarygodne i poprawne, zostają dołączone do opisów archiwalnych. Ta funkcja jest szczególnie przydatna dla archiwów, które dość często docierają do swoich obserwatorów w mediach społecznościowych, aby uzyskać pomoc w identyfikacji wielu nieznanych zdjęć. Wszystkie funkcje społecznościowe nowej wersji platformy Szukaj w Archiwach z jednej strony umożliwiają użytkownikom wkład w zawartość treści portalu, a z drugiej strony – przyciągają nowych odbiorców z różnych grup, które nie były tak aktywne w poprzedniej wersji portalu. Obecna wersja portalu Szukaj w archiwach zawiera 37 939 361 skanów, a ich liczba stale wzrasta, gdyż w rezultacie zmian Archiwa Państwowe same zarządzają publikacją swoich zasobów.

    Wszystkie powyższe technologie konstytuują stos technologiczny Narodowego Archiwum Cyfrowego, który składa się z różnych komponentów związanych z cyfrowym zabezpieczaniem plików zdjęć i zasobów cyfrowych jako całość. Te elementy to np. Red Hat Enterprise Linux / Oracle Linux / Debian – które są mieszanką otwartych i licencjonowanych systemów, mających na celu utrzymanie wysokiej wydajności aplikacji w rozproszonym środowisku, a także utrzymania bezpieczeństwa i niezawodności aplikacji, które muszą być odporne na duże przeciążenia; VMWare Data Center Virtualization and Cloud Infrastructure, VMWare Virtual Center – komercyjna platforma do konsolidacji serwerów i tworzenia centrów przetwarzania danych. Pozwala na półautomatyczne zarządzanie infrastrukturą wirtualną opartą na serwerach ESX i GSX; Enterprise Data Base Postgres / Postgres –  platforma komercyjna / GNU oparta na otwartej bazie danych PostgreSQL z bezpłatnymi narzędziami do zarządzania, integracji i migracji danych; LifeRay Portal CE – otwarta wersja GNU platformy Enterprise LifeRay dla rozwiązań biznesowych, która zapewnia długoterminową niezawodność; Biblioteki Apache CXF i JAX-B dla aplikacji Spring i biblioteki Hibernate; ElasticSearch SO / LR – rozproszony mechanizm wyszukiwania i analizy zdolny do rozwiązywania stale rosnących przypadków użycia. Zapewnia zautomatyzowaną poziomą skalowalność oraz wyższą wydajność przeszukiwania indeksów; Wildfly Loadbalancing oparte na technologii Undertow; Pentaho Enterprise Edition (EE)/Apache KYLIN, Tibco JasperServer do integracji danych, usług OLAP, eksploracji danych, raportowania, ekstrakcji, modyfikacji i ładowania (ETL).

    Przed archiwami cyfrowymi i wszystkimi archiwami państwowymi w Polsce stoi ogromna liczba wyzwań. Nowe osiągnięcia zarówno w zakresie digitalizacji, jak i konserwacji cyfrowej torują drogę nowej, „cyfrowej” metodologii obsługi archiwów. Rola Narodowego Archiwum Cyfrowego jest jeszcze bardziej istotna i dominująca dla standardów i wytycznych, systemów zarządzania danymi i zasobów cyfrowych, które są tworzone, rozwijane lub wdrażane i będą miały wpływ na całą sieć archiwalną w Polsce.

    Współautorem tekstu jest Mateusz Bolesta z Narodowego Archiwum Cyfrowego.

    ◊◊◊

    Artykuł powstał w ramach realizacji przez Bibliotekę Narodową projektu „Patrimonium – digitalizacja i udostępnienie polskiego dziedzictwa narodowego ze zbiorów Biblioteki Narodowej oraz Biblioteki Jagiellońskiej” współfinansowanego ze środków Europejskiego Funduszu Rozwoju Regionalnego w ramach Programu Operacyjnego Polska Cyfrowa 2014-2020 oraz budżetu państwa.

    ◊◊◊

    Dofinansowano ze środków Ministra Kultury i Dziedzictwa Narodowego.