Polona/Labs

Długotrwałe przechowywanie informacji cyfrowej w pytaniach i odpowiedziach


    Po co przechowujemy informacje?

    W tradycyjnej bibliotece czy archiwum cel przechowywania książek i dokumentów jest tak oczywisty, że takie pytanie brzmi wręcz niestosownie. Przechowujemy je, żeby móc odczytać zawarte w nich informacje: tekstowe, graficzne czy dźwiękowe. Tak samo można odpowiedzieć na pytanie o cel przechowywania informacji cyfrowej – chcemy móc ją odczytać w przyszłości.

    Jak długo chcemy przechowywać informacje?

    To zależy od rodzaju informacji. Na ogół przepisy prawne określają wymagany czas przechowywania wielu typów dokumentów, na przykład pracowniczych, finansowych, medycznych. Zazwyczaj wynosi on od kilku do kilkudziesięciu lat. Niektóre dokumenty przechowuje się nawet wieczyście (na przykład hipoteczne, geodezyjne, dokumenty stanu cywilnego itd.). Dobra kultury przechowujemy zazwyczaj długo, także po to, by je zachować dla przyszłych pokoleń. Podobnie można formułować zakładane terminy przechowywania w przypadku informacji cyfrowej.

    Co przechowujemy?

    Zauważmy, że aby przechować informacje zapisane na tradycyjnych nośnikach, przechowujemy te właśnie nośniki: dokumenty zapisane na papierze, fotografie (negatywy i pozytywy, na podłożu szklanym, papierowym i na taśmie), płyty z zapisem dźwięku, taśmy magnetyczne na szpulach i w kasetach, z dźwiękiem i/lub obrazem.

    W przypadku informacji cyfrowej teoretycznie można postępować podobnie , to znaczy przechowywać nośniki cyfrowe z zapisaną informacją (na przykład dyskietki i dyski magnetyczne, płyty CD-ROM, pamięci półprzewodnikowe) podobnie jak nośniki tradycyjne, na przykład kładąc je na półce i odczytując wtedy, gdy potrzebujemy danej informacji. Jednakże doświadczenia kilkudziesięciu ostatnich lat wskazują na to, że informację przechowywaną w taki sposób można utracić i to stosunkowo szybko.

    Jak długo udaje się przechowywać informacje na tradycyjnych nośnikach?

    Dawne dokumenty papierowe, rękopisy i książki, mogły być przechowywane po kilkaset lat i dłużej bez specjalnych zabiegów. Można powiedzieć, że przyzwyczaiło nas to do podobnych oczekiwań wobec wszystkich dokumentów. Jednak nowsze dokumenty papierowe oraz inne nowe typy dokumentów okazały się mniej trwałe. W wielu przypadkach zaobserwowano procesy degradacji nośników grożące utratą zdolności odczytania informacji z dokumentów. Znanym przykładem jest tzw. kwaśny papier, który zaczął być produkowany od połowy XIX wieku. Wydrukowane na nim gazety i książki mogą się po prostu rozpaść. Procesy degradacji dotykają też tradycyjnych materiałów fotograficznych oraz magnetycznych taśm dźwiękowych i wideo. W ich przypadku przyczyną są materiały początkowo stosowane do ich wytwarzania. Niektóre z taśm po dłuższym czasie (kilka, kilkadziesiąt lat) mogą nie dać się odczytać ze względu na odrywanie się warstwy magnetycznej od podłoża. Oprócz tak radykalnej degradacji, która uniemożliwia odczyt, występują procesy stopniowego pogarszania się jakości materiału dźwiękowego lub filmowego (szumy, szarzenie zdjęć, zmiana barw). Niektóre z tych procesów udaje się spowolnić dzięki zapewnieniu odpowiednich warunków przechowywania, na przykład w niskich temperaturach, podnosi to jednak koszty przechowywania.

    Jak można zabezpieczać informacje na tradycyjnych nośnikach?

    Jedną z metod zabezpieczania dokumentów zagrożonych degradacją jest ich kopiowanie. Nie chodzi tu o kopiowanie w sensie fizycznym, czyli tworzenie duplikatów, lecz o tworzenie kopii zachowujących informacje zawarte w dokumencie oryginalnym. Korzystne jest, gdy kopia zajmuje mniej miejsca niż oryginał, a zarazem jest możliwie dokładna.

    Jednak te dwa cele okazują się przeciwstawne, więc rozwiązania praktyczne muszą być oparte na kompromisie. Udaną formą kopiowania dokumentów papierowych były mikrofilmy, wykorzystujące materiały o dużej trwałości w porównaniu z tradycyjnymi. Za znacznie wygodniejszą formę uznano sporządzanie kopii cyfrowych, pomimo nader ograniczonej trwałości zapisu cyfrowego na używanych nośnikach. O zaletach kopii cyfrowych decydowała łatwość operowania nimi, a w szczególności łatwość sporządzania kolejnych kopii, ich porównywania itp.

    Jakie informacje cyfrowe są przechowywane?

    W bibliotekach i archiwach można mieć do czynienia z różnymi rodzajami informacji cyfrowych. Jeden typ to kopie (na przykład zdjęcia lub skany) dokumentów fizycznych przechowywanych w instytucjach kultury. Kopia może służyć do zabezpieczania zagrożonego dokumentu, a także do udostępniania zawartej w nim informacji (niezależnie od tego, czy sam dokument jest zagrożony, czy nie). Drugi typ to obiekty cyfrowe, które nie są kopią przechowywanych dokumentów, nie mają fizycznie istniejącego pierwowzoru, lecz zostały utworzone od razu w postaci cyfrowej (angielska nazwa born digital mówi o ich cyfrowych narodzinach). Mogą to być nowo powstające książki lub czasopisma. Mogą zawierać opisy bibliograficzne bądź dokumenty tekstowe przekazywane do archiwizacji, na przykład pocztę komputerową. Wreszcie mogą pochodzić z cyfrowych nagrań dźwiękowych albo wideo, a także z różnego rodzaju pomiarów dokonywanych za pomocą przyrządów. Nagrania dźwiękowe i wideo mogą być produktem komercyjnym, który został wyprodukowany w wielu kopiach, ale mogą też być wytworem jednostkowym. Dane pomiarowe niejako z natury mają charakter jednostkowy. O ile utrata obiektu pierwszego typu może czasem dać się naprawić przez powtórne sporządzenie kopii przechowywanego obiektu fizycznego, o tyle utrata obiektu cyfrowego mającego charakter jednostkowy może być stratą niemożliwą do naprawienia.

    Na jakich nośnikach przechowywana jest informacja cyfrowa?

    Trzeba tu rozróżnić przechowywanie zbiorów nośników, które stanowią zasoby bibliotek i archiwów, i mogą być przechowywane podobnie jak książki, na przykład leżąc na półkach w pojemnikach dla ochrony przed kurzem, od zapamiętywania informacji bieżącej w systemach komputerowych.

    Do nośników cyfrowych przechowywanych jako zasoby bibliotek i archiwów należą dyskietki magnetyczne, płyty CD-ROM, DVD i ich nowsze odmiany: nagrywalne płyty CD, DVD, Blu-ray. Ponadto należy uwzględnić typowe pamięci komputerowe, jak dyski magnetyczne i dyski półprzewodnikowe SSD, a także pamięci półprzewodnikowe flash.

    Do nośników cyfrowych, używanych powszechnie w przechowywaniu informacji w systemach komputerowych, należą pamięci półprzewodnikowe i dyski magnetyczne lub ich macierze. Ponadto istnieją profesjonalne kasety magnetyczne i napędy taśmowe, a nawet całe ich zestawy obsługiwane przez roboty.

    Czy informacja cyfrowa jest zagrożona głównie z powodu degradacji nośnika?

    Przy przechowywaniu informacji analogowej czas jej życia ograniczony jest czasem życia nośnika, procesem jego degradacji, natomiast informacja cyfrowa może ulec uszkodzeniu dużo wcześniej. Trzeba więc rozważyć dokładniej, co może grozić informacji cyfrowej i czego się spodziewać po różnego rodzaju nośnikach.

    Wiadomo, że tę samą informację cyfrową można zapisać na różnego rodzaju nośnikach, także na nośnikach wykorzystujących różne zjawiska fizyczne do zapisania informacji. W przyjętych rozwiązaniach wykorzystuje się zjawiska fizyczne, w których wyróżnia się dwa stany, na przykład materiał magnetyczny jest namagnesowany w danym kierunku lub przeciwnym, kondensator półprzewodnikowy jest naładowany lub nie jest naładowany. Te dwa stany oznacza się jako 0 lub 1: dwie wartości cyfry dwójkowej, zwanej bitem (ang. binary digit). Operuje się zazwyczaj całymi grupami bitów, by na przykład zapisać znaki alfabetu. Standardowo operuje się grupami ośmiobitowymi (zwanymi bajtami), ale także grupami liczącymi 16, 32 lub 64 bity i więcej. Ten podział na grupy wielobitowe jest umowny, zawsze zapis składa się z ciągu zer i jedynek.

    Jeżeli oderwiemy się od poziomu fizycznego, a więc od tego, czy stosujemy w danym przypadku zapis magnetyczny, optyczny czy inny, i skupimy uwagę na samej informacji cyfrowej, możemy rozróżnić dwa poziomy w jej traktowaniu.

    Na pierwszym poziomie, można powiedzieć technicznym, zauważamy jedynie bity, ciągi bitów, zer i jedynek. Na poziomie drugim rozróżniamy w tym samym ciągu już grupy bitów i przypisaną im informację. Łącznikiem między tymi poziomami jest umowa określająca sposób przypisania informacji grupom bitów. Jest oczywiste, że sposobów takich można utworzyć wiele i że przy odczycie musi zostać zastosowany taki sam sposób interpretacji, jak przy zapisie, by informacja była odczytywana poprawnie. Tu pojawia się kwestia formatów, standardów, ich znajomości i świadomego stosowania.

    Czy zapisana informacja nie ulega zmianom?

    Zmiana jest oczywiście niepożądana przy przechowywaniu danych. Należy mieć świadomość, że niezależnie od tego, jakie zjawiska fizyczne stanowią podstawę działania konkretnego typu pamięci, w każdym z nich może nastąpić uszkodzenie zapisu.

    Rozważmy teraz sytuację, w której dochodzi do zmiany jednego bitu. Ciąg odczytany różni się wówczas od ciągu zapisanego. Informacja odczytana różni się od zapisanej. Formalnie biorąc, dochodzi do utraty oryginalnej informacji. Co więcej, przy odczycie można nie zauważyć tego faktu.

    Oczywiście, jeden bit to mało w stosunku do wielu tysięcy lub milionów bitów używanych zazwyczaj do zapisywania informacji. Wyobraźnia podpowiada, że skutki takiego małego zniekształcenia informacji też powinny być małe. W odniesieniu do zapisu analogowego jest to często prawdą, na przykład zmiana kierunku polaryzacji małego fragmentu magnetycznego nośnika pamięci przy zapisie analogowym dźwięku, objawiłaby się zapewne tylko jednym małym trzaskiem w trakcie odtwarzania utworu. Byłoby to więc raczej zniekształcenie informacji niż jej utrata. Zapis cyfrowy ma inną wrażliwość na ewentualne zmiany. Efekt zależy od formatu zapisywania informacji. Są fragmenty zapisu, w których zmiana jednego bitu może dać mały efekt, ale może być i tak, że efekt jest silny, a nawet taki, że pliku ze zmienionym bitem urządzenia odtwarzające nie będą umiały odtworzyć. Mielibyśmy wówczas do czynienia z całkowitą utratą informacji. Zauważmy, że niemożność odtworzenia pliku zwracałaby uwagę na zaistniałe zmiany.

    Pytania o znaczenie tego rodzaju zmian są natury ogólnej, niezależnej od typu nośnika. Dobrze jest znać na nie odpowiedź. Ponadto dla każdego typu pamięci z osobna powinno się poznać, jak szybko mogłoby do podobnej zmiany dojść i z jakiego powodu.

    Powyżej została przywołana kwestia konsekwencji zmiany jednego bitu. Oczywiście, jeśli możliwa jest przypadkowa zmiana jednego bitu, to także jest możliwa zmiana większej liczby bitów. I taki przypadek należy uwzględnić w rozważaniach.

    Co można zrobić dla zabezpieczenia informacji?

    Po pierwsze należy zapewnić mechanizm wykrywania uszkodzeń. Można to zrobić w sposób podobny do stosowanego przez banki w numeracji kont, gdzie umieszczona na początku suma kontrolna zabezpiecza przed niektórymi pomyłkami, to znaczy jest w stanie je wykryć i uznać dany numer za nieprawidłowy. Takie same lub podobne sumy kontrolne mogą być stosowane dla zapisu informacji w pamięci. Najprostsze rozwiązanie to kontrola parzystości. Dla każdego fragmentu danych zlicza się bity i dodaje bit kontrolny równy jeden, gdy liczba bitów była nieparzysta, i zero, gdy była parzysta. Po takim zabiegu liczba bitów w tym fragmencie z dodanym bitem parzystości jest zawsze parzysta i taka powinna być przy odczycie.

    Zabezpieczanie może pójść dalej, umożliwiając niekiedy także korektę pewnych błędów. Tego rodzaju zabezpieczanie odbywa się zawsze kosztem dodawania bitów nadmiarowych, służących do wykrywania błędów i korekty, co w rezultacie powoduje zwiększenie objętości zapisu. O wyborze konkretnego rozwiązania decyduje zwykle producent sprzętu lub oprogramowania. Może to być dla niego podstawą deklarowania dłuższego czas bezbłędnej pracy sprzętu.

    Występują opracowane i stosowane także znacznie bardziej złożone systemy zabezpieczania informacji, między innymi oparte na użyciu dodatkowych dysków zabezpieczających (jednym z prostszych koncepcyjnie rozwiązań jest stosowanie zapisu lustrzanego w drugim z każdej pary dysków). Dotyczą one jednak zazwyczaj dysków stosowanych do pracy bieżącej, a nie do archiwizacji danych.

    Jak można zabezpieczać informacje przed utratą w wyniku niesprawności nośnika?

    Podstawową metodą zabezpieczania się jest tworzenie kopii bezpieczeństwa. To jednak jest tylko początek, gdyż należy od razu przewidzieć, w jaki sposób i jak często należy porównywać zapis oryginału z kopią, ewentualnie między różnymi kopiami, i co należy robić w przypadku stwierdzenia różnicy. Oczywiście, ważne jest zapewnienie bezpiecznych warunków przechowywania nośników, dobranych odpowiednio do rodzaju nośnika. Optymalnie kopie powinno się przechowywać w odległej lokacji, aby nie uległy jednocześnie wpływowi tego samego zagrożenia (kradzież, pożar, trzęsienie ziemi).

    Nawet w warunkach domowych lub biurowych, gdy do zabezpieczania danych stosuje się dyski USB lub płyty CD-RW, dobrze jest zaprojektować sobie odpowiednie procedury, a w szczególności określić, jak często porównywać dane, i potem się do tych procedur stosować.

    Jaka jest spodziewana trwałość zapisu informacji cyfrowych na typowych nośnikach?

    Pewną miarą trwałości zapisu na dyskach magnetycznych jest podawany przez producentów czas gwarancji, który dla zwykłych dysków twardych wynosi często 3 lata, a dla dysków o podwyższonej jakości 5 lat. Taki okres dotyczy dysków pracujących w typowym reżimie codziennym, a niekoniecznie dysków, które miałyby przez 3 czy 5 lat leżeć na półce. Dysk pracujący w reżimie codziennym może dokonywać odświeżenia zapisu, czego nie zrobi dysk na półce. Dla samego zapisu magnetycznego bezpieczną granicą mogą być zapewne raczej 2 lata. Tak czy inaczej, nie powinno się nastawiać na dłuższe przechowywanie cennych informacji na dyskach magnetycznych. Trzeba byłoby co pewien czas informacje przepisać na podobne lub inne nośniki. To samo dotyczy przechowywania dyskietek oraz płyt optycznych (CD, DVD, Blu-ray).

    Zapisywalne płyty CD-RW wydawały się początkowo bardzo trwałym i bezpiecznym nośnikiem. Optymistyczne szacunki mówiły o trwałości rzędu 20-30 lat. Życie nie potwierdziło tych oczekiwań o tyle, że pojawiły się na rynku płyty bardzo różnej jakości, także takie, które potrafiły utracić dane przed upływem roku.

    Ogólnie mówiąc, płyty o zapisie optycznym nie znoszą dobrze wpływu światła. Niektórzy producenci oferowali i oferują płyty, w których warstwę refleksyjną wykonywano ze złota, by zapobiegać jej utlenianiu, i deklarowali nawet 300 lat trwałości dla CD i 100 bądź 75 lat dla DVD. Jednak i one miały słabe strony, o czym świadczyć mogą na przykład wewnętrzne zalecenia w archiwach amerykańskich, niedopuszczające stosowania takich płyt do archiwizacji, a jedynie do przekazywania danych.

    Trzecim z popularnych nośników są pamięci półprzewodnikowe. Typowe gwarancje producenta wynoszą 2, 3 lub 5 lat. Zdarza się nawet, że niektórzy producenci deklarują gwarancję wieczystą. Gwarancja ta oznacza w takim przypadku, że pamięci są wolne od wad materiałowych i produkcyjnych, ale nie są wolne od błędów odczytu. Zauważmy, że deklarowanie takich okresów opiera się na testach dotyczących liczby błędów, które faktycznie w testach się zdarzyły. Z pewnością pozostawienie zapisanej pamięci półprzewodnikowej na wiele lat spowoduje utratę informacji (zanik ładunku elektrycznego w komórkach pamięci).

    Jakie są podstawowe wnioski dotyczące przechowywania informacji cyfrowej?

    We współcześnie używanych nośnikach z informacją cyfrową musi dojść do utraty informacji po pewnym czasie. Ten czas nie jest długi.

    Tworzenie kopii bezpieczeństwa zmniejsza niebezpieczeństwo utraty informacji i jest potrzebne, ale nie zwiększa trwałości zapisu. Utrzymanie informacji cyfrowej przez dłuższy czas wymaga podejścia aktywnego, na przykład okresowego odświeżania zapisu lub przenoszenia danych na nowe nośniki.

    Niezależnie od starań o skonstruowanie trwałych pamięci potrzebne jest podejście metodyczne, by uzyskać możliwie dużą pewność, że będziemy w stanie przechować informację cyfrową przez dłuższy czas i przekazać ją tak, by nadal była zrozumiała.

    Czym jest przechowywanie długoterminowe?

    Impulsem do opracowania systematycznego podejścia do przechowywania i archiwizacji informacji cyfrowych były przypadki bezpowrotnej utraty cennych danych, przechowywanych w sposób zwyczajny i za późno odświeżonych. W następstwie podjętych działań opracowano koncepcje i model odniesienia, określające sposób działania archiwum cyfrowego zapewniającego długoterminowe przechowanie informacji. Perspektywa długoterminowego przechowywania danych skłoniła do uwzględnienia kwestii, które wcześniej pomijano, a więc uwzględnienie doświadczanych zmian i zmian przewidywanych, które mogłyby utrudnić odczytanie informacji bądź jej rozumienie.

    Doświadczamy zmian sprzętu komputerowego i konieczności dostosowywania się do tego, co proponują (bądź wymuszają) producenci, którzy między innymi wycofują się z obsługiwania starszych technologii (na przykład starszych standardów kaset do archiwizacji danych). Doświadczamy także zmian formatów, w jakich zapisujemy informacje. Dobrym tego przykładem są niemal niezliczone formaty danych graficznych, a także formaty stosowane w edytorach tekstu. Odczytywanie plików zapisanych w rzadziej spotykanych formatach od dawna stwarza problemy. Konieczność dokonania konwersji na formaty nowego typu mogłaby wiązać się z kosztami ze względu na prawa autorskie do formatu. Lepiej zatem stosować formaty otwarte, ale to może oznaczać kolejną konwersję z zastrzeżonego do otwartego formatu. Następnym trudnym do rozstrzygnięcia dylematem jest, czy dane mogą być przechowywane odrębnie od metadanych, czy bezpieczniej jest, gdy są przechowywane razem.

    Czym się różni długoterminowe przechowywanie informacji od jej archiwizacji?

    W zasadzie powinno się odróżniać samo przechowywanie informacji od jej archiwizacji. To pierwsze skupia się bardziej na samej informacji, to drugie także na dodatkowych wymaganiach, których spełnienie będzie budować zaufanie do odczytywanej (po latach) informacji.

    Mówimy o przechowywaniu długoterminowym, gdy zamierzamy przechowywać informacje dłużej niż wynosi czas życia współczesnych technologii (nośników, sprzętu, formatów), a zarazem przez czas dłuższy niż jedno pokolenie, kiedy informacje będą odczytywać ludzie inaczej uformowani niż ci, którzy ją zapisali.

    W przypadku archiwizacji długoterminowej formułowane są wymagania, które zapewniają:

    • trwałość informacji (jest to trudne ze względu na właściwości nośników i zmienność technologii),
    • weryfikowalność poprawnego przechowywania,
    • integralność informacji (kompletność i pewność, że nie nastąpiły modyfikacje),
    • autentyczność (zgodność zawartości rzeczywistej z deklarowaną, na przykład w metadanych),
    • dostępność (możliwość odszukania i uzyskania pożądanego zasobu),
    • interpretowalność (zapewnienie na przykład słowników i ontologii, z których korzysta się przy tworzeniu metadanych, bądź opisów bibliograficznych; w szerszym znaczeniu chodzi o przestrzeganie standardów),
    • poufność (gwarancja udostępnienia jedynie osobom czy podmiotom upoważnionym).

    Czy są standardy dotyczące przechowywania i archiwizacji długoterminowej?

    Zagwarantowanie możliwości poprawnej interpretacji zasobów archiwum wymaga zachowywania zgodności ze standardami dotyczącymi zawartości archiwum (formatów danych, metadanych) oraz standardami opisującymi strukturę archiwum i stosowane procedury. W przypadku braku szczegółowych standardów powinna być prowadzona dokumentacja procedur.

    Jednym z bardziej znanych standardów jest Open Archival Information System (OAIS), określający model referencyjny dla archiwów cyfrowych. Są też różne standardy określające budowę pakietów archiwalnych, a także standardy metadanych.

    Grzegorz Płoszajski

    Absolwent i wieloletni pracownik Politechniki Warszawskiej. Doktor nauk technicznych. Brał udział w pracach Zespołu ds. Digitalizacji powołanego przez Ministra Kultury i Dziedzictwa Narodowego. Współautor i redaktor opracowania końcowego zespołu roboczego oraz opartej na nim publikacji książkowej „Standardy w procesie digitalizacji obiektów dziedzictwa kulturowego”.

    ◊◊◊

    Artykuł powstał w ramach realizacji przez Bibliotekę Narodową projektu „Patrimonium – digitalizacja i udostępnienie polskiego dziedzictwa narodowego ze zbiorów Biblioteki Narodowej oraz Biblioteki Jagiellońskiej” współfinansowanego ze środków Europejskiego Funduszu Rozwoju Regionalnego w ramach Programu Operacyjnego Polska Cyfrowa 2014-2020 oraz budżetu państwa.

    ◊◊◊

    Dofinansowano ze środków Ministra Kultury i Dziedzictwa Narodowego.

    Zobacz także