- Чого варто уникати при плануванні цифрового проєкту
- Яка мета оцифрування в польських установах культури та національної спадщини?
Довготривале зберігання цифрової інформації у вигляді запитань та відповідей
Навіщо ми зберігаємо інформацію?
У традиційній бібліотеці чи архіві мета зберігання книг і документів настільки очевидна, що таке питання звучить недоречно. Ми зберігаємо їх для того, щоб мати змогу прочитати інформацію, яка в них міститься: текстову, графічну чи звукову. Те ж саме можна сказати і про мету зберігання цифрової інформації – ми хочемо мати можливість прочитати її в майбутньому.
Як довго ми хочемо зберігати інформацію?
Це залежить від типу інформації. Загалом, законодавство визначає термін зберігання для багатьох типів документів, наприклад, кадрових, фінансових, медичних. Зазвичай це від кількох років до кількох десятиліть. Деякі документи зберігаються навіть довічно (наприклад, іпотечні, геодезичні, акти цивільного стану тощо). Ми зазвичай зберігаємо культурні цінності протягом тривалого часу, також для того, щоб зберегти їх для майбутніх поколінь. Аналогічно можна сформулювати передбачувані терміни зберігання для цифрової інформації.
Що ми зберігаємо?
Зауважимо, що для зберігання інформації, записаної на традиційних носіях, ми зберігаємо ці самі носії: документи, записані на папері, фотографії (негативи і позитиви, на склі, папері і стрічці), диски зі звукозаписом, магнітні стрічки на бобінах і в касетах, зі звуком і/або зображенням.
У випадку з цифровою інформацією теоретично можна вчинити аналогічно, тобто зберігати цифрові носії із записаною інформацією (наприклад, дискети та магнітні диски, CD-ROM, твердотільні носії) так само, як і традиційні носії, наприклад, поставивши їх на полицю і зчитуючи, коли нам потрібна інформація. Однак досвід останніх десятиліть показує, що інформація, яка зберігається таким чином, може бути втрачена, причому відносно швидко.
Як довго вдається зберігати інформацію на традиційних носіях?
Паперові документи давнини, манускрипти та книги, могли зберігатися кілька сотень років і більше без спеціального поводження з ними. Можна сказати, що це призвело до того, що ми звикли до подібних очікувань щодо всіх документів. Однак новіші паперові документи та інші нові типи документів виявилися менш довговічними. У багатьох випадках спостерігаються процеси старіння носіїв, які загрожують можливості зчитування інформації з документів. Відомим прикладом є так званий кислотний папір, який почали виробляти з середини 19-го століття. Надруковані на ньому газети і книги можуть просто розсипатися. Традиційні фотоматеріали та магнітні звуко- і відеокасети також піддаються процесам старіння. У їхньому випадку причиною є матеріали, з яких вони були виготовлені. Деякі стрічки можуть бути нечитабельними після тривалого періоду часу (декілька, декілька десятиліть) через те, що магнітний шар відшаровується від основи. На додаток до такої різкої деградації, яка унеможливлює зчитування, існують процеси поступового погіршення якості звуку або плівки (шуми, посіріння зображення, зміна кольору). Деякі з цих процесів можна сповільнити, забезпечивши відповідні умови зберігання, наприклад, за низьких температур, але це збільшує витрати на зберігання.
Як можна захистити інформацію на традиційних носіях?
Одним із методів збереження документів, що перебувають під загрозою знищення, є їх копіювання. Це не означає копіювання у фізичному сенсі, тобто виготовлення дублікатів, а створення копій, які зберігають інформацію, що міститься в оригінальному документі. Корисно, якщо копія займає менше місця, ніж оригінал, і є максимально точною.
Однак ці дві мети виявляються протилежними, тому практичні рішення повинні ґрунтуватися на компромісі. Успішною формою копіювання паперових документів була мікроплівка, що використовувала матеріали, довговічніші за традиційні. Створення цифрових копій вважалося набагато зручнішою формою, незважаючи на вкрай обмежену довговічність цифрового запису на використовуваних носіях. Переваги цифрових копій визначалися тим, наскільки легко з ними працювати і, зокрема, наскільки легко робити наступні копії, порівнювати їх тощо.
Яка цифрова інформація зберігається?
Бібліотеки та архіви можуть мати справу з різними типами цифрової інформації. Одним із типів є копії (наприклад, фотографії або скани) фізичних документів, що зберігаються в культурних установах. Копія може бути використана для збереження документа, який знаходиться під загрозою, а також для забезпечення доступу до інформації, що міститься в ньому (незалежно від того, чи знаходиться сам документ під загрозою чи ні). Другий тип – це цифрові об’єкти, які не є копіями документів, що зберігаються, і не мають фізично існуючого оригіналу, але були створені безпосередньо в цифровій формі (англійська назва born digital вказує на їхнє цифрове народження). Це можуть бути новостворені книги або журнали. Це можуть бути бібліографічні описи або текстові документи, передані в архів, наприклад, комп’ютерна пошта. Нарешті, вони можуть походити з цифрових звукових чи відеозаписів, а також з різних видів вимірювань, зроблених за допомогою приладів. Звукові та відеозаписи можуть бути комерційним продуктом, який було створено в декількох копіях, але вони також можуть бути одиничним продуктом. Дані вимірювань за своєю природою є, так би мовити, одиничними. Якщо втрату об’єкта першого типу іноді можна відновити, зробивши дублікат фізичного об’єкта, то втрата цифрового об’єкта, який є одиничним за своєю природою, може бути безповоротною втратою.
На яких носіях зберігається цифрова інформація?
Тут слід розрізняти зберігання колекцій носіїв, які є ресурсами бібліотек та архівів і можуть зберігатися як книжки, наприклад, лежати на полицях у захисних боксах для захисту від пилу, та зберігання поточної інформації в комп’ютерних системах.
Цифрові носії, що зберігаються як бібліотечні та архівні ресурси, включають магнітні дискети, CD-ROM, DVD та їхні новіші варіанти: записувані CD, DVD, Blu-ray диски. Крім того, сюди слід включити типову комп’ютерну пам’ять, таку як магнітні диски і твердотільні накопичувачі (SSD), а також твердотільну флеш-пам’ять.
Цифрові носії, які зазвичай використовуються для зберігання інформації в комп’ютерних системах, включають твердотільну пам’ять і магнітні диски або їхні масиви. Крім того, існують професійні магнітні касети та стрічкові накопичувачі, або навіть цілі комплекти, якими керують роботи.
Чи загрожує цифровій інформації в основному старіння носія?
При зберіганні аналогової інформації термін її життя обмежений терміном служби носія, тобто процесом старіння, тоді як цифрова інформація може бути пошкоджена набагато раніше. Тому необхідно більш ретельно розглянути, що може загрожувати цифровій інформації і чого очікувати від різних типів носіїв.
Відомо, що одна і та ж цифрова інформація може зберігатися на різних типах носіїв, в тому числі на носіях, які використовують різні фізичні явища для зберігання інформації. Прийняті рішення використовують фізичні явища, в яких розрізняють два стани, наприклад, магнітний матеріал намагнічений в заданому напрямку або в протилежному напрямку, напівпровідниковий конденсатор заряджений або незаряджений. Ці два стани позначаються як 0 або 1: два значення двійкової цифри, яка називається біт („binary digit„). Зазвичай оперують цілими групами бітів, наприклад, для запису символів алфавіту. Зазвичай оперують групами з восьми бітів (які називаються байтами), але також групами з 16, 32 або 64 бітів і більше. Цей поділ на багатобітні групи є умовним; позначення завжди складається з послідовності одиниць і нулів.
Якщо відсторонитися від фізичного рівня, тобто від того, чи використовуємо ми магнітний, оптичний або інший запис, і зосередити нашу увагу на самій цифровій інформації, ми можемо розрізнити два рівні в її обробці.
На першому рівні, можна сказати, технічному, ми помічаємо лише біти, рядки бітів, нулі та одиниці. На другому рівні ми розрізняємо в тій самій послідовності вже групи бітів та інформацію, яка їм присвоюється. Зв’язком між цими рівнями є угода, що визначає способи, якими інформація призначається групам бітів. Очевидно, що таких способів може бути створено багато, і що для правильного зчитування інформації необхідно застосовувати таку ж інтерпретацію при зчитуванні, як і при записі. Тут і виникає питання форматів, стандартів, їх знання та свідомого застосування.
Чи не змінюється збережена інформація?
Очевидно, що при зберіганні даних зміни є небажаними. Важливо усвідомлювати, що які б фізичні явища не лежали в основі роботи того чи іншого типу пам’яті, в будь-якому з них може статися пошкодження даних.
Розглянемо ситуацію, в якій відбувається зміна одного біта. Тоді прочитаний рядок відрізняється від записаного. Зчитана інформація відрізняється від записаної. Формально кажучи, відбувається втрата початкової інформації. Більш того, при зчитуванні цей факт може бути непомітним.
Звичайно, один біт – це дуже мало в порівнянні з багатьма тисячами або мільйонами бітів, які зазвичай використовуються для зберігання інформації. Уява підказує, що наслідки такого малого відхилення інформації також повинні бути невеликими. Що стосується аналогового запису, то це часто так і є. Наприклад, зміна напрямку полярності невеликого шматка магнітного носія під час запису аналогового звуку, ймовірно, проявиться лише у вигляді невеликого потріскування при відтворенні пісні. Отже, це буде скоріше деформація інформації, ніж її втрата. Цифровий запис має іншу чутливість до можливих змін. Ефект залежить від формату, в якому записана інформація. Існують частини запису, де зміна одного біта може мати невеликий вплив, але ефект може бути сильним або навіть таким, що пристрої відтворення не зможуть відтворити файл зі зміненим бітом. У такому випадку ми матимемо справу з повною втратою інформації. Зауважте, що неможливість відтворення файлу приверне увагу до змін, які відбулися.
Питання про значущість таких змін мають загальний характер, незалежно від типу носія. Добре знати відповідь на них. Крім того, для кожного типу пам’яті окремо слід знати, як швидко може відбутися подібна зміна і з якої причини.
Питання про наслідки зміни одного біта було згадано вище. Звичайно, якщо можлива випадкова зміна одного біта, то можлива і зміна більшої кількості бітів. І такий випадок має бути включений в розрахунки.
Що можна зробити для захисту інформації?
По-перше, слід встановити механізм виявлення помилок. Це можна зробити подібно до того, як це роблять банки при нумерації рахунків, де контрольна сума, розміщена на початку, захищає від певних помилок, тобто здатна виявити їх і розпізнати номер як невірний. Такі ж або аналогічні контрольні суми можна використовувати для зберігання інформації в пам’яті. Найпростішим рішенням є контроль паритету.
Для кожного фрагмента даних підраховуються біти і додається контрольний біт, що дорівнює одиниці, якщо кількість бітів була непарною, і нулю, якщо вона була парною. Після такої обробки кількість бітів у цьому фрагменті з доданим бітом парності завжди парна і повинна бути такою при зчитуванні.
Система захисту може йти далі, іноді також дозволяючи виправляти певні помилки. Цей тип захисту завжди здійснюється за рахунок додавання надлишкових бітів для виявлення та виправлення помилок, що призводить до збільшення обсягу запису. Вибір того чи іншого рішення зазвичай приймає виробник апаратного або програмного забезпечення. Це може бути підставою для того, щоб він декларував більш тривалу безпомилкову роботу обладнання.
Розробляються і застосовуються також набагато складніші системи захисту інформації, в тому числі засновані на використанні додаткових захисних дисків (одне з концептуально простіших рішень – використання дзеркального відображення на другому з кожної пари дисків). Однак, як правило, це стосується дисків, що використовуються для повсякденної роботи, а не для архівування даних.
Як можна захистити інформацію від втрати через несправність носія?
Основним методом захисту є створення резервних копій. Однак це лише початок, оскільки необхідно з самого початку передбачити, як і як часто слід порівнювати запис оригіналу з копією, можливо, між різними копіями, і що робити, якщо буде виявлено розбіжності. Очевидно, що важливо забезпечити безпечні умови зберігання носіїв, обрані відповідно до типу носія. Оптимально зберігати копії у віддаленому місці, щоб на них не впливали однакові небезпеки (крадіжка, пожежа, землетрус) в один і той самий час.
Навіть у домашньому або офісному середовищі, де для захисту даних використовуються USB-накопичувачі або CD-RW диски, варто розробити для себе відповідні процедури і, зокрема, визначити, як часто порівнювати дані, а потім дотримуватися цих процедур.
Який очікуваний термін зберігання цифрової інформації на типових носіях?
Однією з мір терміну життя магнітних дисків є гарантійний термін, вказаний виробниками, який часто становить 3 роки для звичайних жорстких дисків і 5 років для дисків підвищеної якості. Цей термін поширюється на диски, що працюють у звичайному повсякденному режимі, і не обов’язково на диски, які стоятимуть на полиці протягом 3 або 5 років. Накопичувач, що працює в повсякденному режимі, може оновлювати свій запис, чого не може зробити стандартний накопичувач. Тільки для магнітного запису безпечна межа, ймовірно, становить 2 роки. У будь-якому випадку, не варто налаштовувати себе на зберігання цінної інформації на магнітних дисках протягом тривалого часу. Час від часу інформацію доведеться переписувати на аналогічні або інші носії. Те саме стосується зберігання дискет та оптичних дисків (CD, DVD, Blu-ray).
Записувані диски CD-RW спочатку здавалися дуже довговічним і безпечним носієм. Оптимістичні оцінки говорили про довговічність у 20-30 років. Життя не виправдало цих очікувань, оскільки на ринку з’явилися диски дуже різної якості, в тому числі такі, що здатні втрачати дані до кінця року.
Взагалі кажучи, диски з оптичним записом не дуже добре протистоять впливу світла. Деякі виробники пропонували і продовжують пропонувати диски зі світловідбиваючим шаром із золота для запобігання окисленню, і навіть заявляли про довговічність у 300 років для компакт-дисків і 100 або 75 років для DVD-дисків. Однак вони також мали слабкі сторони, про що свідчать, наприклад, внутрішні рекомендації архівів США, які не дозволяють використовувати такі диски для архівування, а лише для перенесення даних.
Третій популярний носій – це твердотільна пам’ять. Типові гарантії виробників – 2, 3 або 5 років. Буває навіть так, що деякі виробники заявляють про безстрокову гарантію. У цьому випадку гарантія означає, що пам’ять вільна від дефектів матеріалів і виготовлення, але не вільна від помилок зчитування. Зауважте, що декларування таких термінів ґрунтується на тестах на кількість помилок, які реально траплялися в тестах. Безумовно, якщо залишити напівпровідникову пам’ять на багато років, це призведе до втрати інформації (втрата електричного заряду в комірках пам’яті).
Які основні уроки щодо зберігання цифрової інформації?
У сучасних носіях цифрової інформації через певний проміжок часу має відбуватися втрата даних. Цей час не є тривалим.
Створення резервних копій зменшує небезпеку втрати інформації і є необхідним, але не збільшує довговічність запису. Збереження цифрової інформації протягом більш тривалого періоду часу вимагає проактивного підходу, наприклад, періодичного оновлення запису або перенесення даних на нові носії.
Незалежно від зусиль, спрямованих на створення постійної пам’яті, необхідний методичний підхід, щоб бути максимально впевненими в тому, що ми можемо зберігати цифрову інформацію протягом тривалого періоду часу і передавати її таким чином, щоб її все ще можна було зрозуміти.
Що таке довгострокове зберігання?
Поштовхом до розробки системного підходу до зберігання та архівування цифрової інформації стали випадки безповоротної втрати цінних даних, які зберігалися у звичний спосіб і надто пізно оновлювалися. Після цього були розроблені концепції та зразкова модель, що визначають, як має працювати цифровий архів для забезпечення довготривалого збереження інформації. Перспектива довготривалого зберігання спонукала до розгляду питань, які раніше залишалися поза увагою, а саме: врахування змін, що відбулися, та очікуваних змін, які можуть ускладнити читання або розуміння інформації.
Ми переживаємо зміни в комп’ютерному обладнанні та необхідність адаптуватися до того, що пропонують (або нав’язують) виробники, які, серед іншого, відмовляються від підтримки старих технологій (наприклад, старих стандартів для картриджів для архівації даних). Ми також переживаємо зміни у форматах, в яких ми зберігаємо інформацію. Хорошим прикладом цього є майже незліченні формати графічних даних, а також формати, що використовуються текстовими процесорами. Читання файлів, збережених у менш поширених форматах, вже давно викликає проблеми. Необхідність конвертації в нові типи форматів може спричинити витрати через авторські права на формати. Тому краще використовувати відкриті формати, але це може означати ще одне перетворення з пропрієтарного формату на відкритий. Наступна складна дилема, яку потрібно вирішити, полягає в тому, чи можна зберігати дані окремо від метаданих, чи безпечніше зберігати їх разом.
У чому різниця між довгостроковим зберіганням інформації та її архівацією?
В принципі, слід розрізняти власне зберігання інформації та її архівування. Перше зосереджується більше на самій інформації, друге – на додаткових вимогах, дотримання яких сприятиме підвищенню довіри до інформації, що читається (через роки).
Ми говоримо про довгострокове збереження, коли маємо намір зберігати інформацію довше, ніж тривалість життя сьогоднішніх технологій (носіїв, обладнання, форматів) і водночас довше, ніж одне покоління, коли інформацію будуть читати люди, які мають іншу освіту, ніж ті, хто її записував.
У випадку довгострокового архівування формулюються вимоги, які забезпечують:
- незмінність інформації (це складно через характеристики носіїв та непостійність технологій),
- можливість перевірки правильності зберігання,
- цілісність інформації (повнота та впевненість у тому, що не відбулося жодних модифікацій),
- автентичність (відповідність фактичного змісту задекларованому, наприклад, у метаданих),
- доступність (можливість знайти та отримати потрібний ресурс),
- інтерпретованість (забезпечення, наприклад, словників та онтологій, що використовуються для створення метаданих або бібліографічних описів; у ширшому сенсі – дотримання стандартів),
- конфіденційність (гарантування доступу лише уповноваженим особам або організаціям).
Чи існують стандарти довгострокового зберігання та архівування?
Забезпечення правильної інтерпретації архівних ресурсів вимагає дотримання стандартів щодо змісту архіву (форматів даних, метаданих), а також стандартів, що описують структуру архіву та процедури, які використовуються. За відсутності конкретних стандартів слід вести документацію процедур.
Одним з найвідоміших стандартів є Відкрита архівна інформаційна система (OAIS), яка визначає зразкову модель для цифрових архівів. Існують також різні стандарти, що визначають побудову архівних пакетів, а також стандарти метаданих.
Ґжеґож Плошайський
Випускник і багаторічний співробітник Варшавської політехніки. Доктор технічних наук. Брав участь у роботі Групи з оцифрування, уповноваженої Міністром культури і національної спадщини. Співавтор і редактор підсумкового дослідження робочої групи та виданої на його основі книги „Стандарти в процесі оцифрування об’єктів культурної спадщини”.
◊◊◊
Ця стаття написана в рамках реалізації Національною бібліотекою проекту „”Patrimonium” – оцифрування та доступ до польської національної спадщини із зібрань Національної та Ягеллонської бібліотек”, що співфінансується Європейським фондом регіонального розвитку в рамках Операційної програми „Цифрова Польща 2014-2020” та державним бюджетом.
◊◊◊
Співфінансовано за підтримки Міністра Культури та Національної Спадщини