Polona/Labs

Budowanie indeksu polskiego Webu z lat 90.


    Chyba warto ostatecznie pogodzić się z myślą, że część zasobów, mogących dokumentować polityczne i społeczne przemiany lat 90., nie jest i nigdy już nie będzie dostępna. Myślę tu o polskich stronach internetowych i innych zasobach publikowanych online, wytwarzanych nie tylko przez instytucje, ale też przez zwykłych ludzi. Amatorskie strony domowe, witryny firm albo fora dyskusyjne potencjalnie mogły być nie tylko wartościowym źródłem do badań społecznych czy humanistycznych, ale też dokumentacją dawnej estetyki (tak jak zbiór gifów z zamkniętego w 2009 roku serwisu Geocities), do tego gotową do twórczego przetwarzania. Olga Drenda napisała duchologiczną książkę o przemianach estetyki i obyczajów na przełomie lat 80. i 90., niestety podobna książka opolskim Webie z tamtych lat, raczej nie mogłaby powstać ze względu na brak materiału. Dawne witryny i pierwsze media społecznościowe są dziś nieosiągalne, a rekonstruowanie ich ze strzępków zachowanych w Wayback Machine czy we wspomnieniach twórców i użytkowników nie wystarczy. Przecież przynajmniej od 1993 roku (udostępnienie przeglądarki Mosaic), a na pewno od 1995 (udostępnienie Internet Explorera wraz z Windowsem 95) WWW w mainstreamie stawał się coraz bardziej wizualny: błyszczący, kolorowy, przyciągający uwagę. W 1996 roku opublikowano pierwszą edycję standardu języka JavaScript, którą przyjąć mieli główni producenci przeglądarek – dzięki temu strony WWW przekształcały się w bogate w możliwości interakcji media. Pisanie o starym Webie bez możliwości przywołania jego zasobów to tworzenie obrazu wykoślawionego i ograniczonego, trochę jak interpretowanie dawnej sztuki bez wizyt w muzeach czy dostępu choćby do reprodukcji dzieł.

    Z powodu wieloletniego braku działań archiwizacyjnych wobec domeny krajowej, polski Web z lat 90. to historyczna, pamięciowa i estetyczna czarna dziura, której nie mogą zapełnić strzępki zasobów w swoim czasie pozyskanych i zarchiwizowanych przez projekty archiwizacyjne jak fundacja Internet Archive. Jednak problemem jest nie tylko to, że nie mamy już tych zasobów, ale także to, że nawet nie wiemy, jakich zasobów brakuje. W Internet Archive można znaleźć masę polskich stron WWW z lat 90., ale żeby je odszukać należy znać albo pierwotne adresy URL, nazwy domen albo przynajmniej jakiś fragment treści, który dałby się wyszukać w wyszukiwarce pełnotekstowej Wayback Machine (zresztą aktualnie w wersji beta i niedostępnej). Pewne możliwości zorientowania się w tym, co jest dostępne, daje interfejs programistyczny specjalnego serwera Wayback Machine, odpowiadającego za indeksowanie zbiorów w tym archiwum. Dokumentacja zapytań dostępna jest na GitHubie. Jesteśmy więc potencjalnie w stanie sprawdzić ile i jakich zasobów (plików) stron wybranej domeny rządowej z lat 90. jest jeszcze dostępnych jako kopie wykonane w swoim czasie przez crawlery Internet Archive.

    Nie jest to specjalnie krzepiący obraz. Przykładowo, dla domeny Ministerstwa Spraw Zagranicznych (msz.gov.pl) dla lat 1996-1999 w Wayback Machine zarchiwizowano jedynie 51 kopii odpowiedzi serwera, w tym wiele z kodem 302 (wskazującym na przekierowanie) i 404 (informującym o braku zasobu do wyświetlenia). Zapytanie do API serwera CDX zwraca odpowiedź w postaci danych JSON. Mamy tam m.in. informację o dostępności kopii strony głównej serwisu ministerstwa z grudnia 1998 roku (to jedyny zachowany ślad tej strony z tego roku).

    Pozornie nieco lepiej sytuacja wygląda w przypadku popularnego w swoim czasie darmowego hostingu polbox.pl, pozwalającego publikować strony amatorskie, Wayback Machine zarchiwizował dla lat 1996-1999 ponad 44 tys. odpowiedzi serwera, w tym: ponad 27 tys. stron html, ponad 10 tys. gifów, 4 tys. plików jpeg, 498 pliki muzyczne midi, 256 paczek archiwów .zip i 11 plików MS Word. Niestety, po pierwsze, suma ta zawiera duplikaty. Ten sam plik zarchiwizowany w 1998 i 1999 roku będzie liczony podwójnie, przy czym nie jesteśmy w stanie sprawdzić, czy jego treść się zmieniła (możemy to szacować po zmianie wielkości pliku, którą CDX podaje).  Po drugie, nie wiadomo ile stron (kont) w tych latach funkcjonowało na tym serwerze – trudno więc zbadać głębokość archiwizacji. Po trzecie, darmowy hosting na free.polbox.pl funkcjonował od listopada 1996 roku. Pierwszą kopię w Wayback Machine mamy z grudnia tego roku, ale jest to jedynie kopia strony głównej.

    Niestety też, dane z serwera CDX nie są w stanie powiedzieć nam, czego brakuje. Do tego dla Internet Archive jesteśmy jedynie jednymi z milionów użytkowników i nie możemy liczyć, że w naszych badaniach uzyskamy jakieś bezpośrednie, specjalne wsparcie przy korzystaniu z zazwyczaj niedostatecznie udokumentowanych narzędzi Wayback Machine czy podwyższenie limitów liczby zapytań i wielkości zwracanych przez serwer odpowiedzi.

    Wiemy już, że nie da się zapełnić tej historycznej, cyfrowej czarnej dziury. Czy to oznacza jednak, że powinniśmy przestać interesować się polskim Webem z lat 90.? Bynajmniej. Poszukując zasobów źródłowych do badań kultury i społeczeństwa tego okresu, materiałów o tak specyficznej estetyce czy po prostu realizując swoje prawo dostępu do informacji i danych udostępnianych w latach 90. na stronach instytucji publicznych, możemy próbować w jednym miejscu zgromadzić wszelką dostępną wiedzę o tym, co zawierała polska domena w tym czasie. Taki indeks, rozwijany w ramach projektów naukowych, mógłby zawierać adresy URL historycznych witryn, informacje o ich ewentualnej dostępności w Wayback Machine (to proste do uzyskania dzięki Availability API lub api projektu Memento, agregujących dane z wielu archiwów Webu) oraz internetowych i pozainternetowych materiałach źródłowych, mogących coś o tej witrynie powiedzieć (np. współczesnych jej artykułach prasowych). Ze względu na skalę zadania projekt mógłby posiadać kilka sprofilowanych części, poświęconych np. domenie rządowej, czasopismom internetowym, instytucjom pozarządowym itp.

    Co więcej, takie bazy nie musiałyby powstawać od zera. Odpowiedni research pozwoliłby na zbudowanie zalążków poszczególnych indeksów w oparciu na dostępne wciąż zestawienia linków, choćby publikowane w latach 90. w ramach projektu DMOZ, w innych katalogach WWW, dostępne w wyszukiwarce Google czy nawet na amatorskich stronach domowych (takich jak katalog Wiktora Gawareckiego z UJ). Zasoby w ten sposób indeksowane są niekiedy starsze nawet niż 20 lat – to dobry bufor czasowy do tego, aby spojrzeć na nie jak na źródła historyczne i w takiej perspektywie badać ich znaczenie. Nie tylko zresztą informacyjne czy poznawcze – Web to też emocje i wspólnoty online.
    W 1994 roku mieszkańcy Amsterdamu zaczęli zakładać konta w jednym z pierwszych serwisów społecznościowych – De Digitale Stad (DDS). Po latach nie zachowała się żadna pełna kopia tej, w swoim czasie, bardzo popularnej lokalnie witryny. Amsterdam Museum postanowiło w 2014 roku przypomnieć  DDS – nie tyle odtworzyć jej strukturę i ponownie uruchomić serwis, ale raczej zrekonstruować go społecznie. Organizowano spotkania, podczas których wspominano prowadzone w portalu dyskusje, gromadzono przechowywane na dyskach twardych użytkowników zrzuty ekranu, starano się w różny sposób przywołać dawne doświadczenie interfejsu i wspólnoty. Nawet gdyby indeks polskiego Webu nie rozwinął się jako projekt badawczy czy dokumentacyjny, wciąż miałby potencjał jako projekt społeczny. Nawet jeśli WWW to tylko wycinek rzeczywistości, jedno z wielu mediów, w połowie lat 90. zresztą statystycznie niszowe (według Instytutu Badania Mediów i Rynku Estymator w 1997 roku liczba polskich użytkowników i użytkowniczek internetu wynosiła około miliona, 40 proc. z nich łączyło się z nim w szkole lub na uczelni), potrzebuje naszego zainteresowania. Ten czas naiwnej wiary w Internet, popularności metafory „globalnej encyklopedii” i obietnic pełnej egalitarności i równych praw dostępu do informacji opierał się na medium bardzo różny od dzisiejszego – i choćby dlatego warto zachowywać jego ślady.