- Aplikacja mobilna mLUMEN. Agregator informacji sektora publicznego i treści z polskiej blogosfery
- Co wziąć pod uwagę planując projekt cyfrowy
Bibliografie na mapie. O pożytkach z danych ustrukturyzowanych i podróżach w czasie
Bibliografia jako przedmiot badań
W czasach nowożytnych wielkie bibliografie narodowe lub ich funkcjonalne odpowiedniki stanowiły zawsze jedno z podstawowych narzędzi pracy humanisty. Pierwotnie ich funkcje były czysto praktyczne i ograniczały się do dokumentowania dorobku poszczególnych autorów, a pośrednio także dziedzin nauki i gatunków piśmienniczych. Zestawiane przez bibliografów spisy służyły następnie użytkownikom do wyszukiwania konkretnych utworów według zadanych kryteriów. Jednak z czasem, w miarę jak rósł wolumen tak gromadzonych danych, zaczęto doceniać utrwalony w nich potencjał poznawczy. Dzięki starannemu przygotowaniu i respektowaniu zasad sztuki katalogowania wielkie bibliografie zawierają bowiem ogrom informacji, pozwalający na odtworzenie szerokiej i uniwersalnej panoramy kultury i cywilizacji. Panorama ta jest w jakimś sensie kompletna, ponieważ opiera się na całym spektrum dzieł przynależących do określonej kultury, bez ich selekcjonowania według jakichś arbitralnych i apriorycznych reguł (literatura dobra lub zła, ciekawa lub nieciekawa, poprawna lub niepoprawna politycznie itd.). Jest też źródłem wiarygodnym, ponieważ opracowaniem rekordów nie zajmują się amatorzy, a profesjonaliści, działający według ustalonych i stabilnych zasad. Z punktu widzenia humanistów cyfrowych, podejmujących się przetwarzania zasobów bibliograficznych, fakty te mają ogromne znaczenie, ponieważ w jakimś sensie zwalniają ich z obowiązku oceny relewancji danych.
Co zdecydowało o tak gwałtownym w ostatnich latach przyspieszeniu, a wręcz przełomie w badaniach bibliografii? Idee twórców współczesnej nauki o informacji, przede wszystkim Paula Otleta i Henri La Fontaine’a, były nowatorskie i doskonale skupiały w sobie odwieczne marzenia o zebraniu całej wiedzy ludzkości w jednym zasobie – jeśli nie w formie pełnej, to chociaż pośredniej, a więc zapisów bibliograficznych (Zarębska 2010). Jednak granica między marzeniem a utopią bywa nieuchwytna i łatwo ją przekroczyć. Właśnie koszt i bariera technologiczna, wynikająca z pracy na nośniku papierowym, a dodatkowo jeszcze brak (nawet w projektach) koncepcji semantycznej analizy tytułów i innych danych tekstowych, zawartych w rekordach bibliograficznych, uniemożliwiły stworzenie silnego i trwałego ośrodka bibliograficznego, monitorującego publikacje na całym świecie i prowadzącego dodatkowo badania statystyczne. Brukselskie Międzynarodowe Biuro Bibliografii i Międzynarodowy Instytut Bibliograficzny działały bardzo krótko, a zadania statystyki publikacji przejęły biblioteki narodowe i urzędy statystyczne. Jednak niektóre marzenia bibliografów z początku XX wieku zaczynają dziś, w nowej, cyfrowej rzeczywistości, promieniować nowym blaskiem. Zapis cyfrowy – „lekki” pod względem materiałowym, ustandaryzowany, łatwy do przechowania i przetwarzania – pozwolił w końcu na masowe zestawienia i analizy bibliografii, a także na automatyczne łączenie różnych baz danych (słowników językowych, biograficznych, spisów toponimów itd.).
Patrząc na te kwestie bardziej szczegółowo, można zauważyć, że warunków podjęcia badań wielkich bibliografii było kilka i właśnie teraz wszystkie zostały spełnione. Po pierwsze, przekroczona została masa krytyczna, czyli wolumen danych, potrzebny do wyprowadzania wiarygodnych wniosków i uogólnień o charakterze naukowym, a zarazem wykluczający pracę ręczną na nośniku papierowym. Bibliografie narodowe lub katalogi bibliotek narodowych zawierają miliony rekordów, co sprawia, że metodami text-mining można z nich wydobywać bardzo różne informacje, a także wiązać je z innymi bazami, zawierającymi informacje o ludziach i miejscach. Po drugie, dane te stały się dla badaczy dostępne w formie cyfrowej i niejako zerwały quasi-feudalne przywiązanie do miejsca składowania papierowych oryginałów. Badacze w dowolnym miejscu i pod każdą szerokością geograficzną mogą przetwarzać wielkie dane bibliograficzne, pobrane przez interfejsy programistyczne (API). Po trzecie, pojawiły się metody sztucznej inteligencji i NLP (Natural Language Processing), dzięki którym można szybko analizować pola rekordów w formacie tekstowym, symulując kompetencję językową człowieka. W szczególności możliwe stało się wykorzystywanie metod lingwistyki korpusowej, text-mining i automatycznych taksonomii, co w powiązaniu z fenomenalnymi możliwościami grafiki komputerowej pozwala prezentować wyniki badań w bardzo estetycznej i kompaktowej formie.
Warto w tym miejscu pokusić się o refleksją historyczną. Współcześni przedstawiciele humanistyki cyfrowej, podobnie jak większość młodego pokolenia, mają skłonność do ignorowania przeszłości i przypisywania różnych zasług na polu przemysłów kreatywnych swojej epoce – epoce komputerów. Nie powinno się jednak deprecjonować dorobku badaczy minionych dziesięcioleci i wieków, którzy współczesnym nie ustępowali intuicją i przenikliwością, na ogół przewyższali ich erudycją, ale nie dysponowali narzędziami komputerowymi, którymi można by było ich innowacyjne koncepcje urzeczywistniać. I tak próby badania wielkich bibliografii oraz podobnych zasobów bazodanowych metodami ilościowymi, stanowiące pierwowzór dzisiejszych badań big-data, zaczęły się pojawiać już w dziewiętnastym wieku, aczkolwiek ograniczały się do prostych statystyk wydawnictw. Zajmował się tym m.in. wspomniany wyżej Międzynarodowy Instytut Bibliograficzny, z którym współpracował zapomniany polski badacz Bolesław Iwiński (por. Migoń 1995). W polskim piśmiennictwie na szczególną uwagę zasługuje monografia Marii Czarnowskiej, pracowniczki Biblioteki Narodowej, która przedstawiła rozwój polskiego ruchu wydawniczego w latach 1501–1965, wykorzystując dane z polskich bibliografii retrospektywnych (Bibliografia polska Karola Estreichera) i bieżących (różne edycje Przewodnika Bibliograficznego, Urzędowy Wykaz Druków). Jej książka wydana jest w sposób nieatrakcyjny, odpowiadający pod względem typograficznym niskim standardom epoki PRL, ale umieszczone w podsumowaniu wyniki tabelaryczne, po przeniesieniu do nowego środowiska graficznego, dają obraz niezwykle ciekawy, ukazujący potęgę wielkich danych bibliograficznych. Linię szeregu czasowego, wygenerowanego na podstawie danych Marii Czarnowskiej, czytać można jak historię Polski. Linia histogramu rośnie w rzadkich momentach prosperity, załamuje się podczas wojen i powstań, obrazując destrukcyjną moc takich zdarzeń, a następnie powraca do, prawdopodobnie, wykładniczego wzrostu.
Wielkość danych i ich rzetelność przekłada się więc niewątpliwie na ich potencjał informacyjny. Słabości tego rozwiązania – oczywiście z perspektywy dzisiejszej – są jednak również odczuwalne. Użytkownik oczekuje interaktywnej infrastruktury, pozwalającej na kierowanie różnych kwerend, na przykład dotyczących listy tytułów z danego roku albo miejsc ich wydań. Takie możliwości, przy najlepszych kompetencjach i chęciach pracowników z lat minionych, były dla nauki nieosiągalne. Zaoferowała je dopiero humanistyka cyfrowa naszych czasów.
O rzutowaniu danych na mapę
Struktura rekordu bibliograficznego jest, z punktu widzenia analizy danych tekstowych, bliska ideału. Zawiera bowiem fragmenty tekstowe dyskursywne o wysokiej wartości informacyjnej (tytuł), odniesienia czasowe (rok wydania), antroponimy, czyli nazwy osobowy (autor, tłumacz, postać w tytule), a wreszcie, co szczególnie przydatne – odsyłacze do miejsc, a więc toponimy (miejsce wydania oraz nazwy miejscowe rozpoznane w tytule). Wielkie bibliografie nadają się więc doskonale do badań humanistyki cyfrowej: są ustrukturyzowane (czyli łatwe w przetwarzaniu), pokrywają wielkie odcinki czasowe (w przeciwieństwie do terabajtów danych pochodzących z epoki cyfrowej – niewątpliwie ciekawej, ale krótkiej), mają wreszcie potencjał poznawczy (tytuł oraz słowa kluczowe są bowiem na ogół syntezą treści utworu, a selekcję dzieł do katalogu prowadzili wykwalifikowanie pracownicy). Te ich zalety wykorzystane zostały przez twórców portalu Wrocław Bibliodata Website, za pośrednictwem którego można uruchomić dynamiczne mapy bibliografii1.
Portal Wrocław Bibliodata Website, a także alternatywny portal BiGeos CLARIN-PL, pozwala na uruchomienie aplikacji rzutowania katalogowej bazy Biblioteki Narodowej na mapę (zasób OpenStreet). Portal ma charakter dynamiczny interaktywny. Ukazuje miejsca publikacji książek jako punkty na skalowalnej mapie, umożliwiając „bibliograficzne podróże w czasie”. Odcinek czasowy jest długi, ponieważ obejmuje okres aż 220 lat – od 1800 do 2021, określany jako tzw. późna nowożytność. Ponadto użytkownik może wyświetlać listy książek wydawanych we wskazanym miejscu. Wisienką na torcie jest możliwość generowania wykresów (histogramów), ukazujących liczbę publikacji wydawanych w danej miejscowości w kolejnych latach.
Przykładowe analizy
Użytkownik może bez ograniczeń generować infografiki, a także eksportować dane według własnych upodobań i potrzeb. Poniższe przykłady są jedynie sugestią i pokazem możliwości portalu Wrocław Bibliodata Website.
1. Polska 1938: epilog snu o wolności i rozwoju suwerennego państwa.
Analiza tego obrazu ukazuje kontury granic Polski z okresu dwudziestolecia międzywojennego. Kontury te powstają jako przybliżony obrys obszarów, na których znajdują się czerwone punkty, czyli miejsca wydań książek w roku 1938. Porównanie wielkości punktów wskazuje na Warszawę jako największy ośrodek wydawniczy, a zarazem centrum kultury; drugim takim ośrodkiem jest Lwów, a dopiero dalej są Kraków i Poznań. Dzisiejsze ziemie zachodnie Rzeczpospolitej z Wrocławiem i Szczecinem są „czarne”, ponieważ w tamtym czasie nie należały do Rzeczpospolitej. Obraz jest dość silnie nasycony „światłem” (szczególnie Małopolska i Wielkopolska), co sugeruje znaczną dynamikę publikacyjną ówczesnej Polski.
2. Polska 1943: inter arma silent Musæ.
Obraz jest ponury w swej wymowie. Polska nie prowadzi działalności wydawniczej, społeczeństwo jest sterroryzowane, poddane represjom, zajęte walką o przeżycie i pokonanie niemieckiego najeźdźcy. A Niemcy robią co w ich mocy, by Polaków pozbawić kultury, języka i świadomości narodowej. Punkty widoczne to stolica Generalnej Guberni, czyli Kraków (Krakau) oraz zdegradowana i wciąż niepokorna Warszawa (Warschau). Zaskakuje obecność Łodzi (Litzmanstadt), która została wcielona do Rzeszy.
3. Polska 1952: jedna partia, jeden naród, jedna stolica.
Obraz powyższy jest kwintesencją stalinowskiego centralizmu – najczarniejszej epoki PRL. Polska ma już nowe granice, ale ponad 80% produkcji wydawniczej pochodzi z Warszawy. Dlatego nie da się obrysować wyobrażoną linią konturu odpowiadającego granicom państwa, tak jak można to było zrobić w 1938 roku. Nie widać twórczej aktywności innych miast, a tym bardziej regionów. Słabo dostrzegalne są jasne punkty Łodzi (pozostałość krótkiego okresu powojennego, kiedy niezniszczona przez Niemców Łódź pełniła de facto funkcję stolicy), Krakowa, Poznania i Wrocławia, którego status właśnie został podniesiony do nieformalnej stolicy Ziem Odzyskanych.
4. Polska 1992: Rzeczpospolita nie składa się tylko z czterech wielkich miast.
Jesteśmy krótko po przełomie demokratycznym 1989 roku i zniesieniu cenzury, a jednocześnie tuż przed rewolucją cyfrową, która umożliwi skład i druk „na biurku”, czyli na domowych komputerach (ang. desktop publishing). Kontur Polski jest już widoczny, kreatywna energia jest praktycznie wszędzie, a nie tylko w wielkich miastach. Widać jednak wielkie dysproporcje między regionami: o ile Małopolska jest pełna metaforycznych „światełek wiedzy”, północ kraju, czyli Pomorze, Warmia i Mazury, wydają się być opustoszałe i zaniedbane.
5. Polska 2020: nowy wspaniały świat cyfrowy.
Udoskonalenie komputerów i techniki druku, obniżenie cen takich urządzeń i otwarta gospodarka rynkowa ukazują potęgę ruchu wydawniczego w Polsce. Kontury kraju można bez trudu wyrysować, widać czterech liderów, wschodzące gwiazdy (miasta średniej wielkości w części wschodniej) oraz regiony przodujące pod względem produkcji wiedzy lub zaniedbane, lub nieaktywne.
6. Ciekawostki: błędy atrybucji toponimów.
Atrybucja toponimów do miejsca musi przebiegać automatycznie. Algorytmy nie potrafią jednak zawsze wybrać właściwego miasta – szczególnie gdy jest kilka nazw alternatywnych. Przypadkiem takim jest formalna lokalizacja Wydawnictwa Czarne, założonego przez Andrzeja Stasiuka. Wołowiec właściwy jest przysiółkiem w regionie gorlickim, nawet nie wsią. Program wskazał więc jako lokalizację tego toponimu inny Wołowiec – miasto na dzisiejszej Ukrainie w regionie zakarpackim. Skan poniżej ukazuje, jak portal GeoNames rozpoznaje wspomnianą nazwę.
Aby lepiej zilustrować tę trudność, przedstawiam poniżej skan wyników dla toponimu „Praga”. Jeżeli nie wprowadzi się ograniczenia do terytorium dzisiejszej Polski, liczba potencjalnych nazw miejscowych wyniesie 169.
Rezygnacja z lokalizacji poza granicami Polski pozostawia „jedynie” 19 lokalizacji.
7. Histogramy miast: wielkie zaskoczenie.
Konstrukcja histogramu wyświetlanego przez kliknięcie na punkt z przyciśniętym klawiszem ALT jest prosta. Wyświetla on dwie linie, które reprezentują wartości produkcji wydawniczej w liczbie tytułów (number – linia niebieska) oraz udział liczby tytułów w krajowej produkcji (relative – linia jasnobrązowa). Uprzedzając pytanie o nakłady – dane takie są niedostępne do maszynowego przetwarzania.
Praktycznie wszędzie linie niebieskie są wznoszące, ponieważ pojawia się coraz więcej tytułów. Linie udziału względnego ukazują jednak zupełnie inny – zaskakujący, a wręcz szokujący – obraz.
7.1. Warszawa: w poszukiwaniu publikacyjnego dna.
Miasto stołeczne od 1952 roku systematycznie traci udział w krajowej produkcji wydawniczej. O ile udział 80% w okresie stalinowskim był swoistą patologią, zachowanie wskaźnika po roku 1990 budzie większe wątpliwości. Wskazuje bowiem, że nawet tzw. premia stołeczna nie zrekompensuje braku samoorganizacji i swoistej energii kreatywnej miasta. Nie jest oczywiście tak, że Warszawa nie publikuje coraz więcej – linia niebieska notuje bowiem silny wzrost. Jest raczej tak, że reszta Polski robi to szybciej i lepiej.
7.2. Kraków: premia za wielowiekową stabilność i budowanie prestiżu.
Spośród czwórki (lub piątki) największych polskich miast Kraków wyróżnia się odpornością na kryzysy i zawieruchy historyczne. Doskonale odnalazł się w gospodarce rynkowej, ale praktycznie od początku lat pięćdziesiątych notuje stały wzrost udziału w krajowej produkcji wydawniczej. Niewątpliwie ta wielka energia kreatywna Krakowa – miasta tak sztuki, jak i nauki – wpływa na status całej Małopolski jako polskiego zagłębia wiedzy.
7.3. Wrocław: miasto bez korzeni z trudem odnajduje się w rzeczywistości rynkowej.
Po roku 1945 Wrocław został przez władze PRL uznany za stolicę Ziem Odzyskanych. Status ten gwarantował historycznej stolicy Śląska przywileje gospodarcze i naukowe. Stał się też Wrocław miastem, które przejęło znaczną część zasobów ludzkich i materialnych Lwowa, co pozytywnie wpłynęło na rozwój świata akademickiego: na kulturowej i naukowej mapie Polski zaistniało nowe miasto z ambicjami, które szybko doszlusowało do czołówki. Ale kreatywne lwowskie pokolenie zaczęło powoli schodzić ze sceny, a i przywileje z lat wcześniejszych skończyły się w latach osiemdziesiątych. W świat wolnego rynku Wrocław wkroczył, jak pokazała historia, zupełnie nieprzygotowany. Symbolem swoistej degradacji miasta w kontekście rynku wydawniczego – widocznej na wykresie względnego udziału w produkcji wydawniczej – była nie tylko marginalizacja Wydawnictwa Ossolineum i bankructwo Wydawnictwa Dolnośląskiego, ale przede wszystkim obojętność, z jaką środowisko pogodziło się z utratą prestiżowej pozycji, jaką Wrocław wcześniej zajmował na wydawniczej mapie Polski. Jak widać, odpowiedzialnej, dynamicznej i kreatywnej społeczności w pełnym tego słowa znaczeniu nie da się stworzyć politycznymi dekretami. Zbieranina przypadkowych ludzi, jacy zasiedlili Wrocław po wojnie, dopiero teraz, w czwartym pokoleniu, zaczyna przekształcać się we wspólnotę wartości i tworzyć własną tożsamość.
7.4. Białystok: wschodząca gwiazda rynku wydawniczego?
Najlepiej w rzeczywistości rynkowej odnalazły się te miasta Polski, które mogą poszczycić się starym osadnictwem i wielopokoleniową tradycją. Dotyczy to regionu wschodniego, ale także Krakowa czy Poznania. Warszawa, obniżająca swój wydawniczy status od początku lat pięćdziesiątych do dnia dzisiejszego, jest pod tym względem podobna do Wrocławia i innych miast Polski zachodniej (z uwagi na eksterminację lub emigrację większości mieszkańców po wojnie doszło do zasiedlenia miasta przez ludność napływową). Ze swoją ponadprzeciętną dynamiką przyrostu udziału w całej produkcji wydawniczej Białystok prezentuje się w tej grupie najlepiej.
______________
1. Mapy zostały wykonane przez zespół składający się z dr. inż. Tomasza Walkowiaka (Politechnika Wrocławska) oraz prof. Adama Pawłowskiego (Uniwersytet Wrocławski). W przygotowaniu wykorzystano zasoby katalogowe Biblioteki Narodowej oraz narzędzia NLP, wytworzone przez konsorcjum CLARIN-PL (https://ws.clarin-pl.eu/). Mapki są też dostępne przez portal CLARIN (https://bibgeos.clarin-pl.eu/).
______________
Bibliografia
Migoń Krzysztof (1995), Bolesław Iwiński i międzynarodowa statystyka druków. W: Maria Kocójowa (red.), Studia bibliograficzno-bibliologiczne. Praca zbiorowa dla uczczenia 45-lecia pracy naukowej profesora Wiesława Bieńkowskiego. Kraków: Wydawnictwo Uniwersytetu Jagiellońskiego, s. 209–219.
Zarębska Honorata (2010), Śmiałe pomysły Paula Otleta – belgijskiego naukowca, twórcy informacji naukowej. „Nowa Biblioteka” 2 (7), s. 83–96.
◊◊◊
Artykuł powstał w ramach realizacji przez Bibliotekę Narodową zadania sfinansowanie działalności Centrum Kompetencji w zakresie digitalizacji materiałów bibliotecznych w 2022 roku.
◊◊◊
Dofinansowano ze środków Ministra Kultury i Dziedzictwa Narodowego