Drugie życie "starych gazet", czyli humanistyka cyfrowa w inteligentnej bibliotece na przykładzie korpusu prasy polskiej ChronoPress
Użyte w tytule wyrażenie „stare gazety” wzięto w cudzysłów nie bez przyczyny. Symbolizuje ono sposób, w jaki prasa postrzegana była przez dziesięciolecia. Niski prestiż społeczny tego medium w stosunku do innych nośników treści utrwalił się zresztą nie tylko w języku, ale również w zrachowaniach społecznych. O ile książkę eksponuje się w przestrzeni publicznej i prywatnej jako symbol wykształcenia i intelektu, o ile traktuje się ją jako swoistą wartość kolekcjonerską funkcjonującą w obiegu antykwarycznym, o ile czytelnicy powracają raz po raz do swoich dawnych lektur, o tyle gazeta, nazajutrz po wydaniu, staje się niemal bezwartościowym materiałem wtórnym lub po prostu trafia na śmietnik. Ową efemeryczność odzwierciedla niska jakość nośnika, czyli tani papier i brak oprawy. Można dodatkowo wspomnieć o imperatywie systematycznego zastępowania starych numerów gazet i czasopism nowymi, wymuszającym regularną utylizację wydań wcześniejszych, charakterystyczną dla społeczeństwa konsumpcyjnego. Gdy mowa o treści, z całą pewnością gazety i czasopisma są pod tym względem niespójne, a ich nieregularna i nieciągła forma edytorska utrudnia opracowanie komputerowe. Ponadto częsta jest praktyka publikowania artykułów niesygnowanych, co praktycznie uniemożliwia tworzenie indeksów autorów. Z kolei nacisk na aktualność informacji skutkuje tym, że teksty są pisane szybko i schematycznie, nie reprezentują więc wartości wykraczających poza kontekst konkretnego czasu i miejsca.
Jednak twierdzenie, iż setki milionów wyrazów, wypełniających szpalty drukowanych każdego roku gazet, nie niosą ze sobą żadnej trwałej wartości informacyjnej, nie odpowiada prawdzie. Oprócz od rejestracji jednostkowych faktów, przydatnej w badaniach historycznych lub w monitoringu bieżących zdarzeń, prasa ujęta w masie, w postaci wielkiego korpusu tekstów, kryje w sobie treści ogólniejsze, wartościowe, nieulegające dezaktualizacji, dające spójny i poznawczo wartościowy obraz rzeczywistości. Treści te można odkrywać narzędziami wydobywania informacji (text mining), wytwarzanymi w ramach rozwijającej się od kilku lat humanistyki cyfrowej.
Należy podkreślić, że w badaniach wielkich zbiorów tekstów, wykorzystujących techniki text mining, nie chodzi o treści rozpowszechniane przez autora intencjonalnie. Istotą sprawy jest dotarcie do informacji implicytnej, niewidocznej, ale wyłaniającej się dzięki analizie całego strumienia prasowego w długim okresie czasu. Przecież żaden autor piszący w latach 50. i 60. nie informuje czytelników, o tym, że zasady poprawności politycznej nie zabraniały dosłownego określania dysfunkcji ciała ludzkiego bądź odwołania do mniejszości etniczno-rasowych przez kolor skóry. Można to jednak zaobserwować, badając występowanie pewnej klasy wyrazów. Brak też jest w prasie samorefleksji na temat tego, co w danym momencie jest elementem szerokiego konsensusu społecznego (hierarchie i struktury społeczne, status płci, pozycja przedstawicieli różnych zawodów itp.) lub determinuje byt (na przykład poziom technologii lub typ pożywienia). Jednak analiza kontekstowa właściwie dobranych wyrazów wydobywa takie ukryte cechy na powierzchnię. Wprawdzie niektóre uogólnienia mogą być zasygnalizowane w jednostkowych artykułach, ale umyka ich szerszy profil, widoczny dopiero w masie tekstów publikowanych w długich okresach.
Inteligentna biblioteka, czyli big data, text mining, culturomics i distant reading
Ostatnie dwie dekady przyniosły wielką liczbę publikacji, opisujących metody syntetyzowania informacji zawartej w setkach tysięcy dokumentów i komunikowania wyników za pomocą infografik jako medium prymarnego, a nie wyłącznie poglądowego dodatku do warstwy dyskursywnej. Nie byłoby to oczywiście możliwe bez masowej cyfryzacji i rozwoju technik komputerowych. Jako swoisty pierwowzór takiego podejścia w zakresie wielkich baz danych tekstowych, przynajmniej w obszarze kultury anglosaskiej, traktować można artykuł zespołu badaczy bazy Google Books, którego znamienny tytuł: „Quantitative Analysis of Culture Using Millions of Digitized Books”[1], jest zarazem uproszczoną definicją nowej subdyscypliny lingwistyki i antropologii kultury, za jaką można uznać „culturomics”. Przyjmując tymczasowo najprostszy odpowiednik polski tej nazwy i zastępując książki bardziej uniwersalną kategorią dokumentu, „kulturomikę” można zdefiniować jako: ilościowe badania kultury metodami cyfrowymi na podstawie wielkich zbiorów dokumentów.
Z kolei prace literaturoznawcy amerykańskiego, Franco Morettiego, który zastosował pojęcie tzw. distant reading (proponuję jako odpowiednik polski czytanie wspomagane) w opozycji do close reading (tutaj chyba najlepszym odpowiednikiem jest po prostu czytanie bez dodatkowych przymiotników), pokazały, jak ogromny potencjał tkwi w analizach wielkich zbiorów literatury pięknej, prowadzonych metodami komputerowymi[2]. W szczególności Moretti wprowadził do badań tekstu na niespotykaną wcześniej skalę kategorię przestrzeni, nadając jej różne symboliczne znaczenia. Znamienny jest już sam tytuł bodaj najlepiej znanej jego pracy: Atlas of the European Novel 1800–1900.
Opisane tutaj sposoby przetwarzania tekstów można stosować do wszystkich typów dokumentów – nie tylko literatury pięknej. Przedstawione dalej przykłady, wygenerowane z korpusu prasy polskiej ChronoPress (http://chronopress.clarin-pl.eu), potwierdzają relewantność wykorzystania narzędzi automatycznego przetwarzania tekstu w badaniach publikacji periodycznych. Ich potencjał poznawczy wynika z tego, że ujawniają ukryte pod warstwą jednostkowych wypowiedzeń zjawiska, tendencje rozwojowe, powiązania i hierarchie, których obecność uczeni mogli przeczuwać, ale bez zasobów i narzędzi cyfrowych nie mogli zbadać empirycznie.
Wszystko wskazuje na to, że przyszłość czytania dla celów zawodowych, a w szczególności naukowych, należy nierozłącznie wiązać z użyciem komputera i narzędzi automatycznego przetwarzania tekstu. Zwiększa się dzięki nim zakres i prędkość akwizycji wiedzy, co w wielu wypadkach daje istotną przewagę informacyjną. Natomiast czytanie dla przyjemności, realizujące funkcje ludyczne, pozostanie niezmiennie powolne, niezależnie zresztą od fizycznego nośnika tekstu. Skoro więc czytanie wspomagane jest tak skuteczne w akwizycji wiedzy, można się spodziewać, że w niedalekiej przyszłości powstaną inteligentne systemy biblioteczne, pozwalające użytkownikom na korzystanie z zaawansowanych narzędzi analizy tekstu w przyspieszonym pozyskiwaniu wiedzy z tekstów. Taki system udostępniania wielkich zbiorów określam właśnie mianem „inteligentnej biblioteki”. Jego istotą jest generowanie danych wtórnych na podstawie automatycznej analizy dowolnych ilości tekstu, znajdującego się w dostępnych zasobach cyfrowych.
Wypada podkreślić, że polska nauka tworzy narzędzia wspomagające automatyczne wydobywanie informacji z tekstu, pokonując przy tym bariery poznawcze, finansowe i administracyjne. Przykładem zespołu, który osiąga na tym polu sukcesy jest konsorcjum CLARIN-PL (http://clarin-pl.eu), skupiające inżynierów i lingwistów specjalizujących się w przetwarzaniu tekstu i mowy, oferujące środowisku naukowemu i zwykłym użytkownikom kolejne aplikacje ułatwiające przetwarzanie tekstu. Natomiast jedną z pierwszych implementacji takiego systemu może stać się projekt stworzenia Atlasu Zasobów Otwartych Nauki (AZON), realizowany przez Politechnikę Wrocławską.
Charakterystyka korpusu danych[3]
Korpus Polskich Tekstów Prasowych ChronoPress obejmuje w obecnej wersji próbki, pochodzące z periodyków ukazujących się w latach 1945–1962. Próbki funkcjonują na prawach cytatu, ponieważ stanowią małe fragmenty większych całości. W kolejnych etapach ChronoPress będzie rozszerzony do okresu 1945–1990, pokrywającego się z czasem przynależności Polski do Bloku Wschodniego (od 1952 jako Polskiej Rzeczpospolitej Ludowej). Docelowo ChronoPress ma objąć symboliczne sto lat niepodległości Polski, czyli lata 1918–2017. Relewantność reprezentacji dużego zbioru przez mniejszy jest zgodna z zasadami indukcji naukowej. Podejście takie jest też powszechnie stosowane w badaniach humanistycznych i społecznych. Poprawna „mikrofotografia” wielkiego korpusu wystarcza, by ukazać wszystkie istotne tendencje i zjawiska.
Liczba próbek reprezentujących strumień informacji prasowej dla danego roku wynosi ok. 5800, co daje łącznie ponad sto tysięcy próbek w okresie realizowanym obecnie (stan wypełnienia bazy wynosi ok. 70%). Objętości próbek mają średnią 300 wyrazów, ale są zmienne, ponieważ przyjęto zasadę, że zdania nie będą ucinane, co ułatwi analizę składniową. Korpus za okres 1945–1962, po ukończeniu, będzie więc miał objętość przekraczającą trzydzieści milionów wyrazów. W miarę dodawania kolejnych roczników objętość ta będzie proporcjonalnie rosła.
Jednym z istotnych etapów tworzenia korpusu był dobór periodyków. Zgodnie z dobrze znaną zasadą programowania rubbish in, rubbish out, o jakości wyniku przetwarzania nie decyduje objętość danych wejściowych, ale ich właściwa selekcja. W tym przypadku dobór tytułów opierał się na przyjętych apriorycznie zasadach, które zostały wywiedzione z dominującej wówczas doktryny i praktyki marksizmu-leninizmu w wersji polskiej. Uznano, że rynek odbiorcy składa się z głównych klas społecznych (definiowanych przez doktrynę) oraz innych grup, które z jakiegoś powodu władza uważała za istotne (na ogół były to powody ideologiczne i pragmatyczne). Konkretnym grupom przypisano następnie tytuły i liczby próbek. Za podstawowe grupy odbiorcze uznano robotników i mieszkańców wsi (w ówczesnym języku określanych mianem „klasy robotniczej i chłopstwa”) oraz tzw. inteligencję pracującą. Ponadto, zgodnie z preferencjami ówczesnej władzy, wyróżniono także gazety i czasopisma adresowane do młodzieży, wojska, kobiet i katolików.
Próbki są anotowane metainformacją w formacie XML, a sam tekst jest przetworzony parserem morfosyntaktycznym WCRF[4], który pozwala na sprowadzenie form odmienionych do lematów. Operacja taka ułatwia wyszukiwanie oraz inne operacje na tekście. Niestety stosowany parser nie ma funkcji dezambiguacji semantycznej, co oznacza, że na etapie wyszukiwania nie odróżnia się form homograficznych. ChronoPress oferuje użytkownikowi możliwość przeglądania próbek, generowania konkordancji, wyświetlania statystyk tekstu (skupienie i rozrzut, rozkłady długości i częstości jednostek, krzywa Zipfa). Z punktu widzenia eksploracji danych najważniejsze są trzy moduły: szeregów czasowych, profilowania leksemów przez kontekst i generowania map. Zarówno szeregi czasowe, jak i mapy pozwalają na przechodzenie od tekstu do grafiki, a następnie od grafiki do konkordancji.
Technologia jest najbardziej dynamicznym elementem bazy i całego systemu, będzie więc podlegać częstym zmianom i ulepszeniom. Sprawą dyskusyjną może być natomiast sam pomysł prezentowania prasy z okresu, kiedy Polska była państwem totalitarnym i niesuwerennym. Można w szczególności zadać pytanie, co wyrażają generowane wykresy i inne dane pochodne, skoro wolność wypowiedzi nie istniała, a więc każde słowo w przestrzeni publicznej podlegało cenzurze. Odpowiedź na to pytanie jest dość prosta. Danych tego rodzaju w zasadzie nigdy, nawet w państwach demokratycznych, nie wolno traktować jak prawdy w sensie absolutnym. Mediatyzacja zawsze filtruje wrażenia zmysłowe, a intelekt wytwarza konstrukty poznawcze, kreujące jakiś obraz świata. Użycie danych prasowych z okresu Polski Ludowej jest więc w pełni uzasadnione, ponieważ ich potencjał poznawczy jest ogromny i dla wielu badaczy niedostępny. Konieczna jest natomiast staranna interpretacja uzyskanych wyników, wymagająca pewnej znajomości tego okresu historycznego.
Przykładowe wyniki analiz chronologicznych
Korpus ChronoPress jest prototypem narzędzia, które pozwala na wydobywanie informacji z dużych baz tekstowych, w szczególności gdy chodzi o teksty uporządkowane na osi czasu. Poniżej przedstawiam kilka przykładowych analiz chronologicznych, pozwalających na syntetyzowanie informacji zawartej w szerokim strumieniu prasy codziennej. Przykłady te można traktować jako potencjalne scenariusze użycia portalu i wskazówkę, jak wzbogacić interfejsy dostępowe innych zasobów danych.
Wojna
Pierwszemu badaniu poddano ewolucję frekwencji leksemu „wojna” (Rys. 2). Przedstawiony histogram pokazuje wyraźnie, że zaraz po drugiej wojnie światowej w polskiej prasie temat ten był często omawiany. Dopiero lata po przełomie roku 1956 przyniosły istotną zmianę. Nieregularny kształt krzywej, a w szczególności jej odbicie w latach 1950–1951, wskazuje, że pojawił się temat nowych konfliktów zbrojnych (w Europie lub w innych częściach świata). Kwestia dopasowania ewentualnego modelu matematycznego do danych jest jednak delikatna, ponieważ rodzi daleko idące trudności interpretacyjne (uwaga ta odnosi się także do kolejnych przykładów).
NSZ
Drugiemu badaniu poddano ewolucję częstości skrótu „NSZ”, oznaczającego formację zbrojną Narodowe Siły Zbrojne, która w warunkach tworzącego się systemu politycznego Polski powojennej nie złożyła broni i prowadziła działania dywersyjne po 1945 roku (Rys. 3). Prasa pisała wówczas o „bandytach z NSZ”, nota bene dziś często rehabilitowanych. Frekwencja nazwy tej organizacji pokazuje, że największe nasilenie walk i procesów, przypada na lata 1946–1947, natomiast później propaganda polityczna praktycznie usunęła ten temat z obiegu prasowego. Nie oznacza to jednak, że o NSZ nie pisano. Analiza trendu pokazuje jedynie, że prawdopodobieństwo natrafienia na taki temat w prasie codziennej po roku 1950 było niewielkie w stosunku do okresu następującego tuż po wojnie.
Katowice / Stalinogród
Trzeciej analizie poddano frekwencję nazwy „Katowice”, która na kilka lat, po śmierci Józefa Stalina, została zmieniona na „Stalinogród” (Rys. 4). Zasada patronimicznych nazw miast, honorujących wielkich rewolucjonistów, była rozpowszechniona w ZSRR (Leningrad, Kaliningrad, Stalingrad itd.). Próbowano więc przeszczepić ją na grunt polski. Niezależnie od ekstremów, które wskazują na zdarzenia lub rocznice związane jakoś z Katowicami, wykres ukazuje wyraźnie, że nazwa tego wielkiego miasta faktycznie znika na pewien czas z przestrzeni publicznej, a następnie powraca. Jest to zjawisko osobliwe i bezprecedensowe we współczesnej Europie.
Żniwa
Czwartej analizie poddano leksem „żniwa”, który wyraźnie ukazuje tzw. rytmy astronomiczne, porządkujące ludzką aktywność na ziemskim padole (Rys. 5). Ekstrema są regularne, pojawiają się mniej więcej w tych samych miesiącach roku – w szczególności latem („wielkie” żniwa zbóż) oraz, z dużo mniejszym natężeniem, jesienią, kiedy miały miejsce żniwa buraków (różnica w wartościach wynika z tego, że część bazy jest w trakcie wypełniania danymi, jednak nie ma to wpływu na ogólną tendencję i charakterystyczny histogram przypominający piłę). Bardzo podobnie w czasie zachowują się leksemy związane z innymi zjawiskami naturalnymi (pogoda, prace rolnicze) oraz rytmami kultury, które wyznacza sam człowiek, celebrując święta, obchodząc rocznice czy organizując wybory.
[1] Michel J.-B., Shen Y. K., Aiden A. P., Veres A., Gray M. K., The Google Books Team, Pickett J. P., Hoiberg D., Clancy D., Norvig P., Orwant J., Pinker S., Nowak M.A., Aiden E. L. (2011), Quantitative Analysis of Culture Using Millions of Digitized Books. Science 14 (2011), Vol. 331, 176–182.
[2] Moretti Franco (1999), Atlas of the European Novel 1800–1900. London-New York: Verso.
[3] Wszystkie dotychczasowe prace nad korpusem ChronoPress prowadzone były w ramach konsorcjum CLARIN-PL (http://clarin-pl.eu) i finansowane przez polskie Ministerstwo Nauki i Szkolnictwa Wyższego.
[4] Radziszewski Adam (2013), A Tiered CRF Tagger for Polish. In: Robert Bembenik (ed.), Intelligent Tools for Building a Scientific Information Platform. Berlin etc.: Springer, 215–230.
Bibliografia uzupełniająca
Drucker Johanna, Kim David, Salehian Iman, Bushong Anthony (2014), Introduction to Digital Humanities. Concepts, Methods, and Tutorials for Students and Instructors. E-book published in 2014 by UCLA.
Leech Geoffrey N., Rayson Paul, Wilson Andrew (2001), Word frequencies in written and spoken English: based on the British National Corpus. Harlow etc.: Longman.
Moretti Franco (2000), Conjectures On World Literature. New Left Review 1 (2000), 54-68.
(https://newleftreview.org/II/1/franco-moretti-conjectures-on-world-literature)
Olsen Mark (1993), Quantitative Linguistics and Histoire des mentalités: Gender Representation in the ‘Trésor de la langue française’ 1600-1950. In: Reinhard Köhler, Burghard B. Rieger (eds.) (1993), Contributions to Quantitative Linguistics. Dodrecht: Kluwer Academic Publishers, 361–371.
Olsen Mark, Harvey Louis-Georges (1988), Computers in Intellectual History: Lexical Statistics and the Analysis of Political Discourse. Journal of Interdisciplinary History 18, 449–464.
Pawłowski Adam (2006a), Chronological analysis of textual data from the 'Wrocław Corpus of Polish’. Poznań Studies in Contemporary Linguistics 41, 9-29.
Pawłowski Adam (2006b), Quantitative linguistics in the study of colour terminology. A research report. In: Carole P. Biggam, Christian J. Kay (eds.), Progress in Colour Studies. Amsterdam, Philadelphia: John Benjamins Publishing Company, 37–56.
Pawłowski Adam (2010), From word frequencies to the cognitive map of Europe. Multidimensional scaling in the analysis of a multilingual Corpus. Studies in Polish Linguistics 5 (2010), 99–109.
Schreibman Susan, Siemens Ray (eds.) (2008), A Companion to Digital Literary Studies. Oxford: Blackwell.