Polona/Labs

E-usługa DESKRYPTOR. Deskryptory Biblioteki Narodowej pod strzechy?


    Biblioteki, tak jak i pozostałe instytucje gromadzące dobra kultury, czyli galerie, archiwa i muzea (składające się na tzw. sektor GLAM, z ang. galleries, libraries, archives, museums) od zawsze zajmują się – oprócz gromadzenia i udostępniania zbiorów – także ich opisem.

    Jeśli przyjąć, że biblioteka to właściwie „zbiór informacji dobranych do potrzeb danej społeczności” (Keller, Reich & Herkovic, 2003; Philips, 2010), usystematyzowany opis tych informacji (metainformacje) jest kluczowy dla jej funkcjonowania. To dlatego w XIX i XX wieku nastąpił tak gwałtowny rozwój teorii bibliografii, teorii informacji naukowej i języków informacyjno-wyszukiwawczych.

    Języki informacyjno-wyszukiwawcze, dalecy spadkobiercy Pinakesu, pierwszej znanej „bazy danych”, katalogu stworzonego przez Kallimacha z Cyreny na potrzeby Biblioteki Aleksandryjskiej, miały właśnie pełnić rolę takiego usystematyzowanego opisu informacji i jednocześnie zapewnić precyzyjny i niezawodny dostęp do każdego zgromadzonego „dobra kultury”, bez względu na jego formę.

    Założenia były bardzo ambitne, prawdziwie oświeceniowe i encyklopedyczne: stworzyć sztuczny język, ze sztuczną gramatyką, słownictwem, siecią odsyłaczy i wewnętrznych powiązań, a następnie przypisać każdemu zgromadzonemu obiektowi, każdej „informacji” odpowiednie etykiety (hasła przedmiotowe). W ten sposób powstały rozbudowane kartkowe katalogi rzeczowe, alfabetyczne spisy haseł przedmiotowych (tematów) wraz z przyporządkowanymi do nich wszelkimi materiałami znajdującymi się w bibliotekach.

    System był starannie zaprojektowany i spełniał swoje zadanie. Spełniał je na tyle dobrze, że w zasadniczo niezmienionej formie trafił do świata cyfrowego, a w pewnym zakresie nawet ten świat ukształtował (Kotuła, 2013). Rewolucyjne – jak na tamte czasy – narzędzie zapadło się jednak pod własnym ciężarem.

    Języki haseł przedmiotowych, takie jak Język Haseł Przedmiotowych Biblioteki Narodowej (JHP BN) czy Język Haseł Przedmiotowych Katalogów Automatycznych Bibliotek Akademickich (JHP KABA) miały nie tylko zapewniać jednolite punkty dostępu do zbiorów (tzn. w opisach bibliograficznych dane hasło musiało przyjąć tę jedną właściwą i przewidzianą w słowniku formę), ale i w możliwie dokładny sposób odzwierciedlać ich treść.

    Rys. 1. Budowa haseł przedmiotowych

    Hasło przedmiotowe składało się więc z „wyszczególniającego” tematu (np. osobowego, ogólnego, geograficznego) oraz z „uogólniających” określników (np. geograficznych, chronologicznych), kodujących dodatkowy kontekst – ujęcie czy lokalizację w czasie i przestrzeni.

    Przy wszystkich niezaprzeczalnych zaletach takiej „architektury informacji”, zasady tworzenia nowych haseł stały się z czasem zbyt skomplikowane nawet dla specjalistów, a sam język, wraz z dynamicznym w początkowym okresie rozwojem, zamiast nabierać elastyczności, stopniowo ją tracił (choćby z tego względu, że jeżeli istniało hasło szersze w stosunku do nowo tworzonego, należało przejrzeć wszystkie pozycje wcześniej do niego przyporządkowane i wykonać tzw. meliorację bazy danych – być może, w związku z utworzeniem hasła bardziej szczegółowego (węższego), niektóre przyporządkowania należało zmienić).

    Rys. 2. Melioracja bazy danych (katalogu)

    A czytelnicy? Dopóki z bibliotek korzystano niemal wyłącznie stacjonarnie i dopóki w odnalezieniu poszukiwanych informacji mógł pomóc biegły w arkanach „informacji naukowej” bibliotekarz, wszystko funkcjonowało bez zarzutu. Po wprowadzeniu elektronicznych katalogów bibliotecznych (OPAC – z ang. Online Public Access Catalog) pojawił się jednak problem – okazało się, że użytkownicy korzystają z haseł przedmiotowych stosunkowo rzadko, a ich „kompetencje informacyjne” są niewystarczające do formułowania poprawnych zapytań za pomocą języków informacyjno-wyszukiwawczych (m.in. użytkownicy nie rozróżniali typów tematów/indeksów, nie stosowali określników, nie radzili sobie z łączeniem kryteriów zapytania przy użyciu operatorów logicznych). Skutkowało to często występowaniem tzw. ciszy informacyjnej, czyli brakiem jakichkolwiek wyników (Paleczna, 2011, s. 82-97).

    Rys. 3. Wyszukiwanie w OPAC a wyszukiwanie w Google

    Jakby tego było mało, pojawiły się wyszukiwarki internetowe. Od teraz, żeby uzyskać zadowalające rezultaty, wystarczyło jedynie wpisać poszukiwaną frazę w pojedynczym formularzu, nie przejmując się wyborem indeksów czy hasłami przedmiotowymi. Ciężką pracę – zamiast bibliotekarzy i czytelników – wykonywały wydajne algorytmy. Zaś po „wynalezieniu” mechanizmu zawężania wyników przy użyciu faset (filtrów), używane w bibliotekach prekoordynowane (czyli takie, w których „zdania” języka są wcześniej skonstruowane przez osobę katalogującą) języki informacyjno-wyszukiwawcze, jak i zresztą w dużej mierze cała „teoria informacji naukowej”, straciły rację bytu (przynajmniej w swojej dotychczasowej postaci – zobacz burzliwą dyskusję na ten temat na przykład u: Bojar, 2007, 2009; Babik, 2011).

    Odpowiedzią na te problemy jest przekształcanie dotychczas stosowanych języków haseł przedmiotowych na zdecydowanie lepiej dostosowane do współczesnych narzędzi informatycznych języki deskryptorowe. Języki te przypominają używane w wielu serwisach swobodne słowa kluczowe (tagi), ale posiadają kontrolowane słownictwo (tzn. istnieje słownik/tezaurus, który określa, jakie terminy mogą wystąpić w roli deskryptora/słowa kluczowego) oraz sieć powiązań i odnośników. Przykładem takich języków są: powstały na bazie Języka Haseł Przedmiotowych Biblioteki Kongresu (LCSH, z ang. Library of Congress Subject Headings) FAST (z ang. Faceted Application of Subject Terminology) czy utworzone na podstawie Języka Haseł Przedmiotowych BN (JHP BN) Deskryptory Biblioteki Narodowej (DBN).

    Rys. 4. Języki prekoordynowane a postkoordynowane

    Deskryptory Biblioteki Narodowej (używane obecnie w katalogu Biblioteki Narodowej oraz w wielu katalogach polskich bibliotek publicznych i naukowych) odziedziczyły w ten sposób olbrzymi zasób słownictwa (ponad 2 850 000 terminów), są uniwersalne (można nimi opisać dokument na niemal dowolny temat), postkoordynowane (to użytkownik tworzy samodzielnie „zdanie” w języku, łącząc deskryptory operatorami logicznymi za pomocą filtrów), a co najważniejsze, są jednoznaczne i umożliwiają semantyczne wyszukiwanie informacji.

    Tylko co to właściwie znaczy semantyczne wyszukiwanie i czym różni się od wyszukiwania zwykłego? Kiedy użytkownik wpisuje w wyszukiwarce frazę wyszukiwawczą, najczęściej otrzymuje wyniki na podstawie występowania danej frazy w metadanych opisujących dokument lub w samym tekście dokumentu. Jeśli wpisze frazę „róża”, wyszukiwarka nie wie, czy szuka informacji na temat kwiatów, czy choroby skóry. Deskryptory BN precyzyjnie rozróżniają takie konteksty wyszukiwania, a dodatkowo oferują możliwość szybkiego nawigowania po tematach powiązanych i – co równie istotne – oferują połączenie z innymi zasobami informacyjnymi (np. z ogólnoświatową kartoteką wzorcową VIAF lub z Wikipedią), realizując w ten sposób podstawowe założenie idei „otwartych danych połączonych” (LOD, z ang. Linked Open Data).

    Żeby ułatwić korzystanie z Deskryptorów BN innym zainteresowanym (instytucjom, wydawcom, twórcom serwisów internetowych, naukowcom) Biblioteka Narodowa w ramach projektu mLUMEN stworzyła narzędzie do automatycznego tagowania tekstów w języku polskim. E-usługa DESKRYPTOR, bo tak brzmi oficjalna nazwa tego narzędzia, przyporządkowuje dowolnemu dokumentowi zestaw Deskryptorów BN, który może zastąpić lub wzbogacić dotychczas stosowane słowa kluczowe i połączyć zasoby różnorodnych serwisów i baz danych z zasobami polskich bibliotek (na tym zresztą opiera się pomysł na aplikację mLUMEN, o której więcej w innym wpisie).

    E-usługa DESKRYPTOR zbudowana jest w oparciu o uczenie maszynowe przy użyciu otwartoźródłowej platformy programistycznej udostępnionej przez Bibliotekę Narodową Finlandii – Annif (Suominen, 2019) i wykorzystuje dwa algorytmy: Maui-like Lexical Matching – MLLM (Medelyan, 2009) oraz Bonsai (Khandagale, Xiao & Babbar, 2019).

    Model sztucznej inteligencji (uczenia maszynowego) wykorzystujący algorytm MLLM został wytrenowany na zbiorze kilku tysięcy dłuższych tekstów (posty blogowe, artykuły naukowe, artykuły prasowe) z różnych dziedzin wraz z przyporządkowanymi do nich deskryptorami, model opierający się o algorytm Bonsai wykorzystuje natomiast korpus ponad czterech milionów tytułów z katalogu BN.

    Dodatkowo sugestie w postaci tagów otrzymane z tych dwóch modeli są wykorzystywane do wytrenowania kolejnego modelu, opartego o sieć neuronową (nn-ensemble), który dokonuje ponownej oceny trafności sugestii i zwraca użytkownikowi te o największym prawdopodobieństwie trafności.

    To, co robi e-usługa DESKRYPTOR, nie jest wcale zadaniem trywialnym. Istniejące wcześniej algorytmy i modele uczenia maszynowego umożliwiały jedynie ekstrakcję słów kluczowych (słowa kluczowe musiały chociaż raz w analizowanym tekście wystąpić) lub przypisanie tekstu do jednej z kilku lub kilkunastu kategorii. Nie przez przypadek algorytmy wykorzystywane w e-usłudze DESKRYPTOR wykonują obliczenia nazywane „extreme multi-label classification”, czyli dokonują klasyfikacji przy użyciu „ekstremalnie” wielu kategorii – analizowany przez e-usługę tekst może zostać przypisany do ponad dwóch milionów tagów, a dany tag (nazwa tagu) nie musi wcale w analizowanym tekście bezpośrednio występować.

    Na przykład tytuł artykułu o demografii „Świat się przeludnia, Polska wyludnia. W końcu za mało nas czy za dużo?” zostanie opisany następującymi deskryptorami: „Ludność”, „Polska”, „Demografia”, „Migracje”, „Prognoza demograficzna”, „Polityka ludnościowa”, „Reprodukcja ludności”, „Ekonomia”, „Depopulacja”, a także, choć z niskim prawdopodobieństwem, „Wsie” i „Podlasie”. Skąd „sztuczna inteligencja” to wie? Po prostu widziała tysiące takich tytułów i na podstawie pewnych podobieństw wywnioskowała, że artykuł ten może traktować właśnie na te tematy.

    Rys. 5. „Semantyczna” analiza tekstu przez e-usługę DESKRYPTOR

    Wytrenowane modele radzą sobie również stosunkowo dobrze z wieloznacznością poszczególnych terminów i na podstawie dostępnego kontekstu, a także wykorzystując zakodowane przez bibliotekarzy powiązania i odnośniki, są w stanie nadać deskryptory (tagi) jednoznacznie określające temat danego fragmentu tekstu. Dobrym przykładem są powyższe dwa wycinki tekstów o kusakach – pierwszy o ptakach (występujących w Ameryce Środkowej i Południowej), a drugi o chrząszczach (występujących licznie w Polsce). Można więc powiedzieć, że narzędzie to rzeczywiście – na swój sposób – „rozumie” tekst, a czasami jest nawet w stanie zauważyć dość nieoczywiste powiązania.

    Pomimo tego, e-usługa DESKRYPTOR jest też w stanie się spektakularnie pomylić. I jeżeli się już myli, to są to najczęściej pomyłki, których człowiek by nie popełnił. Na przykład do niektórych fragmentów artykułów o chrząszczach z rodziny kusakowatych zwraca deskryptor „Kusak, Barbara”. No cóż – niefortunna zbieżność nazw.

    Są też pomyłki – a w zasadzie zniekształcenia rezultatów – wynikające z uprzedzeń odziedziczonych po ludziach (z ang. AI bias). Choć od maszyny oczekiwałoby się wręcz bezdusznego obiektywizmu i bezstronności, to modele sztucznej inteligencji trenowane są najczęściej za pomocą danych wyprodukowanych przez żywych ludzi, niewolnych od emocji i często powielających stereotypy. Wiele zależy też od doboru próbki danych – powinna być dobrze zbilansowana i nie faworyzować żadnych terminów. W praktyce niełatwo to osiągnąć, zwłaszcza przy tylu możliwych kategoriach (na przykład e-usługa DESKRYPTOR zbyt pochopnie nadaje tag „Polska”, ponieważ występuje on w korpusie danych treningowych nieproporcjonalnie częściej w stosunku do innych krajów).

    Mimo to, e-usługa DESKRYPTOR jest zaskakująco skutecznym narzędziem, a przy odpowiednim doborze progu trafności z powodzeniem można stosować ją w systemach „produkcyjnych” (jest już zresztą stosowana w aplikacji mLUMEN).

    Z e-usługi można korzystać na dwa sposoby: za pomocą interfejsu graficznego oraz za pomocą interfejsu programistycznego, czyli API (Application Programming Interface). Interfejs graficzny umożliwia wygodne testowanie e-usługi i analizę pojedynczych tekstów o niewielkiej długości, w przypadku tagowania większej liczby tekstów lub integracji e-usługi z innymi aplikacjami zaleca się korzystanie z API.

    Bibliografia:

    1. Babik, W. (2011). O potrzebie nowej definicji języka informacyjno-wyszukiwawczego. Zagadnienia informacji naukowej, 2.
    2. Bojar, B. (2007). Informacja naukowa – czy to już koniec? Praktyka i Teoria Informacji Naukowej i Technicznej, 2.
    3. Bojar, B. (2009). Języki informacyjno-wyszukiwawcze wczoraj, dziś… czy jutro? Zagadnienia informacji naukowej, 1.
    4. Keller, M., Reich, V., & Herkovic, A. (2003). What is a library anymore, anyway? First Monday, 8(5). [zarchiwizowany artykuł dostępny online tutaj]
    5. Khandagale, S., Xiao, H. & Babbar R. (2019). Bonsai – Diverse and Shallow Trees for Extreme Multi-label Classification. arXiv:1904.08249. [zarchiwizowany artykuł dostępny online tutaj]
    6. Kotuła, S. D. (2013). Dziedzictwo kultury książki a środowisko cyfrowe World Wide Web. Przegląd Biblioteczny, 1.
    7. Medelyan, O. (2009). Human-competitive automatic topic indexing. Niepublikowana praca doktorska. [zarchiwizowana praca dostępna online tutaj]
    8. Paleczna, D. (2011). Komunikacja użytkownika biblioteki z katalogiem OPAC. Niepublikowana praca magisterska. [zarchiwizowana praca dostępna online tutaj]
    9. Philips, H. (2010). The Great Library of Alexandria? Library Philosophy and Practice. [zarchiwizowany artykuł dostępny online tutaj]
    10. Suominen, O. (2019). Annif: DIY automated subject indexing using multiple algorithms. LIBER Quarterly: The Journal of the Association of European Research Libraries, 29(1). [zarchiwizowany artykuł dostępny online tutaj]

    ◊◊◊

    Artykuł powstał w ramach realizacji przez Bibliotekę Narodową zadania sfinansowanie działalności Centrum Kompetencji w zakresie digitalizacji materiałów bibliotecznych w 2022 roku. 

    ◊◊◊

    Dofinansowano ze środków Ministra Kultury i Dziedzictwa Narodowego

    Zobacz także