Polona/Labs

Polona w architekturze RAG: w stronę wyszukiwania nowej generacji


    W pierwszej odsłonie tej opowieści wędrowaliśmy od chłodu średniowiecznych skryptoriów, przez hałaśliwe drukarnie Wittenbergi, aż po pierwsze cyfrowe eksplozje informacji. Pokazaliśmy, że humanistyka – niezależnie od epoki – zawsze była zakładnikiem swojej infrastruktury: nośników, katalogów, indeksów i metod porządkowania wiedzy.

    Dziś stoimy przed kolejną zmianą. Jest ona mniej spektakularna wizualnie niż skaner 3D czy miliony nowych plików wpadających do repozytorium, ale znacznie głębsza strukturalnie. Nie dotyczy ona już samej digitalizacji ani nawet skali zbiorów – te etapy mamy już w dużej mierze oswojone. Nowa rewolucja dotyczy architektury dostępu do sensu.

    Jej techniczne imię brzmi obco i chłodno: Retrieval-Augmented Generation (RAG). Jednak jej humanistyczna istota jest prosta i fundamentalna: to przejście od biblioteki, która magazynuje, do biblioteki, która rozumie.

    Polona dziś: katedra obiektów

    Aby w pełni zrozumieć wagę tej zmiany, spójrzmy na Polonę taką, jaką znamy dzisiaj. Jest ona znakomitym przykładem dojrzałej „architektury obiektowej”. Jej nienaruszalnym fundamentem pozostaje dokument: książka, numer czasopisma, rękopis, grafika czy mapa. Każdy taki obiekt jest precyzyjnie zdefiniowany:

    • opisany ustandaryzowanymi metadanymi,
    • osadzony w sztywnej strukturze logicznej (kolekcja, tom, rocznik, strona),
    • często wyposażony w warstwę OCR, umożliwiającą proste przeszukiwanie tekstu.

    To system, który doskonale odpowiada na pytanie: „Gdzie leży ten dokument?”. Jest stabilny, poprawny metodologicznie i zgodny ze światowymi standardami bibliotekarskimi. Przypomina wielką, cyfrową katedrę, w której wszystko ma swoje miejsce.

    Ale jest to również system wymagający. Oczekuje od użytkownika sporej wiedzy wstępnej: znajomości poprawnych haseł przedmiotowych, nazwisk, tytułów, dat, a często także specyfiki dawnej pisowni czy odmiany nazwisk. Biblioteka działa tu jak skarbiec: otwiera się szeroko, ale tylko przed tymi, którzy wiedzą dokładnie, jakich drzwi szukają i mają do nich klucz w postaci precyzyjnego słowa kluczowego.

    Polona jutra: architektura znaczenia

    Model RAG nie burzy tej struktury – to byłoby nierozsądne. On ją przykrywa nową warstwą, która działa jak inteligentna membrana pomiędzy użytkownikiem a zbiorem.

    Kluczowe przesunięcie dotyczy jednostki wiedzy. Przestaje nią być cały, nienaruszalny dokument (książka), a staje się nią fragment znaczeniowy: konkretny akapit, szpalta w gazecie, notatka w liście, przypis na marginesie czy podpis pod rycina. Następuje swoista „atomizacja” zbiorów, która uwalnia treść z okowów fizycznego nośnika.

    Zamiast pytać system: „Które dokumenty zawierają te słowa?” (co często prowadzi do tysięcy nieprecyzyjnych wyników), zaczynamy zadawać pytanie: „Które fragmenty zbioru odpowiadają sensowi mojego pytania?”. Wiedza przestaje być uwięziona w woluminach. Zaczyna swobodnie krążyć między nimi, tworząc nowe konstelacje znaczeń.

    Niewidzialne serce RAG: bazy wektorowe

    W samym centrum tej zmiany znajduje się element, którego użytkownik nigdy nie widzi, a który decyduje o „inteligencji” całego systemu: baza wektorowa. To tu dzieje się prawdziwa magia, łącząca matematykę z lingwistyką.

    Czym ona jest? W tradycyjnej bibliotece indeks mówi nam jedynie, jakie słowa występują w jakich dokumentach. Baza wektorowa robi coś zupełnie innego: zapisuje znaczenie tekstu w przestrzeni wielowymiarowej.

    Każdy fragment – akapit z dziewiętnastowiecznej gazety, ustęp z renesansowego traktatu, zdanie z pamiętnika – zostaje „przetłumaczony” przez algorytm (model embeddingowy) na długi ciąg liczb, czyli wektor. To matematyczny zapis tego, o czym jest dany fragment, a nie jakich słów używa. Tworzy to swoistą „topografię sensu”.

    Dla tekstów historycznych, takich jak zasoby Polony, jest to rewolucja na miarę wynalezienia druku. Dlaczego? Ponieważ język ewoluuje.

    • System wektorowy nie gubi się na archaizmach.
    • Nie przegrywa z błędami OCR (tzw. szumem cyfrowym).
    • Rozumie, że „rok burzliwych wypadków”, „czas insurekcji” i „rok 1863” mogą w danym kontekście znaczyć to samo.
    • Potrafi zestawić obok siebie teksty, które nigdy nie używają tych samych słów, ale mówią o tym samym zjawisku czy emocji.

    Baza wektorowa działa więc jak mapa pojęciowa, a nie katalog haseł. Fragmenty o podobnym znaczeniu „leżą blisko siebie” w przestrzeni matematycznej, nawet jeśli pochodzą z różnych epok, gatunków literackich i instytucji. To właśnie ta technologia pozwala Polonie przejść od wyszukiwania literalnego do wyszukiwania semantycznego.

    Scena z Powstania: test nowej architektury

    Aby zobaczyć różnicę, wyobraźmy sobie badacza, który zadaje pytanie: „Jak prasa warszawska reagowała na wybuch Powstania Styczniowego?”.

    W obecnym modelu czeka go benedyktyńska praca: musi zidentyfikować tytuły prasowe wychodzące w 1863 roku, filtrować daty, otwierać kolejne skany i ręcznie czytać numer po numerze, próbując wyłowić wzmianki ukryte często między wierszami (ze względu na cenzurę). Synteza odbywa się wyłącznie w jego głowie.

    W modelu RAG proces ten zostaje zautomatyzowany na poziomie wstępnej kwerendy. System:

    1. Zamienia pytanie badacza na wektor znaczenia.
    2. Błyskawicznie przeszukuje bazę wektorową Polony (nie szukając słów, lecz kontekstu „reakcji”, „nastrojów”, „ciszy”).
    3. Odnajduje najbardziej relewantne fragmenty – zarówno te entuzjastyczne, jak i te ostrożne czy wrogie.
    4. Zestawia je razem.
    5. Generuje syntezę opatrzoną przypisami do konkretnych źródeł.

    Badacz nie traci kontaktu z materiałem – RAG nie czyta „zamiast” niego. Przeciwnie: badacz zyskuje mapę, która pokazuje, gdzie patrzeć, które artykuły są kluczowe i jak układa się narracja w czasie. To przejście od eksploracji manualnej i losowej do eksploracji wspomaganej i celowanej.

    Bezpiecznik prawdy: biblioteka, która nie zmyśla

    Tu dochodzimy do najważniejszej różnicy między „Poloną w erze RAG” a popularnym ChatGPT. Modele AI mają tendencję do halucynowania – zmyślania faktów, gdy nie znają odpowiedzi. Dla Biblioteki Narodowej taka cecha jest dyskwalifikująca.

    Architektura RAG rozwiązuje ten problem. W tym modelu AI otrzymuje żelazną instrukcję: „Odpowiedz na pytanie, używając WYŁĄCZNIE dostarczonych fragmentów ze zbiorów Polony”. Jeśli informacji nie ma w źródłach, system odpowie: „Nie wiem”, zamiast zmyślać.

    Dzięki temu Polona staje się „kotwicą prawdy” dla modelu językowego. Łączymy w ten sposób płynność językową sztucznej inteligencji z wiarygodnością i nienaruszalnością zasobu bibliotecznego.

    Od archiwum do dialogu

    Model ten zmienia definicję tego, czym jest cyfrowa biblioteka. Polona przestaje być tylko pasywnym magazynem plików, w którym użytkownik jest pozostawiony sam sobie. Zmienia się w inteligentny interfejs do pamięci kultury.

    To fundamentalna różnica w podejściu do użytkownika: przejście od komunikatu „tu są zasoby” do obietnicy „pomogę ci je zrozumieć”. Jeśli pierwsza część tego cyklu była opowieścią o historii narzędzi, to RAG jest opowieścią o ich nowej, partnerskiej konfiguracji. Nie odbiera ona roli badaczowi, nie spłaszcza kultury do jednego akapitu streszczenia. Zmienia jednak punkt ciężkości: z mozolnego wyszukiwania – na głębokie rozumienie. I być może właśnie tak powinna wyglądać nowoczesna biblioteka narodowa: nie jako milczący zbiór, lecz jako partner w zadawaniu pytań przeszłości.

    Artykuł powstał w ramach realizacji przez Bibliotekę Narodową zadania sfinansowanie działalności Centrum Kompetencji w zakresie digitalizacji materiałów bibliotecznych w 2025 roku. 

    ◊◊◊

    Dofinansowano ze środków Ministra Kultury i Dziedzictwa Narodowego