% !TeX encoding = UTF-8 % !TeX spellcheck = pl_PL \chapter*{Wstęp} \addcontentsline{toc}{chapter}{Wstęp} \section*{Motywacja i cele} \addcontentsline{toc}{section}{Motywacja i cele} Rozwój technologii doprowadził do sytuacji, w której świat realny i jego wirtualne odwzorowanie rozwijają się ramię w ramię. Z roku na rok coraz bardziej zauważalny jest trend przenoszenia części usług świadczonych przez różne instytucje do świata wirtualnego, jest to właśnie pokłosie rozwoju technologicznego i oferowanych tym nowych możliwości. Dzięki postępowi coraz więcej spraw można załatwić nie wychodząc z miejsca, w którym aktualnie się przebywa, a to co wcześniej wydawało się niemożliwe bez konieczności fizycznego pojawienia się w danym miejscu, dziś jest na wyciągnięcie ręki jedynie za pośrednictwem ekranu komputera i dostępu do Internetu. Korzystając z rozwoju, wiele różnych instytucji rozszerza zakres swojej działalności właśnie poprzez świadczenie usług cyfrowych. W niniejszej pracy magisterskiej główna uwaga skupia się właśnie na instytucjach, które nie tylko korzystają z dobroci technologii, aby nadal trwać, ale przede wszystkim świadczyć coraz to nowe usługi. Biblioteki, urzędy czy archiwa, bo o nich mowa w tej pracy, posiadają ogromny zasób historycznych publikacji, takich jak czasopisma, książki czy dokumenty. Powstaje więc naturalna potrzeba udostępnienia tych zasobów nie tylko fizycznie, ale i wirtualnie. Zjawisko to nazywane jest digitalizacją. Przede wszystkim pozwala ona na oferowanie zasobów niezależnie od tego, gdzie znajduje się potencjalny odbiorca, a także bez ryzyka ich zniszczenia czy braku dostępności danej pozycji. W przypadku bibliotek istnieje takie pojęcie jak biblioteki cyfrowe. Zasoby zgromadzone w ramach bibliotek cyfrowych obfitują w ikonografię, a w związku z tym pojawia się naturalna potrzeba wyszukiwania obrazów odpowiadających danej potrzebie informacyjnej. Wcześniej możliwość szybkiego przeszukiwania tysięcy, setek czy choćby nawet dziesiątek publikacji była wręcz niemożliwa. Jednak dzięki temu, że dostępne są one wirtualnie, możliwości ich przeszukiwania stała się potencjalnie dostępna, wystarczy do tego odpowiednio przygotowany program komputerowy. Celem tej pracy jest zbadanie podejścia do przeszukiwania historycznych zdigitalizowanych zbiorów w zakresie ikonografii, a także budowy wyszukiwarki, obsługującej zapytania użytkownika w czasie rzeczywistym, opartej o sztuczne sieci neuronowe i techniki przetwarzania języka naturalnego. \section*{Struktura pracy} \addcontentsline{toc}{section}{Struktura pracy} Niniejsza praca magisterska, nie licząc wstępu i zakończenia, składa się z czterech głównych rozdziałów. Każdy z nich skupia się na innych aspektach związanych z digitalizacją treści począwszy od ogólnego spojrzenia i przeglądu literatury, poprzez podstawy głębokich sieci neuronowych pozwalających na tworzenie narzędzi do obsługi zdigitalizowanych zbiorów, a także szczegółowy opis projektu związanego z digitalizacją publikacji, kończąc zaś na przedstawieniu oraz technicznym opisie podejścia do tworzenia systemu detekcji i wyszukiwania treści wizualnych w publikacjach historycznych. \newline Digitalizacja jako pojęcie zostało przedstawione w \hyperlink{chap:1}{rozdziale 1} pracy. Rozdział ten traktuje o idei, zastosowaniach, problemach i wyzwaniach, wyjaśnia również pojęcia niezbędne do prawidłowego rozumienia tego terminu jak i terminów pochodnych. Proces, jakim jest digitalizacja, nie należy do trywialnych, a jego implementacja jest czasochłonna i wymaga spełnienia wielu kryteriów, które również zostały w tym rozdziale opisane. Przedstawione zostały także przykłady cyfrowych bibliotek i systemów obsługi zdigitalizowanych zbiorów. Cały rozdział opiera się na teorii dotyczącej digitalizacji, a także ekstrakcji treści, zbudowane zostały podwaliny teoretyczne pod dokładne rozumienie zagadnień przedstawionych w dalszej części pracy. \newline W \hyperlink{chap:2}{rozdziale 2} uwaga została skupiona na omówieniu pojęcia sztucznych sieci neuronowych zarówno w ich podstawowej formie, jak i tych wyspecjalizowanych w kontekście przetwarzania obrazów. Pozwala to posiąść teoretyczne podstawy do rozumienia mechanizmów, na jakich opiera się opracowywane w ramach tej pracy magisterskiej rozwiązanie. Rozumienie koncepcji sztucznych sieci neuronowych nierzadko jest problematyczne, dlatego naturalnym jest pojawienie się takiego rozdziału jeszcze przed omówieniem całej koncepcji podejścia w \hyperlink{chap:4}{rozdziale czwartym}. \newline Projekt Newspaper Navigator stworzony w ramach inicjatywy Chronicling America jest swego rodzaju inspiracją niniejszej pracy magisterskiej, dlatego też został szczegółowo omówiony w ramach \hyperlink{chap:3}{rozdziału 3}. Przedstawiona została tam cała historia projektu, jego zakres oraz niezbędne terminy wyjaśniające opisywane procesy. Zaprezentowane zostały również przykłady czy statystyki związane ze zbiorem, a także omówiono wyniki, jakie w ramach tego projektu zostały osiągnięte, w tym wyniki modelu detekcji. \newline \hyperlink{chap:4}{Rozdział 4} pracy to jej najważniejsza część. W tym rozdziale zbadane zostało podejścia do przeszukiwania historycznych zdigitalizowanych zbiorów gazet, czego z kolei efektem jest w pełni funkcjonalne oprogramowanie wyszukiwawcze oparte o przetwarzanie obrazów przez sztuczne sieci neuronowe, a także techniki przetwarzania języka naturalnego. Rozdział ten rozpoczyna opis techniczny, w tym wykorzystanej architektury użytej przy budowie modelu detekcji treści wizualnych. Następnie szczegółowo omówione zostały otrzymane z modelu wyniki, a także porównane zostały one z wynikami osiągniętymi w ramach projektu Newspaper Navigator. Treści wizualne wyekstrahowane przez model zostały odpowiednio przetworzone, korzystając między innymi z optycznego rozpoznawania znaków, a następnie zbudowany został system wyszukiwawczy obsługujący zapytania użytkownika w czasie rzeczywistym, czego opis kończy omawiany rozdział.