Update on Overleaf.

This commit is contained in:
Alex Drożdż 2022-09-14 18:36:12 +00:00 committed by node
parent cbed83e4ad
commit 18a15a69ef
9 changed files with 75 additions and 45 deletions

View File

@ -1,3 +1,3 @@
% !TeX encoding = UTF-8
% !TeX spellcheck = pl_PL
Niniejsza praca magisterska traktuje w głównej mierze o ważności pojęcia digitalizacji skupiając się przede wszystkim na instytucjach jakimi są biblioteki. Przedstawione zostaje pojęcie cyfrowej biblioteki, procesu digitalizacji treści, które będą w niej przechowywane, a także wyzwań i problemów towarzyszącym całemu przedsięwzięciu. Praca ma charakter praktyczny, a jej głównym celem oprócz przekazania wartości informacyjnych związanych z pojęciem cyfryzacji, a także metod głębokiego uczenia maszynowego jest przedstawienie całego procesu budowania rozwiązania pozwalającego na przeszukiwanie ogromnych zbiorów danych zawierających dokumenty poddane już procesowi digitalizacji. Opisany w niej został również projekt Chronicling America prowadzony na terenie Stanów Zjednoczonych w ostatnich latach, który stał się główną inspiracją tematu niniejszej pracy i jej swego rodzaju pierwowzorem. Finalnym produktem zrodzonym z tej pracy dyplomowej jest w pełni funkcjonalne oprogramowanie wyszukiwawcze oparte o przetwarzanie obrazów przez sztuczne sieci neuronowe, a także techniki przetwarzania języka naturalnego. Opisany zostanie cały proces budowy począwszy od pozyskania i przetworzenia danych wejściowych, przechodząc przez tworzenie własnego modelu detekcji obrazów, a także optyczne rozpoznawanie znaków i silnik wyszukiwania pełno tekstowego, a kończąc na warstwie wizualnej pozwalającej na obsługiwanie zapytań użytkownika w czasie rzeczywistym.
Niniejsza praca magisterska traktuje w głównej mierze o ważności pojęcia digitalizacji skupiając się przede wszystkim na instytucjach jakimi są biblioteki. Przedstawione zostaje pojęcie cyfrowej biblioteki, procesu digitalizacji treści, które będą w niej przechowywane, a także wyzwań i problemów towarzyszącym całemu przedsięwzięciu. Praca ma charakter praktyczny, a jej głównym celem oprócz przekazania wartości informacyjnych związanych z pojęciem cyfryzacji, a także metod głębokiego uczenia maszynowego jest przedstawienie całego procesu budowania rozwiązania pozwalającego na przeszukiwanie ogromnych zbiorów danych zawierających dokumenty poddane już procesowi digitalizacji. Opisany w niej został również inicjatywa Chronicling America prowadzony na terenie Stanów Zjednoczonych w ostatnich latach. Powstały w ramach tej inicjatywy projekt Newspaper Navigator stał się główną inspiracją tematu niniejszej pracy i jej swego rodzaju pierwowzorem. Finalnym produktem zrodzonym z tej pracy dyplomowej jest zbadanie podejścia do przeszukiwania historycznych zdigitalizowanych zbiorów, czego z kolei efektem jest w pełni funkcjonalne oprogramowanie wyszukiwawcze oparte o przetwarzanie obrazów przez sztuczne sieci neuronowe, a także techniki przetwarzania języka naturalnego. Opisany zostanie cały proces budowy począwszy od pozyskania i przetworzenia danych wejściowych, przechodząc przez tworzenie własnego modelu detekcji obrazów, a także optyczne rozpoznawanie znaków i silnik wyszukiwania pełno tekstowego, a kończąc na warstwie wizualnej pozwalającej na obsługiwanie zapytań użytkownika w czasie rzeczywistym.

View File

@ -1,3 +1,3 @@
% !TeX encoding = UTF-8
% !TeX spellcheck = en_EN
Dissertation of this thesis mainly considers the importance of the concept of digitization focusing primarily on institutions of libraries. The concept of a digital library, the process of digitizing the content that will be stored in it, as well as the challenges and problems accompanying the whole endeavor will be presented as a part of this thesis. The work is of a practical nature, and its main purpose, in addition to conveying the information values associated with the concept of digitization, as well as the methods of deep learning, is to present the entire process of building a solution that allows searching through huge data sets containing documents that have already been digitized. It also describes the Chronicling America project conducted in the United States in recent years, which became the main inspiration for the topic of this work and its kind of genesis. The final product born from this thesis is a fully functional search software based on image processing by artificial neural networks, as well as natural language processing techniques. The entire process will be described, starting with the acquisition and processing of input data, passing through the construction of custom object detection model, as well as optical character recognition and a full-text search engine, and ending with a visual user interface that allows the handling of user queries in real time.
Dissertation of this thesis mainly considers the importance of the concept of digitization focusing primarily on institutions of libraries. The concept of a digital library, the process of digitizing the content that will be stored in it, as well as the challenges and problems accompanying the whole endeavor will be presented as a part of this thesis. The work is of a practical nature, and its main purpose, in addition to conveying the information values associated with the concept of digitization, as well as the methods of deep learning, is to present the entire process of building a solution that allows searching through huge data sets containing documents that have already been digitized. It also describes the Chronicling America initiative conducted within the United States in recent years. The Newspaper Navigator project, which was created as part of this initiative, became the main inspiration for the topic of this work and its kind of genesis. The end product of this work is a study of automatic searching historical digitized newspapers, which in turn has resulted in fully functional search software based on image processing by artificial neural networks, as well as natural language processing techniques. The entire process will be described, starting with the acquisition and processing of input data, passing through the construction of custom object detection model, as well as optical character recognition and a full-text search engine, and ending with a visual user interface that allows the handling of user queries in real time.

22
chapter0.tex Normal file
View File

@ -0,0 +1,22 @@
% !TeX encoding = UTF-8
% !TeX spellcheck = pl_PL
\chapter*{Wstęp}
\addcontentsline{toc}{chapter}{Wstęp}
\section{Motywacja i cele}
Rozwój technologii doprowadził do sytuacji, w której świat realny i jego wirtualne odwzorowanie rozwijają się ramię w ramię. Z roku na rok coraz bardziej zauważalny jest trend przenoszenia części usług świadczonych przez różne instytucje do świata wirtualnego, jest to właśnie pokłosie rozwoju technologicznego i oferowanych tym nowych możliwości. Dzięki postępowi coraz więcej spraw można załatwić nie wychodząc z miejsca, w którym aktualnie się przebywa, a to co wcześniej wydawało się niemożliwe bez konieczności fizycznego pojawienia się w danym miejscu, dziś jest na wyciągnięcie ręki jedynie za pośrednictwem ekranu komputera i dostępu do Internetu. Korzystając z rozwoju, wiele różnych instytucji rozszerza zakres swojej działalności właśnie poprzez świadczenie usług cyfrowych. W niniejszej pracy magisterskiej główna uwaga skupia się właśnie na instytucjach, które nie tylko korzystają z dobroci technologii, aby nadal trwać, ale przede wszystkim świadczyć coraz to nowe usługi. Biblioteki, urzędy czy archiwa, bo o nich mowa w tej pracy, posiadają ogromny zasób historycznych publikacji, takich jak czasopisma, książki czy dokumenty. Powstaje więc naturalna potrzeba udostępnienia tych zasobów nie tylko fizycznie, ale i wirtualnie. Zjawisko to nazywane jest digitalizacją. Przede wszystkim pozwala ona na oferowanie zasobów niezależnie od tego, gdzie znajduje się potencjalny odbiorca, a także bez ryzyka ich zniszczenia czy braku dostępności danej pozycji. W przypadku bibliotek istnieje takie pojęcie jak biblioteki cyfrowe. Zasoby zgromadzone w ramach bibliotek cyfrowych obfitują w ikonografię, a w związku z tym pojawia się naturalna potrzeba wyszukiwania obrazów odpowiadających danej potrzebie informacyjnej. Wcześniej możliwość szybkiego przeszukiwania tysięcy, setek czy choćby nawet dziesiątek publikacji była wręcz niemożliwa. Jednak dzięki temu, że dostępne są one wirtualnie, możliwości ich przeszukiwania stała się potencjalnie dostępna, wystarczy do tego odpowiednio przygotowany program komputerowy. Celem tej pracy jest zbadanie podejścia do przeszukiwania historycznych zdigitalizowanych zbiorów, a także budowy wyszukiwarki, obsługującej zapytania użytkownika w czasie rzeczywistym, opartej o sztuczne sieci neuronowe i techniki przetwarzania języka naturalnego.
\section{Struktura pracy}
Niniejsza praca magisterska, nie licząc wstępu i zakończenia, składa się z 4 głównych rozdziałów. Każdy z nich skupia się na innych aspektach związanych z digitalizacją treści począwszy od ogólnego spojrzenia i przeglądu literatury, poprzez podstawy głębokich sieci neuronowych pozwalających na tworzenie narzędzi do obsługi zdigitalizowanych zbiorów, a także szczegółowy opis projektu związanego z digitalizacją publikacji, kończąc zaś na przedstawieniu oraz technicznym opisie podejścia do tworzenia systemu detekcji i wyszukiwania treści wizualnych w publikacjach historycznych.
\newline
Digitalizacja jako pojęcie zostało przedstawione w \hyperlink{chap:1}{pierwszym rozdziale} pracy. Rozdział ten traktuje o idei, zastosowaniach, problemach i wyzwaniach, wyjaśnia również pojęcia niezbędne do prawidłowego rozumienia tego terminu jak i terminów pochodnych. Proces jakim jest digitalizacja nie należy do trywialnych, a jego implementacja jest czasochłonna i wymaga spełnienia wielu kryteriów, które również zostały w tym rozdziale opisane. Przedstawione zostały także przykłady cyfrowych bibliotek i systemów obsługi zdigitalizowanych zbiorów. Cały rozdział opiera się na teorii dotyczącej digitalizacji, a także ekstrakcji treści, zbudowane zostały podwaliny teoretyczne pod dokładne rozumienie zagadnień przedstawionych w dalszej części pracy.
\newline
\hyperlink{chap:2}{W drugim rozdziale} uwaga została skupiona na omówieniu pojęcia sztucznych sieci neuronowych zarówno w ich podstawowej formie, jak i tych wyspecjalizowanych w kontekście przetwarzania obrazów. Pozwala to posiąść teoretyczne podstawy do rozumienia mechanizmów na jakich opiera się tworzone w ramach tej pracy magisterskiej rozwiązanie. Rozumienie koncepcji sztucznych sieci neuronowych nierzadko jest problematyczne, dlatego naturalnym jest pojawienie się takiego rozdziału jeszcze przed omówieniem całej koncepcji podejścia w \hyperlink{chap:4}{rozdziale czwartym}.
\newline
Projekt Newspaper Navigator stworzony w ramach inicjatywy Chronicling America jest swego rodzaju inspiracją niniejszej pracy magisterskiej, dlatego też został szczegółowo i skrupulatnie omówiony w ramach \hyperlink{chap:3}{trzeciego rozdziału} pracy. Przedstawiona została tam cała historia projektu, jego zakres oraz niezbędne terminy wyjaśniające opisywane procesy. Zaprezentowane zostały również przykłady czy statystyki związane ze zbiorem, a także omówiono wyniki jakie w ramach tego projektu zostały osiągnięte, w tym wyniki modelu detekcji.
\newline
\hyperlink{chap:4}{Czwarty rozdział} pracy to jej najważniejsza część. W tym rozdziale zbadane zostało podejścia do przeszukiwania historycznych zdigitalizowanych zbiorów gazet, czego z kolei efektem jest w pełni funkcjonalne oprogramowanie wyszukiwawcze oparte o przetwarzanie obrazów przez sztuczne sieci neuronowe, a także techniki przetwarzania języka naturalnego. Rozdział ten rozpoczyna opis techniczny, w tym wykorzystanej architektury użytej przy budowie modelu detekcji treści wizualnych. Następnie szczegółowo omówione zostały otrzymane z modelu wyniki, a także porównane zostały one z wynikami osiągniętymi w ramach projektu Newspaper Navigator. Treści wizualne wyekstrahowane przez model zostały odpowiednio przetworzone korzystając między innymi z optycznego rozpoznawania znaków, a następnie zbudowany został system wyszukiwawczy obsługujący zapytania użytkownika w czasie rzeczywistym, czego opis kończy omawiany rozdział.

View File

@ -4,33 +4,36 @@
\section{Zagadnienie digitalizacji archiwalnych dokumentów i cyfrowej biblioteki}
\bigbreak
Coraz powszechniejszym zjawiskiem wśród instytucji takich jak biblioteki, archiwa państwowe, czy urzędy, które posiadają dostęp do niezliczonych zbiorów dokumentów, jest poddawanie ich procesowi cyfrowej archiwizacji. Przez tysiąclecia od momentu wynalezienia i rozpowszechnienia papieru jako nośnika informacji, był on jedynym efektywnym sposobem przekazywania sobie treści i to właśnie w tej postaci przechowywany był praktycznie cały dorobek kulturowy i naukowy ludzkości. Dopiero powszechny dostęp do komputera, a także wynalezienie narzędzi takich jak skaner, czy dyskietka zapoczątkowało możliwość przeniesienia dowolnego fizycznego dokumentu do przestrzeni cyfrowej i ich swobodnej wymiany \cite{nosnik-danych}.
Wśród instytucji takich jak biblioteki, archiwa państwowe, czy urzędy posiadające dostęp do niezliczonych ilości dokumentów, coraz powszechniejszym zjawiskiem staje się podejmowanie prób cyfrowej archiwizacji wycinka posiadanego zbioru. Przez tysiąclecia od momentu wynalezienia i rozpowszechnienia papieru jako nośnika informacji, był on jedynym efektywnym sposobem przekazywania sobie treści i to właśnie w tej postaci przechowywany był praktycznie cały dorobek kulturowy i naukowy ludzkości. Dopiero powszechny dostęp do komputera, a także wynalezienie narzędzi takich jak skaner czy dyskietka zapoczątkowało możliwość przeniesienia dowolnego fizycznego dokumentu do przestrzeni cyfrowej i ich swobodnej wymiany \cite{nosnik-danych}.
\newline
Dostęp i ochrona materiałów to główne powody, dla których instytucje podejmują projekty digitalizacji. Dzięki digitalizacji można zapewnić dostęp do wszelkiego rodzaju materiałów takich jak teksty, fotografie, rękopisy, materiały audio i wideo. Digitalizacja pozwala także na zachowanie rzadkich lub delikatnych materiałów w pełni zabezpieczonymi przed wszelakiego rodzaju zagrożeniami mechanicznymi. Takie działanie minimalizuje ryzyko utraty ważnych zbiorów, które w postaci cyfrowej są łatwo replikowanie i przechowywane na wielu serwerach czy urządzeniach. A przecież wiadomo, że najważniejsza zawsze powinny być wiedza i informacje zawarte w książkach, czy innych materiałach, a nie sama ich okładka. Pozwala to również oferować nowe usługi takie jak przeszukiwanie i odnajdywanie wybranych zbiorów w ciągu zaledwie kilku kliknięć w systemie, często też bez konieczności odwiedzenia gmachu którejkolwiek z instytucji. Pozwala to również lepiej kontrolować zbiory, a także redukuje koszty i trudności transportu dokumentów pomiędzy placówkami \cite{Lopatin2006Apr}. W przypadku bibliotek często też motywem przewodnim dokonywanej digitalizacji jest chęć rozpowszechnienia materiałów niezwykle cennych, objętych specjalnymi programami czy funduszami ochronnymi, przez co sama możliwość ich przeglądania jest bardzo mocno ograniczana i kontrolowana, a możliwość wypożyczenia i przestudiowania w domowym zaciszu bardzo często wręcz niemożliwa \cite{bivscandigitalization}. Ponadto dzięki powszechnej dygitalizacji swobodna wymiana dzieł między podmiotami oddalonymi od siebie o setki, czy tysiące kilometrów nie stanowi logistycznego wyzwania.
Zapewnienie dostępu do materiałów przy jednoczesnej pełnej ochronie ich fizycznej postaci to główne powody, dla których instytucje podejmują projekty digitalizacji. Dzięki digitalizacji można zapewnić dostęp do wszelkiego rodzaju materiałów takich jak teksty, fotografie, rękopisy, nagrania i wideo. Digitalizacja pozwala także na zachowanie rzadkich lub delikatnych materiałów w pełni zabezpieczonymi przed wszelakiego rodzaju zagrożeniami mechanicznymi. Takie działanie minimalizuje ryzyko utraty ważnych zbiorów, które w postaci cyfrowej są łatwo replikowanie i przechowywane na wielu serwerach czy urządzeniach. A przecież wiadomo, że najważniejsza zawsze powinny być wiedza i informacje zawarte w książkach, czy innych materiałach, a nie sama ich fizyczna oprawa. Pozwala to również oferować nowe usługi takie jak przeszukiwanie i odnajdywanie wybranych zbiorów w ciągu zaledwie kilku kliknięć w systemie, często też bez konieczności odwiedzenia gmachu którejkolwiek z instytucji. Pozwala to również lepiej kontrolować zbiory, a także redukuje koszty i trudności transportu dokumentów pomiędzy placówkami \cite{Lopatin2006Apr}. W przypadku bibliotek często też motywem przewodnim dokonywanej digitalizacji jest chęć rozpowszechnienia materiałów niezwykle cennych, objętych specjalnymi programami czy funduszami ochronnymi, przez co sama możliwość ich przeglądania jest bardzo mocno ograniczana i kontrolowana, a możliwość wypożyczenia i przestudiowania w domowym zaciszu bardzo często wręcz niemożliwa \cite{bivscandigitalization}. Ponadto dzięki powszechnej dygitalizacji swobodna wymiana dzieł między podmiotami oddalonymi od siebie o setki czy tysiące kilometrów nie stanowi logistycznego wyzwania.
\newline
W dzisiejszych czasach proces cyfryzacji dużych zbiorów dokumentów często realizowany jest poprzez wykorzystanie specjalnych maszyn zapewniających szybkie skanowanie, dzięki czemu starsze dokumenty zapisuje się w postaci obrazów cyfrowych. Zazwyczaj dzieje się to równolegle z codziennym skanowaniem nowych dokumentów. Strategia codziennego skanowania jest niezbędna do całkowitego wyeliminowania papieru, ponieważ wszystkie nowe dokumenty od wybranej daty są skanowane, a instytucje nie przechowują już zapisów papierowych \cite{digitalizacja}. Takie dokumenty trafiają później do specjalnych systemów pozwalających na zarządzanie nimi w łatwy i przejrzysty sposób. W przypadku bibliotek istnieje pojęcie systemu zarządzania biblioteką cyfrową, czyli oprogramowania, które zapewnia funkcje tworzenia i zarządzania zdigitalizowanymi zasobami biblioteki oraz świadczenia usług dla jej użytkowników. Tego rodzaju systemy zazwyczaj pozwalają na swobodne dodawanie specjalistycznych oprogramowań w celu zaspokojenia konkretnych potrzeb danej jednostki oraz mogą być sprzedawane zarówno przez dostawców komercyjnych jak i być budowane w oparciu o zasoby typu open-source \cite{amollo2011digitization}. Istnieje też szersze pojęcie, a mianowicie wspomniana już biblioteka cyfrowa. Pojęcie to oznacza cały skomputeryzowany system sieciowy umożliwiający zapewnienie dostępu do wyszukiwania potrzebnych informacji dużej liczbie użytkowników biblioteki w jednoczesnym czasie i z dowolnego miejsca \cite{paliiits}. W porównaniu z tradycyjną biblioteką, biblioteka cyfrowa stanowi rewolucyjną zmianę, która zapewnia dużą szybkość i dokładność wyszukiwanych informacji. Tak długo, dopóki istnieje tytuł lub słowa kluczowe, poprzez dostęp do wyszukiwarki biblioteki cyfrowej czytelnik może w bardzo krótkim czasie uzyskać dostęp do potrzebnych mu materiałów \cite{xu2012importance}.
W dzisiejszych czasach proces cyfryzacji dużych zbiorów dokumentów często realizowany jest poprzez wykorzystanie specjalnych maszyn zapewniających szybkie skanowanie, dzięki czemu starsze dokumenty zapisuje się w postaci obrazów cyfrowych. Zazwyczaj dzieje się to równolegle z codziennym skanowaniem nowych dokumentów. Strategia codziennego skanowania jest niezbędna do całkowitego wyeliminowania papieru, ponieważ wszystkie nowe dokumenty od wybranej daty są skanowane, a instytucje nie przechowują już zapisów papierowych \cite{digitalizacja}. Takie dokumenty trafiają później do specjalnych systemów pozwalających na zarządzanie nimi w łatwy i przejrzysty sposób. W przypadku bibliotek istnieje pojęcie systemu zarządzania biblioteką cyfrową, czyli oprogramowania, które zapewnia funkcje tworzenia i zarządzania zdigitalizowanymi zasobami biblioteki oraz świadczenia usług dla jej użytkowników. Tego rodzaju systemy zazwyczaj pozwalają na swobodne dodawanie specjalistycznych oprogramowań w celu zaspokojenia konkretnych potrzeb danej jednostki oraz mogą być sprzedawane zarówno przez dostawców komercyjnych, jak i być budowane w oparciu o zasoby typu open-source \cite{amollo2011digitization}. Przykładem takiego systemu jest dLibra, która pozwala udostępniać dokumenty pochodzące z bibliotek, instytucji pozarządowych, fundacji, jednostek publicznych, firm komercyjnych, a także zbiorów prywatnych. Istnieje też szersze pojęcie, a mianowicie wspomniana już biblioteka cyfrowa. Pojęcie to oznacza cały skomputeryzowany system sieciowy umożliwiający zapewnienie dostępu do wyszukiwania potrzebnych informacji dużej liczbie użytkowników biblioteki w jednoczesnym czasie i z dowolnego miejsca \cite{paliiits}. W porównaniu z tradycyjną biblioteką, biblioteka cyfrowa stanowi rewolucyjną zmianę, która zapewnia dużą szybkość i dokładność wyszukiwanych informacji. Tak długo, dopóki istnieje tytuł lub słowa kluczowe, poprzez dostęp do wyszukiwarki biblioteki cyfrowej czytelnik może w bardzo krótkim czasie uzyskać dostęp do potrzebnych mu materiałów \cite{xu2012importance}.
\newline
Poniższe ilustracje przedstawiają przykład cyfrowej biblioteki, stronę główną Mazowieckiej Biblioteki Cyfrowej oraz przykład wykorzystania panelu wyszukiwania do znalezienia interesującej użytkownika treści. W tym przypadku wyszukiwane było dzieło Henryka Sienkiewicza pt. "Krzyżacy". Po wyszukaniu otrzymano dostęp do czterech tomów jubileuszowego wydania tejże powieści, jest to doskonały przykład wartości jakie niesie za sobą digitalizacja, ponieważ to dzieło prawdopodobnie nie było by udostępnione do wypożyczenia ze względu na swoją unikatowość, lecz dzięki digitalizacji dostępne jest dla szerokiego grona użytkowników \cite{Mazowieckiego2022Mar}.
Rysunki \ref{pierws} oraz \ref{drug} przedstawiają przykład cyfrowej biblioteki, stronę główną Mazowieckiej Biblioteki Cyfrowej oraz przykład wykorzystania panelu wyszukiwania do znalezienia interesującej użytkownika treści. W tym przypadku wyszukiwane było dzieło Henryka Sienkiewicza pt. ``Krzyżacy''. Po wyszukaniu otrzymano dostęp do czterech tomów jubileuszowego wydania tejże powieści, jest to doskonały przykład wartości jakie niesie za sobą digitalizacja, ponieważ to dzieło prawdopodobnie nie byłoby udostępnione do wypożyczenia ze względu na swoją unikatowość, lecz dzięki digitalizacji dostępne jest dla szerokiego grona użytkowników \cite{Mazowieckiego2022Mar}.
\begin{figure}[h!]
\centering
\includegraphics[width=0.8\textwidth]{images/digital_library.png}
\includegraphics[width=1\textwidth]{images/digital_library.png}
\caption{Strona główna Mazowieckiej Biblioteki Cyfrowej \cite{Mazowieckiego2022Mar}.}
\label{pierws}
\end{figure}
\clearpage
\begin{figure}[h!]
\centering
\includegraphics[width=0.88\textwidth]{images/digital_library1.png}
\includegraphics[width=1\textwidth]{images/digital_library1.png}
\caption{Przykład wyszukiwania dzieła w bibliotece cyfrowej \cite{Mazowieckiego2022Mar}.}
\label{drug}
\end{figure}
Ważną kwestią w kontekście dalszej części tej pracy jest rozróżnienie dwóch pojęć, a mianowicie digitalizacji i ekstrakcji treści. Digitalizacja to zamiana wersji papierowej dokumentu na jego cyfrowy odpowiednik, zaś proces ekstrakcji polega na wyodrębnieniu z niej interesujących elementów. Przekształcenie treści papierowych na cyfrowe jest pierwszym i najważniejszym krokiem, jednak to dopiero ekstrakcja treści zapewnia pełne wykorzystanie potencjału tej dziedziny i to właśnie ona stanowi temat przewodni niniejszej pracy magisterskiej \cite{digitalizacja}.
Ważną kwestią w kontekście dalszej części tej pracy jest rozróżnienie dwóch pojęć, a mianowicie digitalizacji i ekstrakcji treści. Digitalizacja to zamiana wersji papierowej dokumentu na jego cyfrowy odpowiednik, zaś proces ekstrakcji polega na wyodrębnieniu z niej interesujących elementów. Przekształcenie treści papierowych na cyfrowe jest pierwszym i najważniejszym krokiem, jednak to dopiero ekstrakcja treści zapewnia pełne wykorzystanie potencjału tej dziedziny w kontekście obrazów zawartych w publikacjach \cite{digitalizacja}.
\section{Proces digitalizacji i ekstrakcji treści}
Digitalizacja materiałów to proces proces przekształcania informacji analogowych do formatu cyfrowego poprzez skanowanie lub fotografię cyfrową. Materiały statyczne takie jak książki, artykuły czy inne dokumenty przedstawiane są w formacie cyfrowym za pomocą nieruchomych obrazów, natomiast media dynamiczne jak filmy przedstawiane są za pomocą cyfrowego dźwięku zsynchronizowanego z sekwencją obrazów. Niezależnie od rodzaju materiału analogowego lub używanego sprzętu, digitalizacja jest procesem wieloetapowym. Podstawowy cykl digitalizacji jest podobny dla wszystkich materiałów, a różni się głównie złożonością. Proces digitalizacji jest bardzo złożony i składa się z kilku podstawowych elementów, a są nimi:
Digitalizacja materiałów to proces przekształcania informacji analogowych do formatu cyfrowego poprzez skanowanie lub fotografię cyfrową. Materiały statyczne takie jak książki, artykuły czy inne dokumenty przedstawiane są w formacie cyfrowym za pomocą nieruchomych obrazów, natomiast media dynamiczne jak filmy przedstawiane są za pomocą cyfrowego dźwięku zsynchronizowanego z sekwencją obrazów. Niezależnie od rodzaju materiału analogowego lub używanego sprzętu, digitalizacja jest procesem wieloetapowym. Podstawowy cykl digitalizacji jest podobny dla wszystkich materiałów, a różni się głównie złożonością. Proces digitalizacji jest bardzo złożony i składa się z kilku podstawowych elementów, a są nimi:
\begin{enumerate}
\item Planowanie projektu, wybór i przygotowanie materiałów do konwersji
@ -41,13 +44,13 @@ Digitalizacja materiałów to proces proces przekształcania informacji analogow
\item Konserwacja cyfrowa obiektów powstałych w wyniku procesu konwersji \cite{xie2016discover}
\end{enumerate}
Proces wyboru odpowiednich materiałów nie jest liniowy, nie wystarczy spełnić jednego kryterium by uznać dzieło za warte zdigitalizowania w pierwszej kolejności. Należy zadać sobie szereg pytań, gdzie jedna odpowiedź wpływa na kolejne. Popularne kryteria używane w procesie decyzyjnym to na przykład:
Proces wyboru odpowiednich materiałów nie jest liniowy, nie wystarczy spełnić jednego kryterium, by uznać dzieło za warte zdigitalizowania w pierwszej kolejności. Należy zadać sobie szereg pytań, gdzie jedna odpowiedź wpływa na kolejne. Popularne kryteria używane w procesie decyzyjnym to na przykład:
\begin{itemize}
\item[$\bullet$] Czy dzieło jest zniszczone lub zagrożone całkowitym zniszczeniem?
\item[$\bullet$] Czy ma wystarczająco trwałe wartości aby uzasadnić jej zdigitalizowanie? Mogą to być np. oprawa, ilustracje, unikatowość treści, znaczenie historyczne, zawarte w nim potencjalne długoterminowe wartości społeczne lub intelektualne.
\item[$\bullet$] Czy dzieło wymaga rekonstrukcji przed digitalizacją?
\item[$\bullet$] Jakie możliwości konserwacji są dostępne przed zdigitalizowaniem pozycji, biorąc pod uwagę fizyczny charakter obiektu oraz jego obecne i przyszłe wykorzystanie? Czy można je naprawić? Jeśli nie, to czy kopia konserwatorska może z powodzeniem uchwycić jej zawartość i pomóc w obecnym i przyszłym użytkowaniu? Czy istnieją czynniki które obniżają jakość dzieła, takie jak utrata barw ilustracji, rozmyty tekst, brakujące lub porwane strony.
\item[$\bullet$] Jakie możliwości konserwacji są dostępne przed zdigitalizowaniem pozycji, biorąc pod uwagę fizyczny charakter obiektu oraz jego obecne i przyszłe wykorzystanie? Czy można je naprawić? Jeśli nie, to czy kopia konserwatorska może z powodzeniem uchwycić jej zawartość i pomóc w obecnym i przyszłym użytkowaniu? Czy istnieją czynniki, które obniżają jakość dzieła, takie jak utrata barw ilustracji, rozmyty tekst, brakujące lub porwane strony.
\item[$\bullet$] Jaki jest koszt odnowienia i zdigitalizowania danej pozycji?
\item[$\bullet$] Czy instytucja posiada prawo do zdigitalizowania i rozpowszechnienia publikacji?
\item[$\bullet$] Czy na dane dzieło będzie popyt wśród aktualnych odbiorców?
@ -55,26 +58,26 @@ Proces wyboru odpowiednich materiałów nie jest liniowy, nie wystarczy spełni
\item[$\bullet$] Czy digitalizacja przyniesie jakiekolwiek inne skutki niż tylko utworzenie cyfrowej kopii publikacji? \cite{Gertz2011Apr}
\end{itemize}
Sam wybór pozycji które mogą w danym momencie zostać zdigitalizowane nie jest jedynym krokiem, który należy wykonać przed przejściem do faktycznych prac. W rzeczywistości kluczowe jest również określenie czynników takich jak budżet, oś czasu, odpowiednio wykwalifikowany personel, a także cele końcowe jakie mają zostać osiągnięte poprzez zdigitalizowanie danej kolekcji dzieł. Instytucje często nie muszą posiadać własnego budżetu, aby sfinansować digitalizacje pewnej kolekcji książek, czy dokumentów. Bardzo często do takich miejsc zgłaszają się firmy komercyjne zainteresowane pozyskaniem pewnych danych, czy informacji. Gotowe są one sfinansować takie działanie w celu uzyskania dostępu do zdigitalizowanych pozycji i wykorzystać je na własny użytek. Oczywiście wówczas kluczowym pytaniem, które już zostało wspomniane wcześniej, jest czy dana instytucja posiada odpowiednie prawa, aby taką inicjatywę przeprowadzić. Takim przykładem są firmy, które zajmują się historycznymi dziejami rodzin, ich celem są wówczas wszelakiego rodzaju dokumenty archiwalne posiadające poszukiwane przez nich nazwiska. Podobnie wygląda sytuacja z instytucjami, które przeprowadzają badania statystyczne i potrzebują dostępu do historycznych statystyk i danych \cite{bulow2011preparing}.
Sam wybór pozycji, które mogą w danym momencie zostać zdigitalizowane nie jest jedynym krokiem, który należy wykonać przed przejściem do faktycznych prac. W rzeczywistości kluczowe jest również określenie czynników takich jak budżet, horyzont czasowy, odpowiednio wykwalifikowany personel, a także cele końcowe, jakie mają zostać osiągnięte poprzez zdigitalizowanie danej kolekcji dzieł. Instytucje często nie muszą posiadać własnego budżetu, aby sfinansować digitalizacje pewnej kolekcji książek czy dokumentów. Bardzo często do takich miejsc zgłaszają się firmy komercyjne zainteresowane pozyskaniem pewnych danych, czy informacji. Gotowe są one sfinansować takie działanie w celu uzyskania dostępu do zdigitalizowanych pozycji i wykorzystać je na własny użytek. Oczywiście wówczas kluczowym pytaniem, które już zostało wspomniane wcześniej, jest, czy dana instytucja posiada odpowiednie prawa, aby taką inicjatywę przeprowadzić. Takim przykładem są firmy, które zajmują się badaniami genealogicznymi, ich celem są wówczas wszelakiego rodzaju dokumenty archiwalne posiadające poszukiwane przez nich nazwiska. Podobnie wygląda sytuacja z instytucjami, które przeprowadzają badania statystyczne i potrzebują dostępu do historycznych statystyk i danych \cite{bulow2011preparing}.
\newline
Kolejnym etapem procesu digitalizacji jest pozyskiwanie obrazu dzieł, które zostały wybrane podczas poprzednio omawianego procesu selekcji. Etap ten jest sercem całego procesu. Do przechwytywania obrazu używa się skanerów, aparatów cyfrowych lub specjalnych konwerterów analogowo-cyfrowych, które przekształcają analogowe wersje książek, czy dokumentów w sygnały cyfrowe. Proces ten może być wykonywany wewnętrznie lub zlecony wykwalifikowanej w kwestii digitalizacji firmie komercyjnej. Najważniejszym elementem tego procesu jest dokładne odzwierciedlenie analogowej wersji materiałów źródłowych i ich zgodność z pierwotnymi założeniami procesu \cite{xie2016discover}.
Kolejnym etapem procesu digitalizacji jest pozyskiwanie obrazu dzieł, które zostały wybrane podczas poprzednio omawianego procesu selekcji. Etap ten jest sercem całego procesu. Do przechwytywania obrazu używa się skanerów, aparatów cyfrowych lub specjalnych konwerterów analogowo-cyfrowych, które przekształcają analogowe wersje książek czy dokumentów w sygnały cyfrowe. Proces ten może być wykonywany wewnętrznie lub zlecony wykwalifikowanej w kwestii digitalizacji firmie komercyjnej. Najważniejszym elementem tego procesu jest dokładne odzwierciedlenie analogowej wersji materiałów źródłowych i ich zgodność z pierwotnymi założeniami procesu \cite{xie2016discover}.
\newline
\begin{figure}[h!]
\centering
\includegraphics[width=1.0\textwidth]{images/metadan.png}
\caption{Wizualizacja czym w rzeczywistości mogą być metadane}
\includegraphics[width=0.85\textwidth]{images/metadan.png}
\caption{Wizualizacja pojęcia danych i metadanych}
\label{metameta}
\end{figure}
Następne punkty procesu związane są głównie z pojęciem metadanych. Na wstępnie pozwolę sobie wytłumaczyć samo to pojęcie w ogólnym rozumieniu, aby następnie móc szerzej opisać jego znaczenie w procesie digitalizacji treści. Metadane definiuje się jako dane dostarczające informacji o jednym lub kilku aspektach danych; służą one do podsumowania podstawowych informacji o danych, co może ułatwić śledzenie i pracę z konkretnymi danymi. Najprościej mówiąc metadane są to takie dane, które opisują inne dane. Doskonałym przykładem są zdjęcia. Tak jak zostało to zaprezentowane na powyższej rycinie obraz w tym wypadku to dane (macierze z wartościami pikseli), a wszystkie dodatkowe informacje, takie jak nazwa pliku, autor, data utworzenia, rozdzielczość, lokalizacja, które właśnie opisują dany obraz to metadane. Z kolei w przypadku dokumentu tekstowego metadane mogą zawierać informacje o tym, jak długi jest dokument, kto jest jego autorem, kiedy został napisany, krótkie streszczenie dokumentu, a także słowa kluczowe powiązane z zawartością \cite{ContributorstoWikimediaprojects2022Apr}. Metadane są następnie przekazywane podmiotom uczestniczącym w łańcuchu publikacji książek, takim jak dostawcy usług, badacze, fundatorzy, bibliotekarze, czy kuratorzy danych \cite{BibEntry2022May_metada_books}. Metadane mogą być przechowywane i zarządzane w bazie danych, często nazywanej rejestrem metadanych lub repozytorium metadanych. Jednak bez kontekstu i punktu odniesienia identyfikacja metadanych na podstawie samego ich oglądania może okazać się niemożliwa \cite{ContributorstoWikimediaprojects2022Apr}. Istnieje wiele standardów metadanych, ale jeśli chodzi o cyfrowe biblioteki powszechnie używanym jest standard Dublin Core. Proste metadane zgodne ze standardem Dublin Core składają się z 15-stu elementów, które przedstawia tabela \ref{tab_meta} \cite{Alasem2009Jan}.
\newline
Następne punkty procesu związane są głównie z pojęciem metadanych. Metadane definiuje się jako dane dostarczające informacji o jednym lub kilku aspektach danych; służą one do podsumowania podstawowych informacji o danych, co może ułatwić śledzenie i pracę z konkretnymi danymi. Najprościej mówiąc metadane są to takie dane, które opisują inne dane. Doskonałym przykładem są zdjęcia. Tak jak zostało to zaprezentowane na rysunku \ref{metameta} obraz w tym wypadku to dane (macierze z wartościami pikseli), a wszystkie dodatkowe informacje, takie jak nazwa pliku, autor, data utworzenia, rozdzielczość, lokalizacja, które właśnie opisują dany obraz, to metadane.
\begin{center}
\begin{table}[h]
\centering
\begin{tabular}{|m{2.5cm}|m{8cm}|} \hline
\textbf{Element} & \textbf{Definicja} \\ [0.5ex] \hline\hline
\textbf{Element} & \textbf{Definicja} \\ \hline
\textbf{Tytuł} & Nazwa nadana zasobowi \\ \hline
\textbf{Temat} & Temat zawartości zasobu \\ \hline
\textbf{Opis} & Opis zawartości zasobu \\ \hline
@ -82,40 +85,44 @@ Następne punkty procesu związane są głównie z pojęciem metadanych. Na wst
\textbf{Źródło} & Odniesienie do zasobu, z którego pochodzi niniejszy zasób \\ \hline
\textbf{Relacja} & Odniesienie do zasobu powiązanego \\ \hline
\textbf{Zasięg} & Zasięg lub zakres zawartości zasobu \\ \hline
\textbf{Twórca} & Jednostka odpowiedzialna za wytworzenie zawartości zasobu \\ \hline
\textbf{Twórca} & Jednostka odpowiedzialna za wytworzenie zawartości zasobu (autor) \\ \hline
\textbf{Wydawca} & Jednostka odpowiedzialna za udostępnienie zasobu \\ \hline
\textbf{Współtwórca} & Osoba odpowiedzialna za wniesienie wkładu w zawartość zasobu \\ \hline
\textbf{Prawa} & Informacje o prawach posiadanych w zasobie i nad zasobem \\ \hline
\textbf{Prawa} & Informacje o posiadanych prawach odnośnie zasobu \\ \hline
\textbf{Dane} & Dane związane ze zdarzeniem w cyklu zasobu \\ \hline
\textbf{Format} & Fizyczna lub cyfrowa manifestacja zasobu \\ \hline
\textbf{Identyfikator} & Jednoznaczne odniesienie do zasobu w danym kontekście \\ \hline
\textbf{Język} & język (języki), w którym zapisana jest intelektualna zawartość zasobu \\ \hline
\textbf{Język} & Język (języki), w którym zapisana jest intelektualna zawartość zasobu \\ \hline
\end{tabular}
\caption{Tabela przedstawiająca standard Dublin Core}
\label{tab_meta}
\end{table}
\end{center}
\clearpage
Po skompletowaniu metadanych zarówno one jak i pozyskane obrazy zostają umieszczone w systemie zarządzania biblioteką cyfrową, który został już opisany we wcześniejszym podrozdziale. Dokumenty znajdujące się już w systemie podobnie jak dokumenty fizyczne również podlegają konserwacji. Cyfrowa konserwacja to przede wszystkim nowe wyzwania przed bibliotekami i archiwami cyfrowymi, które i tak już borykały się z koniecznością tradycyjnej (fizycznej) konserwacji książek, czy dokumentów. Konserwację cyfrową można definiować jako planowanie i alokację zasobów oraz zastosowanie metod i technik konserwatorskich niezbędnych do zapewnienia, aby informacje cyfrowe o trwałej wartości pozostały dostępne dla użytkowników przez bardzo długi czas \cite{hedstrom1997digital}. Pierwszą myślą odnośnie cyfrowej konserwacji jest bez wątpienia tworzenie regularnych kopii zapasowych, czy migracji danych, jednak myślenie że dotyczy ona wyłącznie tych pojęć jest błędne. Kopie zapasowe są doskonałą odpowiedzią na krótkoterminowe ryzyko związane z awarią nośników cyfrowych. Jeśli są one wykonane prawidłowo, to są w stanie zapewnić ochronę strumienia bitów ale nie rozwiązują takich problemów jak przestarzałe formaty plików, kwestie prawne oraz autentyczności i pewnego źródła pochodzenia. Kopie zapasowe mogą chronić dane przed przypadkowym usunięciem, przypadkowymi zmianami, działaniem wirusów i hakerów oraz katastrofami, takimi jak powodzie i pożary. Głównym problemem są zmiany technologiczne, starsze kopie cyfrowe mogą stać się nie możliwe do przeczytania przez dane oprogramowanie czy sprzęt, ponieważ ich nowsze wersje mogą nie być przystosowywane do odczytu przestarzałych plików. Ważne jest aby zasoby były regularnie aktualizowane do odpowiednich formatów, a także aby dostęp do nich był nadzorowany, szczególnie jeśli mowa tu o plikach źródłowych których pochodne trafiają później do cyfrowych bibliotek, gdzie dostępne są dla szerokiego grona odbiorców. Podsumowując, długoterminowa konserwacja nie odnosi się do pojęcia kopii zapasowych (konserwacja krótkoterminowa), długoterminowa konserwacja to przede wszystkim uodpornienie zbiorów na zmiany technologiczne \cite{corrado2017digital}.
W przypadku dokumentu tekstowego metadane mogą zawierać informacje o tym, jak długi jest dokument, kto jest jego autorem, kiedy został napisany, krótkie streszczenie dokumentu, a także słowa kluczowe powiązane z zawartością \cite{ContributorstoWikimediaprojects2022Apr}. Metadane są następnie przekazywane podmiotom uczestniczącym w łańcuchu publikacji książek, takim jak dostawcy usług, badacze, fundatorzy, bibliotekarze, czy kuratorzy danych \cite{BibEntry2022May_metada_books}. Metadane mogą być przechowywane i zarządzane w bazie danych, często nazywanej rejestrem metadanych lub repozytorium metadanych. Jednak bez kontekstu i punktu odniesienia identyfikacja metadanych na podstawie samego ich oglądania może okazać się niemożliwa \cite{ContributorstoWikimediaprojects2022Apr}. Istnieje wiele standardów metadanych, ale jeśli chodzi o cyfrowe biblioteki powszechnie używanym jest standard Dublin Core. Proste metadane zgodne ze standardem Dublin Core składają się z 15 elementów, które przedstawia tabela \ref{tab_meta} \cite{Alasem2009Jan}.
\newline
Istnieje również pojęcie masowej cyfryzacji czyli czegoś więcej aniżeli tylko projektu na dużą skalę jak np. digitalizacja kilku bibliotek miejskich zlecona przez władze danego miasta. Jest to digitalizacja materiałów na skalę przemysłową. Innymi słowy oznacza to przekształcanie całych bibliotek bez dokonywania selekcji poszczególnych materiałów z czym mamy do czynienia w przypadku pojedynczych instytucji. Celem masowej digitalizacji nie jest tworzenie wybranych kolekcji dzieł czy dokumentów, ale digitalizacja wszystkiego, czyli np. każdej książki, jaka kiedykolwiek została wydrukowana. Aby zrobić to efektywnie, masowa digitalizacja opiera się na wydajnym fotografowaniu książek strona po stronie i poddawaniu tych obrazów działaniu omówionego wcześniej oprogramowania do optycznego rozpoznawania znaków (OCR) w celu uzyskania tekstu, który można bez przeszkód przeszukiwać. Ludzki czynnik podczas masowej digitalizacji jest ograniczany do absolutnego minimum. Na samą myśl o masowej digitalizacji do głowy nasuwają się globalni liderzy technologiczni tacy jak Google. Celem tej korporacji jest zdigitalizowanie jak największej ilości książek znajdujących się w światowych bibliotekach i księgarniach. Gigant, który rozwija swoją usługę Google Books pozwala w niej na przeszukiwanie materiałów z możliwością podglądu kontekstu wyszukiwanych haseł \cite{COYLE2006641}. Jeśli chodzi o Google to wszystko zaczęło się w 2004 roku, kiedy to światowy gigant ogłosił współprace z pięcioma dużymi amerykańskimi bibliotekami. W skład tej piątki wchodziła Nowojorska Biblioteka Publiczna oraz biblioteki uniwersytetów Harvard, Michigan, Oxford i Uniwersytetu Stanforda. Biblioteki miały wyłączne prawo wyboru pozycji, które zostaną przez firmę z Kalifornii zdigitalizowane, a także otrzymały ich cyfrowe kopie na własny użytek. Konkurencja dla Google'a okazała się być krótkotrwałą, Microsoft który tuż po Google'u rozpoczął prace nad własnym projektem digitalizacji we współpracy z Internet Archive zakończył swoje działania już w 2008 roku. Zebrana jednak przez nich w tym czasie kolekcja może budzić podziw, gdyż udało im się poddać procesowi cyfryzacji aż 750 tysięcy woluminów \cite{Jones2011Apr}. Na poniższych zrzutach ekranu znajduje się przykładowy widok książki dostępnej w cyfrowej bibliotece Google, wraz z najważniejszą funkcjonalnością jaką oferuje, czyli możliwością przeszukiwania interesujących fraz w tekście.
Po skompletowaniu metadanych zarówno one, jak i pozyskane obrazy zostają umieszczone w systemie zarządzania biblioteką cyfrową, który został już opisany we wcześniejszym podrozdziale. Dokumenty znajdujące się już w systemie podobnie jak dokumenty fizyczne również podlegają konserwacji. Cyfrowa konserwacja to przede wszystkim nowe wyzwania stojące przed bibliotekami i archiwami cyfrowymi, które i tak już borykały się z koniecznością tradycyjnej (fizycznej) konserwacji książek, czy dokumentów. Konserwację cyfrową można definiować jako planowanie i alokację zasobów oraz zastosowanie metod i technik konserwatorskich niezbędnych do zapewnienia, aby informacje cyfrowe o trwałej wartości pozostały dostępne dla użytkowników przez bardzo długi czas \cite{hedstrom1997digital}. Pierwszą myślą odnośnie cyfrowej konserwacji jest bez wątpienia tworzenie regularnych kopii zapasowych, czy migracji danych, jednak myślenie że dotyczy ona wyłącznie tych kwestii jest błędne. Kopie zapasowe są doskonałą odpowiedzią na krótkoterminowe ryzyko związane z awarią nośników cyfrowych. Jeśli są one wykonane prawidłowo, to są w stanie zapewnić ochronę strumienia bitów ale nie rozwiązują takich problemów jak przestarzałe formaty plików, kwestie prawne oraz autentyczności i pewnego źródła pochodzenia. Kopie zapasowe mogą chronić dane przed przypadkowym usunięciem, przypadkowymi zmianami, działaniem wirusów i hakerów oraz katastrofami, takimi jak powodzie i pożary. Głównym problemem są zmiany technologiczne, starsze kopie cyfrowe mogą stać się niemożliwe do przeczytania przez dane oprogramowanie czy sprzęt, ponieważ ich nowsze wersje mogą nie być przystosowywane do odczytu przestarzałych plików. Ważne jest, aby zasoby były regularnie aktualizowane do odpowiednich formatów, a także aby dostęp do nich był nadzorowany, szczególnie jeśli mowa tu o plikach źródłowych, których pochodne trafiają później do cyfrowych bibliotek, gdzie dostępne są dla szerokiego grona odbiorców. Podsumowując, długoterminowa konserwacja nie odnosi się do pojęcia kopii zapasowych (konserwacja krótkoterminowa), długoterminowa konserwacja to przede wszystkim uodpornienie zbiorów na zmiany technologiczne \cite{corrado2017digital}.
\newline
Istnieje również pojęcie masowej cyfryzacji, czyli czegoś więcej aniżeli tylko projektu na dużą skalę jak np. digitalizacja kilku bibliotek miejskich zlecona przez władze danego miasta. Jest to digitalizacja materiałów na skalę przemysłową. Innymi słowy oznacza to przekształcanie całych bibliotek bez dokonywania selekcji poszczególnych materiałów z czym mamy do czynienia w przypadku pojedynczych instytucji. Celem masowej digitalizacji nie jest tworzenie wybranych kolekcji dzieł czy dokumentów, ale jak największej możliwej ich liczby. Aby zrobić to efektywnie, masowa digitalizacja opiera się na wydajnym fotografowaniu książek strona po stronie. Ludzki czynnik podczas masowej digitalizacji jest ograniczany do absolutnego minimum. Na samą myśl o masowej digitalizacji do głowy nasuwają się globalni liderzy technologiczni tacy jak Google. W pewnym momencie jednym z celów tej korporacji stała się masowa cyfryzacja zbiorów wielu różnych światowych bibliotek oraz księgarni, aby móc do swojego portfolio dodać zupełnie nową usługę. Efektem tego jest dobrze znana dzisiaj witryna Google Books, która pozwala na przeszukiwanie materiałów z możliwością podglądu kontekstu wyszukiwanych haseł \cite{COYLE2006641}. Jeśli chodzi o Google to wszystko zaczęło się w 2004 roku, kiedy to została ogłoszona ich współpraca z pięcioma dużymi amerykańskimi bibliotekami. W skład tej piątki wchodziła Nowojorska Biblioteka Publiczna oraz biblioteki uniwersytetów Harvard, Michigan, Oxford i Uniwersytetu Stanforda. Biblioteki miały wyłączne prawo wyboru pozycji, które zostaną przez firmę z Kalifornii zdigitalizowane, a także otrzymały ich cyfrowe kopie na własny użytek. Konkurencja dla Google'a okazała się być krótkotrwałą, Microsoft który tuż po Google'u rozpoczął prace nad własnym projektem digitalizacji we współpracy z Internet Archive zakończył swoje działania już w 2008 roku. Zebrana jednak przez nich w tym czasie kolekcja może budzić podziw, gdyż udało im się poddać procesowi cyfryzacji aż 750 tysięcy woluminów \cite{Jones2011Apr}. Na rysunkach \ref{google1} oraz \ref{google2} znajduje się przykładowy widok książki dostępnej w cyfrowej bibliotece Google, wraz z najważniejszą funkcjonalnością, jaką oferuje, czyli możliwością przeszukiwania interesujących fraz w tekście.
\newline
\begin{figure}[h!]
\centering
\includegraphics[width=1\textwidth]{images/google_books.png}
\caption{Podgląd wybranej pozycji w usłudze Google Books \cite{Westover2012}}
\label{google1}
\end{figure}
\clearpage
\begin{figure}[h!]
\centering
\includegraphics[width=1\textwidth]{images/google_books_search.png}
\caption{Podgląd przeszukiwania tekstu wybranej pozycji w usłudze Google Books \cite{Westover2012}}
\label{google2}
\end{figure}
\clearpage
Swobodne przeszukiwanie publikacji udostępnionych w ramach usługi Google Books jest możliwe dzięki zastosowaniu technik OCR, czyli optycznego rozpoznawanie znaków (\emph{z ang. Optical Character Recognition}). OCR można zdefiniować jako proces przekształcania obrazów cyfr, liter i innych symboli drukowanych maszynowo lub pisanych odręcznie na format możliwy do zrozumienia przez komputer. Długa historia badań w tej dziedzinie w tej dziedzinie, sukces komercyjny oraz ciągła potrzeba i możliwość obsługi mniej ograniczonych form tekstu czynią OCR jednym z najważniejszych obszarów zastosowań uczenia maszynowego \cite{Srihari2003Jan}.
Swobodne przeszukiwanie publikacji udostępnionych w ramach usługi Google Books jest możliwe dzięki zastosowaniu technik OCR, czyli optycznego rozpoznawanie znaków (\emph{z ang. optical character recognition - OCR}). OCR można zdefiniować jako proces przekształcania obrazów cyfr, liter i innych symboli drukowanych maszynowo lub pisanych odręcznie na format możliwy do zrozumienia przez komputer. Długa historia badań w tej dziedzinie w tej dziedzinie, sukces komercyjny oraz ciągła potrzeba i możliwość obsługi mniej ograniczonych form tekstu czynią OCR jednym z najważniejszych obszarów zastosowań uczenia maszynowego \cite{Srihari2003Jan}.
\newline
\begin{figure}[h!]
@ -125,11 +132,11 @@ Swobodne przeszukiwanie publikacji udostępnionych w ramach usługi Google Books
\label{ocerek}
\end{figure}
Na schemacie przedstawionym na rysunku \ref{ocerek} zaobserwować możemy etapy działania OCR, od momentu zeskanowania, aż po przygotowany plik JSON z zawartością przetwarzanego obrazu. Optyczne rozpoznawanie znaków umożliwia konwersję różnych różnych typów dokumentów, takich jak zeskanowane dokumenty papierowe, pliki PDF lub obrazy zarejestrowane przez aparat cyfrowy na dane ,które później można edytować i przeszukiwać. Warto podkreślić, że obrazy przechwycone przez aparat cyfrowy różnią się od zeskanowanych dokumentów lub obrazów. Mają one często przeróżne wady takie jak zniekształcenia na krawędziach i źle dopasowane światło, co utrudnia większości aplikacji OCR prawidłowe rozpoznanie tekstu. Na proces jaki przeprowadza OCR przejść składają się trzy etapy. Pierwszym z nich to segmentacja, czyli identyfikacja poszczególnych glifów, które są podstawowymi jednostkami reprezentującymi jeden lub więcej znaków zazwyczaj przylegających do siebie, na podstawie binarnego obrazu wejściowego. Drugim krokiem jest ekstrakcja cech, czyli wyliczenie z każdego glifu wektora liczb, które posłużą jako cechy wejściowe dla sztucznej sieci neuronowej. Ostatnim zadaniem jest klasyfikacja konkretnych wystąpień słów \cite{mithe2013optical}.
Na schemacie przedstawionym na rysunku \ref{ocerek} zaobserwować możemy etapy działania OCR, od momentu zeskanowania, aż po przygotowany plik JSON z zawartością przetwarzanego obrazu. Optyczne rozpoznawanie znaków umożliwia konwersję różnych różnych typów dokumentów, takich jak zeskanowane dokumenty papierowe, pliki PDF lub obrazy zarejestrowane przez aparat cyfrowy na dane, które później można edytować i przeszukiwać. Warto podkreślić, że obrazy przechwycone przez aparat cyfrowy różnią się od zeskanowanych dokumentów lub obrazów. Mają one często przeróżne wady, takie jak zniekształcenia na krawędziach i źle dopasowane światło, co utrudnia większości aplikacji OCR prawidłowe rozpoznanie tekstu. Proces, jaki przeprowadza OCR na wejściowym obrazie składa się z trzech głównych etapów. Pierwszym z nich to segmentacja, czyli identyfikacja poszczególnych glifów, które są podstawowymi jednostkami reprezentującymi jeden lub więcej znaków zazwyczaj przylegających do siebie, na podstawie binarnego obrazu wejściowego. Drugim krokiem jest ekstrakcja cech, czyli wyliczenie z każdego glifu wektora liczb, które posłużą jako cechy wejściowe dla sztucznej sieci neuronowej. Ostatnim zadaniem jest klasyfikacja konkretnych wystąpień słów \cite{mithe2013optical}.
\section{Wyzwania i problemy digitalizacji}
Digitalizacja zasobów danego podmiotu to jednak nie tylko pozytywne strony, to również przedsięwzięcie, które wymaga zmierzenia się z wieloma wyzwaniami i potencjalnymi problemami. Pierwszym problemem z jakim borykać się mogą cyfrowe biblioteki to odpowiednio wykwalifikowani nowocześni bibliotekarze, którzy pomimo posiadania typowych i tradycyjnych dla tego zawodu umiejętności powinni również dysponować technicznym zapleczem niezbędnym do korzystania i utrzymywania zasobów bibliotek cyfrowych, a nawet ich projektowania. Można wyróżnić aż kilkanaście nowych umiejętności, które z racji cyfrowych transformacji bibliotek są lub będą pożądane pośród nowej fali pracowników bibliotecznych. Te cechy to:
Digitalizacja zasobów danego podmiotu to jednak nie tylko pozytywne strony, to również przedsięwzięcie, które wymaga zmierzenia się z wieloma wyzwaniami i potencjalnymi problemami. Pierwszym problemem, z jakim borykać się mogą cyfrowe biblioteki to odpowiednio wykwalifikowani nowocześni bibliotekarze, którzy pomimo posiadania typowych i tradycyjnych dla tego zawodu umiejętności powinni również dysponować technicznym zapleczem niezbędnym do korzystania i utrzymywania zasobów bibliotek cyfrowych, a nawet ich projektowania. Można wyróżnić aż kilkanaście nowych umiejętności, które z racji cyfrowych transformacji bibliotek są lub będą pożądane pośród nowej fali pracowników bibliotecznych. Te cechy to:
\begin{itemize}
\item[$\bullet$] umiejętność korzystania z komputera i sieci,
@ -149,10 +156,10 @@ Digitalizacja zasobów danego podmiotu to jednak nie tylko pozytywne strony, to
\item[$\bullet$] wiedza z zakresu architektury informacji.
\end{itemize}
\ \\
Dość dosadnie pokazuje to, że nowocześni bibliotekarze mający do czynienia z usługami cyfrowymi nie mogą ograniczać się tylko do wiedzy z zakresu jednej dziedziny. Sama wiedza dotycząca bibliotekoznawstwa nie jest już wystarczająca, nowi pracownicy powinni łączyć ją z wiedzą z zakresu informatyki, znajomością pewnych specyficznych technologii, czy teorii informacji. Jak nie trudno się domyślić znalezienie tak specyficznie wykwalifikowanego personelu pracowniczego jest nie lada wyzwaniem dla każdej biblioteki decydującej się na cyfryzacje swoich zbiorów \cite{Isfandyari-Moghaddam2008Nov}.
Dość dosadnie pokazuje to, że nowocześni bibliotekarze mający do czynienia z usługami cyfrowymi nie mogą ograniczać się tylko do wiedzy z zakresu jednej dziedziny. Sama wiedza dotycząca bibliotekoznawstwa nie jest już wystarczająca, nowi pracownicy powinni łączyć ją z wiedzą z zakresu informatyki, znajomością pewnych specyficznych technologii, czy teorii informacji. Jak nietrudno się domyślić, znalezienie tak specyficznie wykwalifikowanego personelu pracowniczego jest nie lada wyzwaniem dla każdej biblioteki decydującej się na cyfryzacje swoich zbiorów \cite{Isfandyari-Moghaddam2008Nov}.
\newline
Kolejnym wyzwaniem z jakim muszą mierzyć się przechodzące transformacje cyfrowe biblioteki to problemy prawne. Przede wszystkim przy wyborze dzieł do digitalizacji należy zwrócić uwagę na ich status prawny. Własność fizyczna danej pozycji nie oznacza, że dana instytucja posiada prawa do jej reprodukcji. Aby móc myśleć o digitalizacji niezbędnym jest uzyskanie na nią zgody, która będzie zgodna z obowiązującymi prawami autorskimi, a także odpowiednie zabezpieczenie zasobów cyfrowych co wiąże się z dodatkowymi kosztami \cite{pandey2014digitization}. Dwa główne prawa majątkowe, które prawo autorskie przyznaje podmiotom praw autorskich, to prawo do zwielokrotniania (czyli prawo do do sporządzania kopii) oraz prawo do rozpowszechniania (czyli prawo do rozpowszechniania kopii) \cite{Panezi2014Oct}. Nie bez powodu prawa autorskie określa się jako najbardziej dokuczliwa bariera w rozwoju bibliotek cyfrowych. Obiekty cyfrowe są łatwe do skopiowania i dostępne jednocześnie dla wielu użytkowników. Stanowi to nie mały problemem w kontekście praw autorskich, które w tym wypadku są bardzo łatwe do złamania nawet na późniejszych etapach, już nie tylko przez biblioteki, ale chociażby przez samych ich użytkowników. Przeważnie wykupienie danej książki od wydawcy zwalnia z dalszej kontroli praw autorskich, jednakże biblioteki, przeciwnie do prywatnych firm, w większości nie są właścicielami oferowanych pozycji, a jedynie ich opiekunami i nie posiadają praw autorskich do przechowywanych przez siebie materiałów \cite{cleveland1998digital}. Wśród członków społeczności bibliotekarskiej stopniowo narasta niepokój związany właśnie z tym wyzwaniem, twierdzą oni iż napotkane problemy będą miały zdecydowany wpływ na możliwości bibliotek do udostępniania zbiorów i świadczenia usług internetowych. W 2010 roku szacowano, że dwadzieścia trzy procent istniejących książek powstało przed 1923 rokiem, a więc nie są one objęte prawami autorskimi. Spośród tych tylko pięć procent było nadal w druku w 2010 roku. Tak więc, około siedemdziesiąt dwa procent książek nie było dostępnych dla szerszej publiczności \cite{Shehu2016Feb}. Jednym ze sposobów na możliwość udostępnienia dzieła, które znajduje się jedynie pod opieką biblioteki, a do którego nie posiada ona żadnych praw autorskich jest wynegocjowanie z wydawcami jasnych warunków licencjonowania \cite{Panezi2014Oct}. Kolejną barierę prawną w przypadku ochrony zasobów cyfrowych stanowią tak zwane dzieła osierocone, w przypadku których bardzo trudno jest zidentyfikować lub odszukać osoby roszczące sobie prawa autorskie do danych dzieł. Jeśli nie jest możliwe odnalezienie właścicieli praw autorskich i skontaktowanie się z nimi w celu uzyskania zgody na digitalizacje, będzie ona po prostu najpewniej nie możliwa do wykonania. Proces ustalania praw autorskich jest czynnością czasochłonną i wymagającą dużych zasobów, dlatego instytucje, które podejmują się digitalizacji, najchętniej unikają w procesie selekcji materiały nadal będące pod ochroną praw autorskich. Kwestia ta jest jeszcze bardziej delikatna w przypadku dzieł zbiorowych, przykładowo nagrań spektakli czy sztuk. Wówczas wszyscy ich autorzy tj. reżyserzy, choreografowie, aktorzy, a nawet kostiumolodzy, scenografowie i oświetleniowcy mogą ubiegać się o ochronę praw autorskich. Ze względu na ogromną złożoność prawną wiele dzieł zbiorowych objętych prawami autorskimi nie jest z założenia w ogóle brana pod uwagę przy digitalizacji. Umowy licencyjne negocjowane między podmiotami praw autorskich a instytucjami, takimi jak biblioteki i archiwa, mogą nakładać pewne ograniczenia na dostęp do informacji cyfrowych i sposób ich wykorzystania. Opracowywane są nowe formy licencji otwartego dostępu, w tym licencje Creative Commons, które pozwalają na większą elastyczność w korzystaniu z materiałów chronionych prawem autorskim i mają na celu przeciwdziałanie coraz większemu komercyjnemu zamknięciu cyfrowej sfery publicznej. Licencje otwartego dostępu pozwalają właścicielom praw autorskich na udostępnianie dzieł twórczych mając na uwadze ich możliwe kopiowanie, a także rozpowszechnianie. Dzieje się to poprzez przyznawanie wyjątków (takich jak użycie niekomercyjne) od praw przysługujących im na mocy tradycyjnych praw autorskich. W rzeczywistości takie modele licencji mają na celu rozszerzenie zakresu, który został ograniczony oraz przywrócenie równowagi w przepisach prawa autorskiego w celu maksymalnego otwarcia na dzieła twórcze i naukowe \cite{Evens2011May}.
\clearpage
Kolejnym wyzwaniem, z jakim muszą mierzyć się przechodzące transformacje cyfrowe biblioteki to problemy prawne. Przede wszystkim przy wyborze dzieł do digitalizacji należy zwrócić uwagę na ich status prawny. Własność fizyczna danej pozycji nie oznacza, że dana instytucja posiada prawa do jej reprodukcji. Aby móc myśleć o digitalizacji, niezbędnym jest uzyskanie na nią zgody, która będzie zgodna z obowiązującymi prawami autorskimi, a także odpowiednie zabezpieczenie zasobów cyfrowych co wiąże się z dodatkowymi kosztami \cite{pandey2014digitization}. Dwa główne prawa majątkowe, które prawo autorskie przyznaje podmiotom praw autorskich, to prawo do zwielokrotniania (czyli prawo do do sporządzania kopii) oraz prawo do rozpowszechniania (czyli prawo do rozpowszechniania kopii) \cite{Panezi2014Oct}. Nie bez powodu prawa autorskie określa się jako najbardziej dokuczliwa bariera w rozwoju bibliotek cyfrowych. Obiekty cyfrowe są łatwe do skopiowania i dostępne jednocześnie dla wielu użytkowników. Stanowi to niemały problemem w kontekście praw autorskich, które w tym wypadku są bardzo łatwe do złamania nawet na późniejszych etapach, już nie tylko przez biblioteki, ale chociażby przez samych ich użytkowników. Przeważnie wykupienie danej książki od wydawcy zwalnia z dalszej kontroli praw autorskich, jednakże biblioteki, przeciwnie do prywatnych firm, w większości nie są właścicielami oferowanych pozycji, a jedynie ich opiekunami i nie posiadają praw autorskich do przechowywanych przez siebie materiałów \cite{cleveland1998digital}. Wśród członków społeczności bibliotekarskiej stopniowo narasta niepokój związany właśnie z tym wyzwaniem, twierdzą oni iż napotkane problemy będą miały zdecydowany wpływ na możliwości bibliotek do udostępniania zbiorów i świadczenia usług internetowych. W Stanach Zjednoczonych w roku 2010 szacowano, że dwadzieścia trzy procent istniejących już książek powstało przed 1923 rokiem, a więc według tamtejszego prawa, nie są one objęte prawami autorskimi. Spośród tych tylko pięć procent było nadal w druku w 2010 roku. Tak więc, około siedemdziesiąt dwa procent książek nie było dostępnych dla szerszej publiczności \cite{Shehu2016Feb}. Jednym ze sposobów na możliwość udostępnienia dzieła, które znajduje się jedynie pod opieką biblioteki, a do którego nie posiada ona żadnych praw autorskich jest wynegocjowanie z wydawcami jasnych warunków licencjonowania \cite{Panezi2014Oct}. Kolejną barierę prawną w przypadku ochrony zasobów cyfrowych stanowią tak zwane dzieła osierocone, w przypadku których bardzo trudno jest zidentyfikować lub odszukać osoby roszczące sobie prawa autorskie do danych dzieł. Jeśli nie jest możliwe odnalezienie właścicieli praw autorskich i skontaktowanie się z nimi w celu uzyskania zgody na digitalizacje, będzie ona po prostu najpewniej niemożliwa do wykonania. Proces ustalania praw autorskich, jest czynnością czasochłonną i wymagającą dużych zasobów, dlatego instytucje, które podejmują się digitalizacji, najchętniej unikają w procesie selekcji materiały nadal będące pod ochroną praw autorskich. Kwestia ta jest jeszcze bardziej delikatna w przypadku dzieł zbiorowych, przykładowo nagrań spektakli czy sztuk. Wówczas wszyscy ich autorzy tj. reżyserzy, choreografowie, aktorzy, a nawet kostiumolodzy, scenografowie i oświetleniowcy mogą ubiegać się o ochronę praw autorskich. Ze względu na ogromną złożoność prawną wiele dzieł zbiorowych objętych prawami autorskimi nie jest z założenia w ogóle brana pod uwagę przy digitalizacji. Umowy licencyjne negocjowane między podmiotami praw autorskich a instytucjami, takimi jak biblioteki i archiwa, mogą nakładać pewne ograniczenia na dostęp do informacji cyfrowych i sposób ich wykorzystania. Opracowywane są nowe formy licencji otwartego dostępu, w tym licencje Creative Commons, które pozwalają na większą elastyczność w korzystaniu z materiałów chronionych prawem autorskim i mają na celu przeciwdziałanie coraz większemu komercyjnemu zamknięciu cyfrowej sfery publicznej. Licencje otwartego dostępu pozwalają właścicielom praw autorskich na udostępnianie dzieł twórczych mając na uwadze ich możliwe kopiowanie, a także rozpowszechnianie. Dzieje się to poprzez przyznawanie wyjątków (takich jak użycie niekomercyjne) od praw przysługujących im na mocy tradycyjnych praw autorskich. Tego typu modele licencji wspierają zarówno twórców, jak i przyszłych odbiorców, ponieważ za cel biorą sobie uzyskanie kompromisu pomiędzy pełną ochroną praw autorskich a możliwością swobodnego dzielenia się twórczością \cite{Evens2011May}.
\newline
W przypadku ochrony materiałów cyfrowych jednym z problemów jest starzenie się technologii, co w dłuższej perspektywie czasowej, w przypadku braku reakcji, może prowadzić do kompletnego utracenie możliwości oglądania danych zbiorów, a co za tym idzie zabicia głównego celu digitalizacji, czyli powszechnego, bezpiecznego i długowiecznego dostępu do danych materiałów. Starzenie się technologii w erze cyfrowej jest porównywalne do niszczenia papieru w epoce papieru. Biblioteki w swojej tradycyjnej formie musiały dbać o takie rzeczy jak kontrola klimatu w pomieszczeniach ze zgromadzonymi zbiorami oraz przykładowo ich odkwaszaniem. Te cyfrowe również muszą odpowiednio dbać o zdigitalizowane dzieła, poprzez nieustanne opracowywania nowych rozwiązań technicznych. W dłuższej perspektywie materiały przechowywane na starszych nośnikach mogą zostać utracone, ponieważ nie będzie już sprzętu ani oprogramowania do ich odczytu. Biblioteki będą więc musiały stale przenosić informacje cyfrowe z nośnika na nośnik lub rozważyć nowoczesne technologie chmurowe, a co za tym idzie zlecić zadanie innemu podmiotowi i dodatkowo przeznaczyć część budżetu na opłacenie zewnętrznego dostawcy pamięci. Zachowaniu dostępu do treści dokumentów, niezależnie od ich formatu to kolejne wyzwanie podchodzące pod problemy natury technicznej związane z cyfrowymi bibliotekami. Jest to problem nawet większy niż w przypadku przestarzałych technologii pamięci masowej, ponieważ przenoszenie plików z jednego przestarzałego fizycznego nośnika na inny nowocześniejszy jest owszem męczące ale nie aż tak ryzykowne. W przypadku reakcji odpowiednio wcześniej i zachowania kopii zapasowych przed procesem przenoszenia treści, wszystko powinno obejść się bez większych problemów. W przypadku przestarzałego formatu pliku sprawa robi się znacznie bardziej skomplikowana. Jednym z rozwiązań jest migracja danych, czyli przetłumaczenie danych z jednego formatu na inny, zachowując zdolność użytkowników do pobierania i wyświetlania treści. Jednak i tu pojawiają się trudności, ponieważ migracja danych jest kosztowna, a ryzyko zniekształcenia lub utraty informacji w trakcie procesu migracji jest praktycznie nieuniknione \cite{verma2009digital}.
W przypadku ochrony materiałów cyfrowych jednym z problemów jest starzenie się technologii, co w dłuższej perspektywie czasowej, w przypadku braku reakcji, może prowadzić do kompletnego utracenie możliwości oglądania danych zbiorów, a co za tym idzie zatracenia głównego celu digitalizacji, jakim jest powszechny, bezpieczny i długowieczny dostępu do danych materiałów. Starzenie się technologii w erze cyfrowej jest porównywalne do niszczenia papieru w epoce papieru. Biblioteki w swojej tradycyjnej formie musiały dbać o takie rzeczy jak kontrola klimatu w pomieszczeniach ze zgromadzonymi zbiorami oraz przykładowo ich odkwaszaniem. Te cyfrowe również muszą odpowiednio dbać o zdigitalizowane dzieła, poprzez nieustanne opracowywania nowych rozwiązań technicznych. W dłuższej perspektywie materiały przechowywane na starszych nośnikach mogą zostać utracone, ponieważ nie będzie już sprzętu ani oprogramowania do ich odczytu. Biblioteki będą więc musiały stale przenosić informacje cyfrowe z nośnika na nośnik lub rozważyć nowoczesne technologie chmurowe, a co za tym idzie zlecić zadanie innemu podmiotowi i dodatkowo przeznaczyć część budżetu na opłacenie zewnętrznego dostawcy pamięci. Zachowaniu dostępu do treści dokumentów, niezależnie od ich formatu to kolejne wyzwanie podchodzące pod problemy natury technicznej związane z cyfrowymi bibliotekami. Jest to problem nawet większy niż w przypadku przestarzałych technologii pamięci masowej, ponieważ przenoszenie plików z jednego przestarzałego fizycznego nośnika na inny nowocześniejszy jest opotliwe ale nie aż tak ryzykowne. W przypadku reakcji odpowiednio wcześniej i zachowania kopii zapasowych przed procesem przenoszenia treści, wszystko powinno obejść się bez większych problemów. W przypadku przestarzałego formatu pliku sprawa robi się znacznie bardziej skomplikowana. Jednym z rozwiązań jest migracja danych, czyli przetłumaczenie danych z jednego formatu na inny, zachowując zdolność użytkowników do pobierania i wyświetlania treści. Jednak i tu pojawiają się trudności, ponieważ migracja danych jest kosztowna, a ryzyko zniekształcenia lub utraty informacji w trakcie procesu migracji jest praktycznie nieuniknione \cite{verma2009digital}.

View File

@ -2,23 +2,24 @@
% !TeX spellcheck = pl_PL
\chapter{Podstawy teoretyczne sieci neuronowych}\hypertarget{chap:2}{}
Niniejsza praca polega na przeprowadzeniu eksperymentu na danych zebranych w ramach omawianego na późniejszych stronach projektu powstałego z ramienia inicjatywy digitalizacyjnej Chronicling America, t.j. Newspaper Navigator. Z racji tego istnieje naturalna potrzeba wytłumaczenia pojęcia jakimi są głębokie sieci neuronowe ze szczególnym naciskiem na sieci przetwarzające obraz, ponieważ technologia ta jest kluczowym elementem całego projektu Newspaper Navigator.
Niniejsza praca polega na przeprowadzeniu eksperymentu na danych zebranych w ramach omawianego na późniejszych stronach projektu powstałego z ramienia inicjatywy digitalizacyjnej Chronicling America, t.j. Newspaper Navigator. Z racji tego istnieje naturalna potrzeba wytłumaczenia pojęcia, jakimi są głębokie sieci neuronowe ze szczególnym naciskiem na sieci przetwarzające obraz, ponieważ technologia ta jest kluczowym elementem całego projektu Newspaper Navigator.
\section{Podstawowe informacje o sieciach neuronowych}
Najprościej mówiąc i nie wdając się jeszcze zanadto w szczegóły sieć neuronowa jest to stos połączonych ze sobą warstw na które składają się neurony, czyli podstawowe jednostki obliczeniowe w sieciach. Wyróżniamy warstwę wejściową, ukryte warstwy stanowiące środek sieci, a także warstwę wyjściową. Z jednej strony wprowadza się dane, a z drugiej strony otrzymuje się ich przetworzoną postać. Każda warstwa wykonuje serię operacji matematycznych na otrzymanych danych, a także posiada zestaw zmiennych podlegających modyfikacji w celach optymalizacyjnych. Przedstawiony na poniższej rycinie typ sieci neuronowych to najbardziej popularny typ, nazywany W Pełni Połączoną Siecią (\emph{z ang. Fully Connected Network}). W sieci w pełni połączonej każda jednostka wyjściowa jest obliczana jako suma ważona wszystkich wejść. Termin "w pełni połączona" pochodzi właśnie od tego zachowania: każde wyjście jest połączone z każdym wejściem \cite{osinga2018deep}. Neurony zawarte w warstwie wejściowej (\emph{z ang. Input Layer}) wprowadzają do modelu informacje zewnętrzne, nie wykonują się tutaj żadne operacje matematyczne, jedynie wprowadza się dane. Liczba neuronów w warstwie wejściowej zależy od danych treningowych, od ich wymiaru. Tradycyjnie dla warstwy wejściowej wygląda to tak jak na wykresie \ref{neurony_licz}.
Najprościej mówiąc i nie wdając się jeszcze zanadto w szczegóły sieć neuronowa jest to stos połączonych ze sobą warstw na które składają się neurony, czyli podstawowe jednostki obliczeniowe w sieciach. Wyróżniamy warstwę wejściową, ukryte warstwy stanowiące środek sieci, a także warstwę wyjściową. Z jednej strony wprowadza się dane, a z drugiej strony otrzymuje się ich przetworzoną postać. Każda warstwa wykonuje serię operacji matematycznych na otrzymanych danych, a także posiada zestaw parametrów podlegających modyfikacji w procesie optymalizacji. Przedstawiony na rycinie \ref{DNN} typ sieci neuronowych to najbardziej popularny typ, nazywany w pełni połączoną siecią (\emph{z ang. Fully Connected Network}). W sieci w pełni połączonej każda jednostka wyjściowa jest obliczana jako suma ważona wszystkich wejść. Termin ``w pełni połączon'' pochodzi właśnie od tego zachowania: każde wyjście jest połączone z każdym wejściem \cite{osinga2018deep}. Neurony zawarte w warstwie wejściowej (\emph{z ang. Input Layer}) wprowadzają do modelu informacje zewnętrzne, nie wykonują się tutaj żadne operacje matematyczne, jedynie wprowadza się dane. Liczba neuronów w warstwie wejściowej zależy od danych treningowych, od ich wymiaru. Tradycyjnie dla warstwy wejściowej wygląda to tak jak na wykresie \ref{neurony_licz}.
\begin{equation}
Liczba\: neuronow = Liczba\: cech\: w\: danych\: treningowych + 1
\label{neurony_licz}
\end{equation}
Wyrażenie '+ 1' w powyższym wzorze odnosi się do wyrazu wolnego (\emph{z ang. bias}), który intuicyjnie pełni podobne zadanie przy sieciach neuronowych jak ma to miejsce w klasycznej regresji liniowej. Wyraz wolny to po prostu stała wartość. Bias jest wykorzystywany do zrównoważenia wyniku, służy do przesunięcia wyniku funkcji aktywacji (o której więcej w dalszej części pracy) w stronę dodatnią lub ujemną. Cała "magia" sieci neuronowych odbywa się za to w warstwach ukrytych (\emph{z ang. hidden layers}), zgromadzone tam neurony przetwarzają informacje zgromadzone w warstwie wejściowej, a następnie przekazują je do wartstwy wyjściowej. Warstw ukrytych w sieciach może być zero lub kilka, nie jest to w żaden sposób regulowane a dotyczy od danego przypadku oraz wizji twórcy konkretnej sieci. Im bardziej skomplikowany przypadek ma dana sieć rozwiązać tym zazwyczaj z większej ilości ukrytych warstw musi się ona składać \cite{Malik2021Dec}.
Wyrażenie '+ 1' w powyższym wzorze odnosi się do wyrazu wolnego lub inaczej obciążenia (\emph{z ang. bias}), który intuicyjnie pełni podobne zadanie przy sieciach neuronowych jak ma to miejsce w klasycznej regresji liniowej. Wyraz wolny to po prostu stała wartość. Obciążenie jest wykorzystywane do zrównoważenia wyniku, służy do przesunięcia wyniku funkcji aktywacji (o której więcej w dalszej części pracy) w stronę dodatnią lub ujemną. Najważniejsze operacje odbywają się za to w warstwach ukrytych (\emph{z ang. hidden layers}), zgromadzone tam neurony przetwarzają informacje zgromadzone w warstwie wejściowej, a następnie przekazują je do warstwy wyjściowej. Warstw ukrytych w sieciach może być zero lub kilka, nie jest to w żaden sposób regulowane, a dotyczy od danego przypadku oraz wizji twórcy konkretnej sieci. Im bardziej skomplikowany przypadek ma dana sieć rozwiązać, tym zazwyczaj z większej liczby ukrytych warstw musi się ona składać \cite{Malik2021Dec}.
\begin{figure}[h!]
\centering
\includegraphics[width=1\textwidth]{images/nn.png}
\caption{Wizualizacja podstawowej architektury sieci neuronowej \cite{BibEntry2021Aug_nn}}
\includegraphics[width=0.85\textwidth]{images/nn2.png}
\caption{Wizualizacja podstawowej architektury sieci neuronowej}
\label{DNN}
\end{figure}
Neurony w każda warstwie połączone są krawędziami (reprezentowane na powyższym obrazie jako strzałki łączące poszczególne neurony ze sobą), a każda z krawędzi posiada wagę. Pojedynczy neuron zatem jest sumą ważoną wartości z poprzedniej warstwy a także dodaje się do nich wyraz wolny, w przypadku pierwszej warstwy ukrytej tymi wartościami jest jeden wiesz wartości wszystkich cechy zbioru danych. Wagi podlegają optymalizacji w trakcie procesu uczenia sieci. Ich wartość jest o tyle kluczowa, że niektóre cechy w danych będą miały większe lub mniejsze znaczenie dla przyszłej predykcji, ta właśnie ważność jest regulowana przez wagi. Początkowo wagi mają ustawiane wartości w postaci małych liczb losowych \cite{Jain2021Dec}. Wzór \ref{wyrazwol} określa zachodzącą operacje wewnątrz neuronów.
Neurony w każda warstwie połączone są krawędziami (reprezentowane na powyższym obrazie jako strzałki łączące poszczególne neurony ze sobą), a każda z krawędzi posiada wagę. Pojedynczy neuron zatem jest sumą ważoną wartości z poprzedniej warstwy a także dodaje się do nich wyraz wolny, w przypadku pierwszej warstwy ukrytej tymi wartościami jest jeden wiersz wartości wszystkich cechy zbioru danych. Wagi podlegają optymalizacji w trakcie procesu uczenia sieci. Ich wartość jest o tyle kluczowa, że niektóre cechy w danych będą miały większe lub mniejsze znaczenie dla przyszłej predykcji, ta właśnie ważność jest regulowana przez wagi. Początkowo wagi mają ustawiane wartości w postaci małych liczb losowych \cite{Jain2021Dec}. Wzór \ref{wyrazwol} określa zachodzącą operacje wewnątrz neuronów.
\begin{equation}
Y = \sum (wagi * dane\: wejsciowe) + wyraz\: wolny
\label{wyrazwol}
@ -45,6 +46,7 @@ Najczęściej stosowane funkcje aktywacji przedstawia tabela \ref{tab_activ}.
\caption{Najczęściej stosowane funkcje aktywacji}
\label{tab_activ}
\end{table}
\clearpage
Po nałożeniu funkcji aktywacji na ważoną sumę cały proces powtarza się dla kolejnych warstw. Ostatnim krokiem jest przekazanie wartości do warstwy wyjściowej sieci, gdzie liczony jest finalny błąd predykcji. Cały taki proces nazywamy propagacją w przód (\emph{z ang. forward propagation}) \cite{Jain2021Dec_activatio}. Na poniższej rycinie możemy zauważyć proces opisany powyżej w wersji wizualnej. W tym przypadku dla uproszczenia sieć neuronowa składa się z trzech warstw: 1 wejściowej, 1 ukrytej i 1 wyjściowej. Warstwy wejściowa i ukryta zawierają trzy neurony, a warstwa wyjściowa zaś tylko jeden. Poszczególne wartości w sieci na każdym z etapów przykładu algorytmu propagacji w przód prezentują rysunek \ref{layers}.
\begin{figure}[h!]

Binary file not shown.

Before

Width:  |  Height:  |  Size: 419 KiB

After

Width:  |  Height:  |  Size: 418 KiB

BIN
images/nn2.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 144 KiB

View File

@ -68,11 +68,6 @@
\paragraph{Keywords:} digital libraries, digitization, object detection, computer vision, natural language processing, artificial neural networks
\end{abstract}
% Opcjonalny blok dedykacji
\begin{dedykacja}
Tu możesz umieścić swoją dedykację.
\end{dedykacja}
% Spis treści
\tableofcontents
\clearpage
@ -80,6 +75,8 @@ Tu możesz umieścić swoją dedykację.
% Właściwa część pracy %
% ======================================================== %
\input{chapter0}
\clearpage
\input{chapter1}
\clearpage
\input{chapter2}

View File

@ -1,4 +1,6 @@
% !TeX encoding = UTF-8
% !TeX spellcheck = pl_PL
\chapter{Zakończenie}
\chapter*{Zakończenie}
\addcontentsline{toc}{chapter}{Zakończenie}
Bez krzty wątpliwości digitalizacja jest niezwykle ważnym procesem, wręcz niezbędnym do utrzymania porządku i zapewnienia bezpieczeństwa niezliczonym zbiorom dokumentów przechowywanych aktualnie głównie w formie papierowej. Powszechny dostęp do cennych treści wysoce narażonych na zniszczenie, nie będzie możliwy jeżeli takowe dzieła nie zostaną umieszczone w przestrzeni cyfrowej. Digitalizacja jest swego rodzaju drogą do ocalenia dorobku kulturowego ludzkości, nie narażając go na negatywny wpływ czynnika jakim jest czas, a także oferowanie go w pełnej okazałości szerokiemu gronu odbiorców, aby pamięć o wydarzeniach historycznych i zawartych w nich naukach nigdy nie przeminęła. Faktem jest, że świat coraz to bardziej przenosi swoje zasoby i możliwości do Internet, dlatego też nie mogło by być inaczej w kontekście bibliotek, archiwów czy urzędów. Cyfrowe biblioteki, choć coraz powszechniejsze nadal wymagają wiele pracy i zasobów, aby w pełni wykorzystać potencjał dostępnej w dzisiejszych czasach technologii. Już sam proces digitalizacji dokumentów jest procesem czasochłonnym i wymagającym ogromnej uwagi, a także wysoce wyspecjalizowanej kadry pracowniczej, aby przeprowadzić go w prawidłowy sposób, lecz samo to nie jest niestety wystarczające, jest jedynie pierwszym z wielu kroków. Do stworzenia w pełni funkcjonalnego narzędzia pozwalającego w sposób efektywny korzystać z dostępnych zbiorów potrzebna jest wiedza i umiejętności korzystania z najnowszych technologii. Aby móc w pełni przeszukiwać zdigitalizowane dokumenty, wyszukiwać w nich odpowiednie treści, nawet nie wiedząc na starcie co tak na prawdę chcę się znaleźć, niezbędnym jest wykorzystanie technik sztucznej inteligencji. W ramach niniejszej pracy magisterskiej powstało w pełni funkcjonalne rozwiązanie zapewniające możliwość przeszukiwania treści wizualnych w zbiorze zdigitalizowanych starych amerykańskich gazet. Stworzona aplikacja wzorowana była na podejściu wytworzonym w trakcie projektu Chronicling America o nazwie Newspaper Navigator. Efekty jakie zostały osiągnięte w trakcie tworzenia rozwiązania przebiły postawione przed pracą oczekiwania, co przełożyło się na osiągnięcie lepszych rezultatów zbudowanego modelu detekcji treści wizualnych opartego o głębokie sieci neuronowe, niż miało to miejsce w przypadku pierwowzoru i inspiracji tej pracy. Następnym krokiem podejścia było stworzenie systemu przeszukiwania wyników, jakie zwraca utworzony model, poddanych działaniu systemu optycznego rozpoznawania znaków. Zwieńczeniem całej pracy jest warstwa wizualna pozwalająca na komunikacje z użytkownikiem w czasie rzeczywistym i pełno tekstowego przeszukiwania bazy danych. Reasumując niniejsza praca magisterska pozwoliła na stworzenie w pełni funkcjonalnego oprogramowania do wsparcia cyfrowych bibliotek, które już posiadają jakieś zdigitalizowane zasoby. Do realizacji tego celu wykorzystane zostały najnowsze metody sztucznej inteligencji i inżynierii oprogramowania, które pozwoliły utworzyć narzędzie, które być może ze względu na swoją uniwersalność okaże się pomocne wielu instytucją i tym samym dołoży swoją cegiełkę do ochrony dorobku kulturalnego ludzkości.