Update on Overleaf.

This commit is contained in:
Alex Drożdż 2022-09-18 19:05:13 +00:00 committed by node
parent 9e4de58066
commit 87210e1bf7
3 changed files with 72 additions and 64 deletions

View File

@ -1,6 +1,14 @@
% here the bibliographic entry for the paper itself should be given,
% used for generating declarations
@article{DocLibCong,
title = {{The National Digital Newspaper Program (NDNP) Technical Guidelines for Applicants 2023-25 Awards}},
publisher = {Library of Congress},
year = {2022},
url = {https://www.loc.gov/ndnp/guidelines/NDNP_202325TechNotes.pdf},
note = {[Online; accessed 18. Sep. 2022]}
}
@misc{rmsprop_unpublished_Hinton,
year = {2014},
month = apr,

View File

@ -3,20 +3,22 @@
\chapter*{Wstęp}
\addcontentsline{toc}{chapter}{Wstęp}
\section{Motywacja i cele}
Rozwój technologii doprowadził do sytuacji, w której świat realny i jego wirtualne odwzorowanie rozwijają się ramię w ramię. Z roku na rok coraz bardziej zauważalny jest trend przenoszenia części usług świadczonych przez różne instytucje do świata wirtualnego, jest to właśnie pokłosie rozwoju technologicznego i oferowanych tym nowych możliwości. Dzięki postępowi coraz więcej spraw można załatwić nie wychodząc z miejsca, w którym aktualnie się przebywa, a to co wcześniej wydawało się niemożliwe bez konieczności fizycznego pojawienia się w danym miejscu, dziś jest na wyciągnięcie ręki jedynie za pośrednictwem ekranu komputera i dostępu do Internetu. Korzystając z rozwoju, wiele różnych instytucji rozszerza zakres swojej działalności właśnie poprzez świadczenie usług cyfrowych. W niniejszej pracy magisterskiej główna uwaga skupia się właśnie na instytucjach, które nie tylko korzystają z dobroci technologii, aby nadal trwać, ale przede wszystkim świadczyć coraz to nowe usługi. Biblioteki, urzędy czy archiwa, bo o nich mowa w tej pracy, posiadają ogromny zasób historycznych publikacji, takich jak czasopisma, książki czy dokumenty. Powstaje więc naturalna potrzeba udostępnienia tych zasobów nie tylko fizycznie, ale i wirtualnie. Zjawisko to nazywane jest digitalizacją. Przede wszystkim pozwala ona na oferowanie zasobów niezależnie od tego, gdzie znajduje się potencjalny odbiorca, a także bez ryzyka ich zniszczenia czy braku dostępności danej pozycji. W przypadku bibliotek istnieje takie pojęcie jak biblioteki cyfrowe. Zasoby zgromadzone w ramach bibliotek cyfrowych obfitują w ikonografię, a w związku z tym pojawia się naturalna potrzeba wyszukiwania obrazów odpowiadających danej potrzebie informacyjnej. Wcześniej możliwość szybkiego przeszukiwania tysięcy, setek czy choćby nawet dziesiątek publikacji była wręcz niemożliwa. Jednak dzięki temu, że dostępne są one wirtualnie, możliwości ich przeszukiwania stała się potencjalnie dostępna, wystarczy do tego odpowiednio przygotowany program komputerowy. Celem tej pracy jest zbadanie podejścia do przeszukiwania historycznych zdigitalizowanych zbiorów, a także budowy wyszukiwarki, obsługującej zapytania użytkownika w czasie rzeczywistym, opartej o sztuczne sieci neuronowe i techniki przetwarzania języka naturalnego.
\section*{Motywacja i cele}
\addcontentsline{toc}{section}{Motywacja i cele}
Rozwój technologii doprowadził do sytuacji, w której świat realny i jego wirtualne odwzorowanie rozwijają się ramię w ramię. Z roku na rok coraz bardziej zauważalny jest trend przenoszenia części usług świadczonych przez różne instytucje do świata wirtualnego, jest to właśnie pokłosie rozwoju technologicznego i oferowanych tym nowych możliwości. Dzięki postępowi coraz więcej spraw można załatwić nie wychodząc z miejsca, w którym aktualnie się przebywa, a to co wcześniej wydawało się niemożliwe bez konieczności fizycznego pojawienia się w danym miejscu, dziś jest na wyciągnięcie ręki jedynie za pośrednictwem ekranu komputera i dostępu do Internetu. Korzystając z rozwoju, wiele różnych instytucji rozszerza zakres swojej działalności właśnie poprzez świadczenie usług cyfrowych. W niniejszej pracy magisterskiej główna uwaga skupia się właśnie na instytucjach, które nie tylko korzystają z dobroci technologii, aby nadal trwać, ale przede wszystkim świadczyć coraz to nowe usługi. Biblioteki, urzędy czy archiwa, bo o nich mowa w tej pracy, posiadają ogromny zasób historycznych publikacji, takich jak czasopisma, książki czy dokumenty. Powstaje więc naturalna potrzeba udostępnienia tych zasobów nie tylko fizycznie, ale i wirtualnie. Zjawisko to nazywane jest digitalizacją. Przede wszystkim pozwala ona na oferowanie zasobów niezależnie od tego, gdzie znajduje się potencjalny odbiorca, a także bez ryzyka ich zniszczenia czy braku dostępności danej pozycji. W przypadku bibliotek istnieje takie pojęcie jak biblioteki cyfrowe. Zasoby zgromadzone w ramach bibliotek cyfrowych obfitują w ikonografię, a w związku z tym pojawia się naturalna potrzeba wyszukiwania obrazów odpowiadających danej potrzebie informacyjnej. Wcześniej możliwość szybkiego przeszukiwania tysięcy, setek czy choćby nawet dziesiątek publikacji była wręcz niemożliwa. Jednak dzięki temu, że dostępne są one wirtualnie, możliwości ich przeszukiwania stała się potencjalnie dostępna, wystarczy do tego odpowiednio przygotowany program komputerowy. Celem tej pracy jest zbadanie podejścia do przeszukiwania historycznych zdigitalizowanych zbiorów w zakresie ikonografii, a także budowy wyszukiwarki, obsługującej zapytania użytkownika w czasie rzeczywistym, opartej o sztuczne sieci neuronowe i techniki przetwarzania języka naturalnego.
\section{Struktura pracy}
Niniejsza praca magisterska, nie licząc wstępu i zakończenia, składa się z 4 głównych rozdziałów. Każdy z nich skupia się na innych aspektach związanych z digitalizacją treści począwszy od ogólnego spojrzenia i przeglądu literatury, poprzez podstawy głębokich sieci neuronowych pozwalających na tworzenie narzędzi do obsługi zdigitalizowanych zbiorów, a także szczegółowy opis projektu związanego z digitalizacją publikacji, kończąc zaś na przedstawieniu oraz technicznym opisie podejścia do tworzenia systemu detekcji i wyszukiwania treści wizualnych w publikacjach historycznych.
\section*{Struktura pracy}
\addcontentsline{toc}{section}{Struktura pracy}
Niniejsza praca magisterska, nie licząc wstępu i zakończenia, składa się z czterech głównych rozdziałów. Każdy z nich skupia się na innych aspektach związanych z digitalizacją treści począwszy od ogólnego spojrzenia i przeglądu literatury, poprzez podstawy głębokich sieci neuronowych pozwalających na tworzenie narzędzi do obsługi zdigitalizowanych zbiorów, a także szczegółowy opis projektu związanego z digitalizacją publikacji, kończąc zaś na przedstawieniu oraz technicznym opisie podejścia do tworzenia systemu detekcji i wyszukiwania treści wizualnych w publikacjach historycznych.
\newline
Digitalizacja jako pojęcie zostało przedstawione w \hyperlink{chap:1}{pierwszym rozdziale} pracy. Rozdział ten traktuje o idei, zastosowaniach, problemach i wyzwaniach, wyjaśnia również pojęcia niezbędne do prawidłowego rozumienia tego terminu jak i terminów pochodnych. Proces jakim jest digitalizacja nie należy do trywialnych, a jego implementacja jest czasochłonna i wymaga spełnienia wielu kryteriów, które również zostały w tym rozdziale opisane. Przedstawione zostały także przykłady cyfrowych bibliotek i systemów obsługi zdigitalizowanych zbiorów. Cały rozdział opiera się na teorii dotyczącej digitalizacji, a także ekstrakcji treści, zbudowane zostały podwaliny teoretyczne pod dokładne rozumienie zagadnień przedstawionych w dalszej części pracy.
Digitalizacja jako pojęcie zostało przedstawione w \hyperlink{chap:1}{rozdziale 1} pracy. Rozdział ten traktuje o idei, zastosowaniach, problemach i wyzwaniach, wyjaśnia również pojęcia niezbędne do prawidłowego rozumienia tego terminu jak i terminów pochodnych. Proces, jakim jest digitalizacja, nie należy do trywialnych, a jego implementacja jest czasochłonna i wymaga spełnienia wielu kryteriów, które również zostały w tym rozdziale opisane. Przedstawione zostały także przykłady cyfrowych bibliotek i systemów obsługi zdigitalizowanych zbiorów. Cały rozdział opiera się na teorii dotyczącej digitalizacji, a także ekstrakcji treści, zbudowane zostały podwaliny teoretyczne pod dokładne rozumienie zagadnień przedstawionych w dalszej części pracy.
\newline
\hyperlink{chap:2}{W drugim rozdziale} uwaga została skupiona na omówieniu pojęcia sztucznych sieci neuronowych zarówno w ich podstawowej formie, jak i tych wyspecjalizowanych w kontekście przetwarzania obrazów. Pozwala to posiąść teoretyczne podstawy do rozumienia mechanizmów na jakich opiera się tworzone w ramach tej pracy magisterskiej rozwiązanie. Rozumienie koncepcji sztucznych sieci neuronowych nierzadko jest problematyczne, dlatego naturalnym jest pojawienie się takiego rozdziału jeszcze przed omówieniem całej koncepcji podejścia w \hyperlink{chap:4}{rozdziale czwartym}.
W \hyperlink{chap:2}{rozdziale 2} uwaga została skupiona na omówieniu pojęcia sztucznych sieci neuronowych zarówno w ich podstawowej formie, jak i tych wyspecjalizowanych w kontekście przetwarzania obrazów. Pozwala to posiąść teoretyczne podstawy do rozumienia mechanizmów, na jakich opiera się opracowywane w ramach tej pracy magisterskiej rozwiązanie. Rozumienie koncepcji sztucznych sieci neuronowych nierzadko jest problematyczne, dlatego naturalnym jest pojawienie się takiego rozdziału jeszcze przed omówieniem całej koncepcji podejścia w \hyperlink{chap:4}{rozdziale czwartym}.
\newline
Projekt Newspaper Navigator stworzony w ramach inicjatywy Chronicling America jest swego rodzaju inspiracją niniejszej pracy magisterskiej, dlatego też został szczegółowo i skrupulatnie omówiony w ramach \hyperlink{chap:3}{trzeciego rozdziału} pracy. Przedstawiona została tam cała historia projektu, jego zakres oraz niezbędne terminy wyjaśniające opisywane procesy. Zaprezentowane zostały również przykłady czy statystyki związane ze zbiorem, a także omówiono wyniki jakie w ramach tego projektu zostały osiągnięte, w tym wyniki modelu detekcji.
Projekt Newspaper Navigator stworzony w ramach inicjatywy Chronicling America jest swego rodzaju inspiracją niniejszej pracy magisterskiej, dlatego też został szczegółowo omówiony w ramach \hyperlink{chap:3}{rozdziału 3}. Przedstawiona została tam cała historia projektu, jego zakres oraz niezbędne terminy wyjaśniające opisywane procesy. Zaprezentowane zostały również przykłady czy statystyki związane ze zbiorem, a także omówiono wyniki, jakie w ramach tego projektu zostały osiągnięte, w tym wyniki modelu detekcji.
\newline
\hyperlink{chap:4}{Czwarty rozdział} pracy to jej najważniejsza część. W tym rozdziale zbadane zostało podejścia do przeszukiwania historycznych zdigitalizowanych zbiorów gazet, czego z kolei efektem jest w pełni funkcjonalne oprogramowanie wyszukiwawcze oparte o przetwarzanie obrazów przez sztuczne sieci neuronowe, a także techniki przetwarzania języka naturalnego. Rozdział ten rozpoczyna opis techniczny, w tym wykorzystanej architektury użytej przy budowie modelu detekcji treści wizualnych. Następnie szczegółowo omówione zostały otrzymane z modelu wyniki, a także porównane zostały one z wynikami osiągniętymi w ramach projektu Newspaper Navigator. Treści wizualne wyekstrahowane przez model zostały odpowiednio przetworzone korzystając między innymi z optycznego rozpoznawania znaków, a następnie zbudowany został system wyszukiwawczy obsługujący zapytania użytkownika w czasie rzeczywistym, czego opis kończy omawiany rozdział.
\hyperlink{chap:4}{Rozdział 4} pracy to jej najważniejsza część. W tym rozdziale zbadane zostało podejścia do przeszukiwania historycznych zdigitalizowanych zbiorów gazet, czego z kolei efektem jest w pełni funkcjonalne oprogramowanie wyszukiwawcze oparte o przetwarzanie obrazów przez sztuczne sieci neuronowe, a także techniki przetwarzania języka naturalnego. Rozdział ten rozpoczyna opis techniczny, w tym wykorzystanej architektury użytej przy budowie modelu detekcji treści wizualnych. Następnie szczegółowo omówione zostały otrzymane z modelu wyniki, a także porównane zostały one z wynikami osiągniętymi w ramach projektu Newspaper Navigator. Treści wizualne wyekstrahowane przez model zostały odpowiednio przetworzone, korzystając między innymi z optycznego rozpoznawania znaków, a następnie zbudowany został system wyszukiwawczy obsługujący zapytania użytkownika w czasie rzeczywistym, czego opis kończy omawiany rozdział.

View File

@ -1,16 +1,16 @@
% !TeX encoding = UTF-8
% !TeX spellcheck = pl_PL
\chapter{Digitalizacja treści na podstawie projektu Chronicling America}\hypertarget{chap:3}{}
\chapter{Digitalizacja treści w projekcie Chronicling America}\hypertarget{chap:3}{}
\section{Przedstawienie projektu Chronicling America}
Projekt Chronicling America został przeprowadzony na terenie Stanów Zjednoczonych, a jego celem było rozpowszechnienie dostępu do zdigitalizowanych treści wśród jak najliczniejszej grupy osób, szczególnie wśród młodego pokolenia Amerykanów, bazę tego projektu stanowiły historyczne amerykańskie gazety. Korzystanie z materiałów zgromadzonych i przetworzonych podczas prac nad tym projektem jest całkowicie darmowe dla wszystkich użytkowników, co potwierdza założenia projektu o rozszerzaniu skali potencjalnych czytelników zasobów biblioteki. Szczególnie, że projekt dotyczy gazet nawet sprzed setek lat, które ze względu na stan i wartość prawdopodobnie nie były by dopuszczone do powszechnego użytku. Chronicling America został stworzony przez organizacje United States National Digital Newspaper (NDNP), która narodziła się dzięki współpracy rządowej agencji National Endowment for the Humanities (NEH) oraz Biblioteki Kongresu \cite{ContributorstoWikimediaprojects2022Feb}. NEH jest niezależną agencją federalną, która jest jednym z największych fundatorów programów humanistycznych w całych Stanach Zjednoczony, a jej historia sięga aż 1965 roku. Aktualnie jej główna działalność opiera się na rozdysponowywaniu grantów na projekty humanistyczne, które jak sami określają promują doskonałość w naukach humanistycznych i przekazują lekcje historii wszystkim Amerykanom. Dotacje NEH są zazwyczaj przyznawane instytucjom kulturalnym, takim jak muzea, archiwa, biblioteki, szkoły wyższe, uniwersytety, publiczne stacje telewizyjne i radiowe, a także indywidualnym naukowcom \cite{BibEntry2022Jun}. Z kolei Bibliotek Kongresu Stanów Zjednoczonych jest największą biblioteką na świecie z główną siedzibą w Waszyngtonie, w stanie District of Columbia, której początek datuje się na 1800 rok. Pełni ona funkcje biblioteki narodowej, jest również głównym ośrodkiem badawczym Kongresu USA, a także siedzibą Biura Praw Autorskich USA. Bibliotek Kongresu może poszczycić się Zbiorami liczącymi ponad 171 milionów pozycji, które obejmują aż 40 milionów skatalogowanych książek i innych materiałów drukowanych w 470 językach, ponad 74 miliony rękopisów, największą kolekcję rzadkich książek w Ameryce Północnej oraz największą na świecie kolekcję materiałów prawnych, filmów, map, nut i nagrań dźwiękowych \cite{BibEntry2022Jun_congres}.
\subsection{Geneza i podstawowe informacje}
Projekt Chronicling America prowadzony był na terenie Stanów Zjednoczonych, a jego celem było rozpowszechnienie dostępu do zdigitalizowanych treści wśród jak najliczniejszej grupy osób, szczególnie wśród młodego pokolenia Amerykanów, bazę tego projektu stanowiły historyczne amerykańskie gazety. Korzystanie z materiałów zgromadzonych i przetworzonych podczas prac nad tym projektem jest całkowicie darmowe dla wszystkich użytkowników, co potwierdza założenia projektu o rozszerzaniu skali potencjalnych czytelników zasobów biblioteki. Szczególnie, że projekt dotyczy gazet nawet sprzed setek lat, które ze względu na stan i wartość prawdopodobnie nie byłyby dopuszczone do powszechnego użytku. Chronicling America został stworzony przez organizacje United States National Digital Newspaper (NDNP), która narodziła się dzięki współpracy rządowej agencji National Endowment for the Humanities (NEH) oraz Biblioteki Kongresu \cite{ContributorstoWikimediaprojects2022Feb}. NEH jest niezależną agencją federalną, która jest jednym z największych fundatorów programów humanistycznych w całych Stanach Zjednoczony, a jej historia sięga aż 1965 roku. Aktualnie jej główna działalność opiera się na rozdysponowywaniu grantów na projekty humanistyczne, które jak sami określają promują doskonałość w naukach humanistycznych i przekazują lekcje historii wszystkim Amerykanom. Dotacje NEH są zazwyczaj przyznawane instytucjom kulturalnym, takim jak muzea, archiwa, biblioteki, szkoły wyższe, uniwersytety, publiczne stacje telewizyjne i radiowe, a także indywidualnym naukowcom \cite{BibEntry2022Jun}. Z kolei Biblioteka Kongresu Stanów Zjednoczonych z główną siedzibą w Waszyngtonie, w Dystrykcie Columbia jest największą biblioteką na świecie. Rozpoczęcie jej działania datuje się na 1800 rok. Pełni ona funkcje biblioteki narodowej, jest również głównym ośrodkiem badawczym Kongresu USA, a także siedzibą Biura Praw Autorskich USA. Biblioteka Kongresu może poszczycić się zbiorami liczącymi ponad 171 milionów pozycji, które obejmują aż 40 milionów skatalogowanych książek i innych materiałów drukowanych w 470 językach, ponad 74 miliony rękopisów, największą kolekcję rzadkich książek w Ameryce Północnej oraz największą na świecie kolekcję materiałów prawnych, filmów, map, nut i nagrań dźwiękowych \cite{BibEntry2022Jun_congres}.
\newline
Podwaliny dla projektu Chronicling America stanowił program znany pod nazwą United States Newspaper Program (USNP) przeprowadzony w latach 1982-2011 również przez agencje National Endowment for the Humanities przy technicznej pomocy Biblioteki Kongresu. Projekt ten miał na celu wyselekcjonowanie, skatalogowanie i zapisanie historycznych gazet wydawanych w Stanach Zjednoczonych od XVIII wieku, a dokładniej 1690 roku, aż do czasów współczesnych w postaci mikrofilmów. USNP zleciło przeprowadzenie projektu w każdym ze stanów, a także w Portoryko i na Wyspach Dziewiczych. Za organizacje odpowiedzialne były konkretne jednostki terytorialne, najczęściej największe stanowe repozytoria gazet. Odpowiedzialne były one między innymi za inwentaryzację zbiorów zawartych głównie w bibliotekach publicznych oraz sądach, biurach prasowych, muzeach, bibliotekach uniwersyteckich, archiwach i towarzystwach historycznych. Rekordy katalogowe zostały wprowadzone do krajowej bazy danych prowadzonej przez Online Computer Library Center (OCLC) i dostępnej na całym świecie poprzez WorldCat, czyli katalog łączący zbiory 71 tysięcy bibliotek ze 112 krajów, co czyni go największą na świecie bibliograficzną bazą danych \cite{BibEntry2022Jun_NEH}.
Podwaliny dla projektu Chronicling America stanowił program znany pod nazwą United States Newspaper Program (USNP) przeprowadzony w latach 1982-2011 również przez agencje National Endowment for the Humanities przy technicznej pomocy Biblioteki Kongresu. Projekt ten miał na celu wyselekcjonowanie, skatalogowanie i zapisanie w postaci mikrofilmów historycznych gazet wydawanych w Stanach Zjednoczonych od XVIII wieku, a dokładniej 1690 roku, aż do czasów współczesnych. USNP zleciło przeprowadzenie projektu w każdym ze stanów, a także w Portoryko i na Wyspach Dziewiczych. Za organizacje odpowiedzialne były konkretne jednostki terytorialne, najczęściej największe stanowe repozytoria gazet. Odpowiedzialne były one między innymi za inwentaryzację zbiorów zawartych głównie w bibliotekach publicznych oraz sądach, biurach prasowych, muzeach, bibliotekach uniwersyteckich, archiwach i towarzystwach historycznych. Rekordy katalogowe zostały wprowadzone do krajowej bazy danych prowadzonej przez Online Computer Library Center (OCLC) i dostępnej na całym świecie poprzez WorldCat, czyli katalog łączący zbiory 71 tysięcy bibliotek ze 112 krajów, co czyni go największą na świecie bibliograficzną bazą danych \cite{BibEntry2022Jun_NEH}.
\newline
Dobre praktyki digitalizacji wymagają aby katalogowane dzieła zawierały opis. Gazety skatalogowane w ramach projektu Chronicling America również posiadają standardowe krótkie opis. To jednak nie wszystko, ponieważ osoby odpowiedzialne za ten projekt poszły o krok dalej. Oprócz klasycznych opisów gazety zawierają również specjalne opisy uzupełniające, zwane esejami tytułowymi (\emph{z ang. title essays}). Są one opracowywane na specjalne zlecenie Chronicling America, a nad ich jakością piecze sprawuje agencja National Endowment of the Humanities, która dokonuje przeglądów sporządzonych prac. Opisy uzupełniające stanowią punkt wyjścia do dalszych badań nad zrozumieniem roli jaką odgrywała dana gazeta wśród swoich czytelników. Wśród elementów jakie znajdują się w esejach tytułowych wyróżnić możemy takie jak na przykład:
Dobre praktyki digitalizacji wymagają, aby katalogowane dzieła zawierały opis. Gazety skatalogowane w ramach projektu Chronicling America również posiadają standardowe krótkie opis. To jednak nie wszystko, ponieważ osoby odpowiedzialne za ten projekt poszły o krok dalej. Oprócz klasycznych opisów gazety zawierają również specjalne opisy uzupełniające, zwane esejami tytułowymi (\emph{z ang. title essays}). Są one opracowywane na specjalne zlecenie Chronicling America, a nad ich jakością pieczę sprawuje agencja National Endowment of the Humanities, która dokonuje przeglądów sporządzonych prac. Opisy uzupełniające stanowią punkt wyjścia do dalszych badań nad zrozumieniem roli, jaką odgrywała dana gazeta wśród swoich czytelników. Wśród elementów, jakie znajdują się w esejach tytułowych wyróżnić możemy takie jak na przykład:
\begin{itemize}
\item[$\bullet$] miejsce publikacji,
@ -20,34 +20,36 @@ Dobre praktyki digitalizacji wymagają aby katalogowane dzieła zawierały opis.
\item[$\bullet$] powód publikacji,
\item[$\bullet$] cechy i stan fizyczny,
\item[$\bullet$] historia zmian nazw, formatów i praw własności,
\item[$\bullet$] spis wyróżniających się redaktorów, wydawców lub reporterów biorących udział przy jej tworzeniu,
\item[$\bullet$] spis wyróżniających się redaktorów, wydawców lub reporterów biorących udział w jej tworzeniu,
\item[$\bullet$] rodzaje prezentowanych artykułów,
\item[$\bullet$] relacje z innymi okolicznymi wydawnictwami,
\item[$\bullet$] innowacyjność w procesie produkcji.
\item[$\bullet$] innowacyjne podejście do produkcji.
\end{itemize}
\ \\
Opisy te realizują jeden z najważniejszych celi jakie stawia przed sobą projekt Chronicling America, a mianowicie rozumienie treści jakie prezentują gazety w kontekście czasu i miejsca ich wydawania. Aby to osiągnąć uczestniczące w projekcie instytucje posiadające w tym kontekście interesujące zbiory otrzymują nagrody za wybranie i zdigitalizowanie około 100\,000 stron gazet reprezentujących historię regionalną danego stanu, swój zasięg geograficzny oraz interesujące wydarzenia. Proces selekcji jest bardzo dokładny oraz ostrożny i musi być przeprowadzany w kontakcie z innymi podmiotami w celu minimalizacji powtarzających się materiałów, ze względu na duże koszta całego przedsięwzięcia. Biblioteka Kongresu odpowiedzialna była za przygotowanie technicznej specyfikacji przeprowadzania całości tego procesu \cite{Humanities2022Jun}.
Opisy te realizują jeden z najważniejszych celów, jakie stawia przed sobą projekt Chronicling America, a mianowicie rozumienie treści, jakie prezentują gazety w kontekście czasu i miejsca ich wydawania. Aby to osiągnąć, uczestniczące w projekcie instytucje posiadające w tym kontekście interesujące zbiory otrzymują nagrody za wybranie i zdigitalizowanie około 100\,000 stron gazet reprezentujących historię regionalną danego stanu, swój zasięg geograficzny oraz interesujące wydarzenia. Proces selekcji jest bardzo dokładny oraz ostrożny i musi być przeprowadzany w kontakcie z innymi podmiotami w celu minimalizacji powtarzających się materiałów, ze względu na duże koszta całego przedsięwzięcia. Biblioteka Kongresu odpowiedzialna była za przygotowanie technicznej specyfikacji przeprowadzania całości tego procesu \cite{Humanities2022Jun}.
\newline
Biblioteka Kongresu odpowiedzialna jest za opracowywanie standardów przeprowadzanych przed uczestników projektu procesów digitalizacyjnych. Dokument w którym przedstawione są wypracowane standardy jest aktualizowany na bieżąco, raz w roku. Aktualna wersja zawiera 67 stron na których szczegółowo opisano podejście do digitalizacji. Na stronie Biblioteki Kongresu można zapoznać się z zarówno aktualnym standardem jak i historycznymi. Cele jakie określiła Biblioteka Kongres to między innymi określenie wspólnego interfejs dostępnego dla każdego potencjalnego użytkownika poprzez sieć WWW za pomocą standardowego protokołu HTTP. Ponadto zadbali oni również o określenie odpowiedniego standardu digitalizacji, aby późniejsze wykorzystanie technologii OCR przebiegało efektywnie, a także o stosowanie formatów cyfrowych o wysokim prawdopodobieństwie trwałości, czy przykładanie szczególnej uwagi na koszty konwersji cyfrowej i konserwacji powstałych w ten sposób zasobów. Obecne podejście opiera się w głównej mierze na kilku kluczowych aspektach. Pierwszym z nich jest to, że obrazy odtwarza się z kopii zachowawczej mikrofilmów, na których są przechowywane pozyskane zdjęcia stron gazet. Pliki zaś przetrzymuje się w formacie TIFF 6, czyli w formacie opartym na znacznikach, służącym do przechowywania i wymiany obrazów bitmapowych (rastrowych) \cite{BibEntry2022Jun_tech}. Pozwala on na przechowywanie informacje o kanałach alfa, ścieżkach, profilu kolorów, komentarzach, umożliwia także zapisywanie dokumentów wielostronicowych. Możliwa jest również kompresja w tym kompresja ZIP. Wersja 6 jako pierwsza zapewnia również możliwość kompresji do formatu JPEG. \cite{WspoltworcyprojektowFundacjiWikimedia2003Feb}. Jeśli chodzi o jakość tych obrazów to wymagana jest konwersja obrazów w 8-bitowej skali szarości skanowanych z maksymalną możliwą rozdzielczością, która wynosi 300-400 DPI \cite{BibEntry2022Jun_tech}. Wspomniana wcześniej miara DPI (\emph{z ang. dots per inch}) określa liczbę pikseli (ich gęstość) na jeden cal, która reprezentuje jakość przedstawianych obrazów czy wydruków. Na poniższej rycinie wyjaśnione zostało jak w zależności od wartości DPI zmienia się jakoś przedstawianego obrazu czarnej kropki. Jak nie trudno zauważyć im wyższa wartość miary, tym obraz jest dokładniejszy i bardziej wygładzony \cite{BibEntry2022Jun_dpi}.
Biblioteka Kongresu odpowiedzialna jest za opracowywanie standardów przeprowadzanych przed uczestników projektu procesów digitalizacyjnych. Dokument, w którym przedstawione są wypracowane standardy, jest aktualizowany na bieżąco, raz w roku. Aktualna wersja zawiera 67 stron, na których szczegółowo opisano podejście do digitalizacji \cite{DocLibCong}. Na stronie Biblioteki Kongresu można zapoznać się z zarówno aktualnym standardem, jak i historycznymi. Cele, jakie określiła Biblioteka Kongresu, to między innymi określenie wspólnego interfejs dostępnego dla każdego potencjalnego użytkownika poprzez sieć WWW za pomocą standardowego protokołu HTTP. Ponadto zadbali oni również o określenie odpowiedniego standardu digitalizacji, aby późniejsze wykorzystanie technologii OCR przebiegało efektywnie, a także o stosowanie formatów cyfrowych o wysokim prawdopodobieństwie trwałości, czy przykładanie szczególnej uwagi na koszty konwersji cyfrowej i konserwacji powstałych w ten sposób zasobów. Obecne podejście opiera się w głównej mierze na kilku kluczowych aspektach. Pierwszym z nich jest to, że obrazy odtwarza się z kopii zachowawczej mikrofilmów, na których są przechowywane pozyskane zdjęcia stron gazet. Pliki zaś przetrzymuje się w formacie TIFF 6, czyli w formacie opartym na znacznikach, służącym do przechowywania i wymiany obrazów bitmapowych (rastrowych) \cite{BibEntry2022Jun_tech}. Pozwala on na przechowywanie informacje o kanałach alfa, ścieżkach, profilu kolorów, komentarzach, umożliwia także zapisywanie dokumentów wielostronicowych. Możliwa jest również kompresja w tym kompresja ZIP. Wersja 6 jako pierwsza zapewnia również możliwość kompresji do formatu JPEG. \cite{WspoltworcyprojektowFundacjiWikimedia2003Feb}. Jeśli chodzi o jakość tych obrazów to wymagana jest konwersja obrazów w 8-bitowej skali szarości skanowanych z maksymalną możliwą rozdzielczością, która wynosi 300-400 DPI \cite{BibEntry2022Jun_tech}. Wspomniana wcześniej miara DPI (\emph{z ang. dots per inch}) określa liczbę pikseli (ich gęstość) na jeden cal kwadratowy, która reprezentuje jakość przedstawianych obrazów czy wydruków. Na rysunku \ref{dotspi} wyjaśnione zostało, jak w zależności od wartości DPI zmienia się jakość przedstawianego obrazu czarnej kropki. Jak nietrudno zauważyć, im wyższa wartość miary, tym obraz jest dokładniejszy i bardziej wygładzony \cite{BibEntry2022Jun_dpi}.
\begin{figure}[h!]
\centering
\includegraphics[width=0.6\textwidth]{images/dpi.png}
\caption{Przykład różnych wartości DPI \cite{DuggalVisualSolutions2022Jun}.}
\label{dotspi}
\end{figure}
\ \\
Kolejnymi kluczowymi aspektami, które porusza przygotowany przez Bibliotekę Kongresu dokument to:
Kolejnymi kluczowymi aspektami, które porusza przygotowany przez Bibliotekę Kongresu dokument, to:
\begin{itemize}
\item[$\bullet$] wykorzystanie OCR z ramkami zawierającymi pojedyncze wyrazy, z uwzględnieniem rozpoznawania kolumn na stronie, ale bez segmentacji stron na artykuł,
\item[$\bullet$] wykorzystanie OCR z ramkami zawierającymi pojedyncze wyrazy, z uwzględnieniem rozpoznawania kolumn na stronie, ale bez segmentacji stron na artykuły,
\item[$\bullet$] opracowanie strukturalnych metadanych dla stron, wydań, edycji i tytułów w celu obsługi interfejsu przeglądania chronologicznego,
\item[$\bullet$] zdeponowanie kopii wszystkich obrazów stron i powiązanych metadanych w zbiorach Biblioteki Kongresu,
\item[$\bullet$] zaimplementowany interfejs zaprojektowany specjalnie dla dostępu do historycznych gazet w domenie publicznej dostępny z ramienia Biblioteki Kongresu umożliwiający wyszukiwanie pełnotekstowe, a także poszczególnych obrazów stron oraz podświetlanie wyszukiwanych słów na obrazach,
\item[$\bullet$] replikowalność podejścia przez każdego uczestnika projektu, tak aby mógł wykorzystywać wytworzone zdigitalizowane treści w innych potrzebnych projektach, jeżeli zajdzie taka potrzeba.
\end{itemize}
\ \\
W dokumencie sporządzono bardzo szczegółowy opis metadanych, jakie mają zostać opracowane. Organizacje biorące udział w projekcie zostały poinstruowane w kontekście prawie 60 pól jakie mogą zostać przez nie wypełnione, z których 26 jest polami obowiązkowymi. Przedstawiona został również dokładna struktura pliku XML w którym mają być one zawarte. Instrukcja zawiera między innymi nazwę opisywanych danych, ich typ, przykład, notatkę z dokładniejszym wytłumaczeniem, czy konkretną ścieżkę w pliku XML w jakiej mają zostać zawarte. Przykładami pól są: oryginalne repozytorium z którego pochodzi dany materiał, wykonawca obsługujący skaner pozyskujący obraz, model takiego skanera, jego oprogramowanie, tytuł materiału, data wydania, format źródłowy, czy wymiary \cite{BibEntry2022Jun_tech}.
\newline
W dokumencie sporządzono bardzo szczegółowy opis metadanych, jakie mają zostać opracowane. Organizacje biorące udział w projekcie zostały poinstruowane w zakresie wypełniania około 60 pól z czego tylko 26 z nich było polami obowiązkowymi. Przedstawiona została również dokładna struktura pliku XML, w którym mają być one zawarte. Instrukcja zawiera między innymi nazwę opisywanych danych, ich typ, przykład, notatkę z dokładniejszym wytłumaczeniem, czy konkretną ścieżkę w pliku XML, w jakiej mają zostać zawarte. Przykładami pól są: oryginalne repozytorium, z którego pochodzi dany materiał, wykonawca obsługujący skaner pozyskujący obraz, model takiego skanera, jego oprogramowanie, tytuł materiału, data wydania, format źródłowy, czy wymiary \cite{BibEntry2022Jun_tech}.
\clearpage
\subsection{Narzędzie do przeszukiwania zbioru historycznych gazet}
Interfejs internetowej aplikacji do przeszukiwania i przeglądania zbiorów zebranych w ramach Chronicling America dostępny jest pod adresem: \url{https://chroniclingamerica.loc.gov/newspapers/}. Jego główną stronę prezentuje rysunek \ref{chronicamer}.
\newline
@ -57,9 +59,8 @@ Interfejs internetowej aplikacji do przeszukiwania i przeglądania zbiorów zebr
\caption{Interfejs aplikacji do obsługi zbiorów Chronicling America \cite{Humanities2022Jun_CA_inter}}
\label{chronicamer}
\end{figure}
\clearpage
Ze strony internetowej Chronicling America mamy swobodny dostęp do bazy wszystkich skolekcjonowanych w ramach tego projektu obrazów. Na dzień dzisiejszy zbiór ten obfituje w 19\,706\,097 zdjęć pojedynczych stron gazet. Liczba ta przekłada się na około 3\,750 historyczne gazety, czyli ponad 2,5 miliona egzemplarzy. Aby przeszukiwać bazę danych możemy wybrać z takich opcji filtrowania jak: filtrowanie po regionie z którego pochodzą oraz po zakresie dat ich wydawania. Zważając na ilość metadanych jakie zostały zebrane i ilość informacji jakie przechowywane są w bazie Chronicling America na temat każdej z gazet liczba filtrów jest jednak dość mała, chociaż możliwość przeszukiwania tekstu obrazów po dowolnych frazach i fakt, że podkreślane są one w wynikach wydaje się zaspokajać większość potrzeb z tym związanych. Jest to zdecydowanie najważniejsza funkcjonalność jaką oferuje ta witryna. Dzięki zastosowaniu technologii OCR możemy wyszukać dowolną frazę wpisując ją w panel wyszukiwania w prawym górnym rogu. Wyjątkowo interesującym rozwiązaniem jest podkreślenie na każdym z rezultatów wyszukiwanej frazy, co znacznie ułatwia wyszukiwanie interesujących treści, już później na etapie samych wyników. Przykład działania zademonstruje wyszukując frazę ,,polish'' w celu znalezienia jakichkolwiek polskich gazet wydawanych na terenie Stanów Zjednoczonych skolekcjonowanych w trakcie trwania projektu Chronicling America.
Ze strony internetowej Chronicling America mamy swobodny dostęp do bazy wszystkich zebranych w ramach tego projektu obrazów. Na dzień dzisiejszy zbiór ten obfituje w 19\,706\,097 zdjęć pojedynczych stron gazet. Liczba ta przekłada się na około 3\,750 historycznych gazet, czyli ponad 2,5 miliona egzemplarzy. Aby przeszukiwać bazę danych możemy wybrać z takich opcji filtrowania jak: filtrowanie po regionie oraz po zakresie daty wydania. Zważając na ilość metadanych, jakie zostały zebrane i ilość informacji, jakie przechowywane są w bazie Chronicling America na temat każdej z gazet, liczba filtrów jest jednak dość mała, chociaż możliwość przeszukiwania tekstu obrazów po dowolnych frazach i fakt, że podkreślane są one w wynikach wydaje się zaspokajać większość potrzeb z tym związanych. Jest to zdecydowanie najważniejsza funkcjonalność jaką oferuje ta witryna. Dzięki zastosowaniu technologii OCR możemy wyszukać dowolną frazę wpisując ją w panel wyszukiwania w prawym górnym rogu. Wyjątkowo interesującym rozwiązaniem jest podkreślenie na każdym z rezultatów wyszukiwanej frazy, co znacznie ułatwia wyszukiwanie interesujących treści, już później na etapie samych wyników. Przykład działania zademonstrowano wyszukując frazę ,,polish''.
\begin{figure}[h!]
\centering
@ -67,48 +68,48 @@ Ze strony internetowej Chronicling America mamy swobodny dostęp do bazy wszystk
\caption{Wyniki wyszukiwania frazy ,,polish'' na stronie głównej projektu Chronicling America \cite{Humanities2022Jun_CA_inter}}
\end{figure}
Po wpisaniu tej frazy w wyszukiwarkę otrzymaliśmy aż 1\,350\,355 wyników, jednak przez identyczną pisownie w języku angielskim jak słowo polerować zapewne większość z tych wyników nie dotyczy wzmianek o Polakach czy Polsce. Jednakże już na pierwszy rzut oka dostrzec możemy takie pozycje jak ,,Dziennik Chicagowski'' czy pismo ,,Katolik''.
Po wpisaniu tej frazy w wyszukiwarkę liczba wyników to 1\,350\,355. Pomimo identycznej pisowni w języku angielskim słów ,,polerować'' oraz ,,polski'' zapewne większość z tych wyników nie dotyczy wzmianek o Polakach czy Polsce. Jednakże już na pierwszy rzut oka dostrzec możemy takie pozycje jak ,,Dziennik Chicagowski'' czy pismo ,,Katolik''.
\clearpage
\begin{figure}[h!]
\centering
\subfloat[\centering Strona tytułowa pisma Katolik]{{\includegraphics[width=7cm]{images/pdf_katolik.png} }}%
\subfloat[\centering Strona tytułowa pisma Katolik]{{\includegraphics[width=6cm]{images/pdf_katolik.png} }}%
\qquad
\subfloat[\centering Wycinek transkryptu strony tytułowej]{{\includegraphics[width=3cm]{images/trans_katolik.png} }}%
\caption{Przykład polskiego pisma w zbiorach Chronicling America \cite{Humanities2022Jun_CA_inter}}%
\label{katol}
\end{figure}
Zaprezentowane na rysunku \ref{katol} czasopismo to ,,Katolik'', wydanie z dnia 12 kwietnia 1894 roku. Pod tą nazwą pismo to wydawane było jednak jedynie przez 2 lata (1893-1895) swojej historii. Szerzej znane może jako ,,Wiarus'', który zadebiutował w 1886 roku w stanie Minnesota, a dokładniej w miejscowości Winona, która stanowiła centrum polskiej emigracji dla tego stanu. Treści w niej przedstawiane były w większości w języku polskim, chociaż już na prezentowanej stronie można zauważyć również treści w języku angielskim. Sam ,,Wiarus'' ma bardzo ciekawą historie, ponieważ już same początki tego pisma nie należały do najprostszych, mimo ambicji zarządu wydawnictwa. Po utracie dwóch redaktorów w ciągu dziesięciu numerów, w tym jednego rosyjskiego szpiega, który wypełniał gazetę antypolskimi nastrojami, wydawnictwo dość niechętnie zatrudniło Hieronima Derdowskiego, byłego redaktora gazety ,,Pielgrzym Polski'' z Detroit o dość szemranej przeszłości. Derdowski był z pochodzenia Kaszubą i właśnie swojemu pochodzeniu zawdzięcza on sukces jaki udało mu się osiągnąć, ponieważ to Winony masowo emigrowali właśnie Kaszubi. Dzięki znajomości języka kaszubskiego szybko nawiązał on kontakt z osadnikami w Winonie. Rozpowszechniając język polski, edukując, a także przystosowując polską ludność do życia w Ameryce, Derdowski odniósł tak duży sukces, że 19 września 1889 r. udało mu się nabyć całe wydawnictwo. Jak jednak bywa z każdym sukcesem, a co za tym idzie i rozgłosem, ,,Wiarus'' otrzymywał również głosy sprzeciwu ze względu na ataki na osoby publiczne jakich dokonywał Derdowski w swojej gazecie. Największy sprzeciw i wystawienie na publiczną debatę przyniosła zmiana nazwy pisma na ,,Katolik'', które jednak ugięło się pod naporem opinii publicznej i po dwóch latach powróciło do swojej pierwotnej nazwy. Gazeta wydawana była nawet po śmierci Derdowskiego, wciąż głosząc jego poglądy aż do 1919 roku. Historia ta to zaledwie streszczenie informacji jakie zawarte są dla tej gazet na stronie Chronicling Amercica, jest to o tyle imponujące że przedstawiona jest tam cała historia dość niszowego pisma i to w dodatku w obcym dla amerykanów języku, co podkreśla nakład prac i staranność z jakim przeprowadzony został ten projekt. Zrzut ekranu ze strony z informacjami na temat pisma ,,Katolik'' przedstawiony został ponieżej. Dla każdej gazety istnieje też możliwość pobrania transkryptu, jednakże jak nie trudno zauważyć w tym przypadku jakościowo nie należy on do najlepszych. Możliwe jest jednak zrozumienie sensu przewodniego prezentowanej treści, co jest już i tak dużym sukcesem zważając na to, że polsko języczne treści to zaledwie mikroskopijna część zbioru i nie są one zbiorem docelowym, a jedynie dodatkiem wzbogacającym bujną historie amerykańskiego piśmiennictwa \cite{Humanities2022Jun_ca_katol}.
\clearpage
\begin{figure}[h!]
\centering
\includegraphics[width=0.85\textwidth]{images/stron_info_katol.png}
\caption{Strona informacyjna dla czasopisma ,,Katolik'' \cite{Humanities2022Jun_ca_katol}}
\end{figure}
Strona Chronicling America nie oferuje jednak dostępu do żadnych statystyk związanych ze skolekcjonowanym zbiorem, dlatego aby uniknąć żmudnego ręcznego zapisywania liczebności wynikła potrzeba skorzystania z technik web scrapingu, dzięki temu zostały pozyskane takie dane jak rozkład liczebności stron gazet ze względu na lata wydawania czy region z którego pochodzą.
Zaprezentowane na rysunku \ref{katol} czasopismo to ,,Katolik'', wydanie z dnia 12 kwietnia 1894 roku. Pod tą nazwą pismo to wydawane było jednak jedynie przez 2 lata (1893-1895) swojej historii. Szerzej znane jako ,,Wiarus'', który zadebiutował w 1886 roku w stanie Minnesota, a dokładniej w miejscowości Winona, która stanowiła centrum polskiej emigracji dla tego stanu. Treści w niej przedstawiane były w większości w języku polskim, chociaż już na prezentowanej stronie można zauważyć również fragmenty w języku angielskim. Sam ,,Wiarus'' ma bardzo ciekawą historie, ponieważ już początki tego pisma nie należały do najprostszych, mimo ambicji zarządu wydawnictwa. Po utracie dwóch redaktorów w ciągu dziesięciu numerów, w tym jednego rosyjskiego szpiega, który wypełniał gazetę antypolskimi nastrojami, wydawnictwo dość niechętnie zatrudniło Hieronima Derdowskiego, byłego redaktora gazety ,,Pielgrzym Polski'' z Detroit o dość szemranej przeszłości. Derdowski był z pochodzenia Kaszubą i właśnie swojemu pochodzeniu zawdzięcza on sukces, jaki udało mu się osiągnąć, ponieważ to Winony masowo emigrowali właśnie Kaszubi. Dzięki znajomości języka kaszubskiego szybko nawiązał on kontakt z osadnikami w Winonie. Rozpowszechniając język polski, edukując, a także przystosowując polską ludność do życia w Ameryce, Derdowski odniósł tak duży sukces, że 19 września 1889 r. udało mu się nabyć całe wydawnictwo. Jak jednak bywa z każdym sukcesem, a co za tym idzie i rozgłosem, ,,Wiarus'' otrzymywał również głosy sprzeciwu ze względu na ataki na osoby publiczne jakich dokonywał Derdowski w swojej gazecie. Największy sprzeciw i wystawienie na publiczną debatę przyniosła zmiana nazwy pisma na ,,Katolik'', które jednak ugięło się pod naporem opinii publicznej i po dwóch latach powróciło do swojej pierwotnej nazwy. Gazeta wydawana była nawet po śmierci Derdowskiego, wciąż głosząc jego poglądy aż do 1919 roku. Historia ta to zaledwie streszczenie informacji, jakie zawarte są dla tej gazety na stronie Chronicling Amercica, jest to o tyle imponujące że przedstawiona jest tam cała historia dość niszowego pisma i to w dodatku w innym języku niż angielski, co podkreśla nakład prac i staranność z jakim przeprowadzony został ten projekt. Zrzut ekranu ze strony z informacjami na temat pisma ,,Katolik'' przedstawiony został poniżej. Dla każdej gazety istnieje też możliwość pobrania transkryptu, jednakże jak nietrudno zauważyć w tym przypadku jakościowo nie należy on do najlepszych. Możliwe jest jednak zrozumienie sensu przewodniego prezentowanej treści, co jest już i tak dużym sukcesem zważając na to, że polskojęzyczne treści to zaledwie mikroskopijna część zbioru i nie są one zbiorem docelowym, a jedynie dodatkiem wzbogacającym bujną historie amerykańskiego piśmiennictwa \cite{Humanities2022Jun_ca_katol}.
\subsection{Statystyki zbioru Chronicling America}
Strona Chronicling America nie oferuje jednak dostępu do żadnych statystyk związanych z zebranym zbiorem, dlatego aby uniknąć żmudnego ręcznego zapisywania liczebności wynikła potrzeba skorzystania z technik web scrapingu, dzięki temu zostały pozyskane takie dane jak rozkład liczebności stron gazet ze względu na lata wydawania czy region z którego pochodzą.
\newline
\begin{figure}[h!]
\centering
\includegraphics[width=0.87\textwidth]{images/strony_per_year.png}
\caption{Liczba wszystkich skolekcjonowanych stron gazet w repozytorium Chronicling America w rozbiciu na lata ich wydawania}
\caption{Liczba wszystkich zebranych stron gazet w repozytorium Chronicling America w rozbiciu na lata ich wydawania}
\label{wykres0}
\end{figure}
Rycina \ref{wykres0} przedstawia wykres z liczebnościami zebranych obrazów stron poszczególnych gazet ze względu na lata w których je wydawano. Jak nie trudno zauważyć najstarsze okazy charakteryzują się bardzo znikomą liczebnością. Dla trzech pierwszych lat (1777-1779), spośród obejmowanych przez projekt Chronicling America dat, zbiór zdigitalizowanych stron gazet wynosi zaledwie 316 obrazów. Kolejne 9 lat (1780-1788) to z kolei brak jakichkolwiek materiałów, co wydaje się być dość zrozumiałe ze względu na burzliwą historie Stanów Zjednoczonych i panujące w tych latach walki o niepodległość, a także jej późniejszą formalizacje. Największa ilość publikacji jaka została skolekcjonowana w ramach projektu pochodzi z lat 1908-1921, ta liczba wynosi aż 6\,876\,837 stron co stanowi 35\% całości zbiorów. Jest to o tyle ciekawe, że spodziewać by się można było tendencji wzrostowej przez cały zakres dat jeżeli chodzi o liczbę skatalogowanych materiałów, a z danych ewidentnie wynika, że po 1921 roku zauważalny jest drastyczny spadek ich ilości.
Rycina \ref{wykres0} przedstawia wykres z liczebnościami zebranych obrazów stron poszczególnych gazet ze względu na lata, w których je wydawano. Jak nietrudno zauważyć, najstarsze okazy charakteryzują się bardzo znikomą liczebnością. Dla trzech pierwszych lat (1777-1779), spośród obejmowanych przez projekt Chronicling America dat, zbiór zdigitalizowanych stron gazet wynosi zaledwie 316 obrazów. Kolejne 9 lat (1780-1788) to z kolei brak jakichkolwiek materiałów, co wydaje się być dość zrozumiałe ze względu na burzliwą historie Stanów Zjednoczonych i panujące w tych latach walki o niepodległość. Największa ilość publikacji, jaka została zebrana w ramach projektu pochodzi z lat 1908-1921, ta liczba wynosi aż 6\,876\,837 stron, co stanowi 35\% całości zbiorów. Jest to o tyle ciekawe, że spodziewać by się można było tendencji wzrostowej przez cały zakres dat jeżeli chodzi o liczbę skatalogowanych materiałów, a z danych ewidentnie wynika, że po 1921 roku zauważalny jest drastyczny spadek ich ilości.
\newline
\begin{figure}[h!]
\centering
\includegraphics[width=0.85\textwidth]{images/gazety_per_terytorium.png}
\caption{Liczba wszystkich skolekcjonowanych gazet w repozytorium Chronicling America w rozbiciu na poszczególne obszary}
\caption{Liczba wszystkich zebranych gazet w repozytorium Chronicling America w rozbiciu na poszczególne obszary}
\label{wykres1}
\end{figure}
Na rysunku \ref{wykres1} zaprezentowany został wykres liczebności gazet jakie zostały zebrane w ramach Chronicling America do których dostęp możliwy jest z wykorzystaniem przedstawianego interfejsu. Jak widzimy na samym szycie plasuje się stan Virginia, który to dysponuje zbiorem 125 tysięcy gazet przeznaczonych do digitalizacji w ramach projektu. Tuż za nim znajduje się District od Columbia, co jest w pełni zrozumiałe ze względu na jego główną siedzibę, Waszyngton, jednocześnie będący stolicą Stanów Zjednoczonych, choć i tak dziwić może fakt, że nie znajduje się on na miejscu pierwszym. Szczególne zainteresowanie wzbudza jedna pozycja w tym rankingu, a mianowicie pozycja ostatnia ,,Piedmont''. Pomimo, że na stronie w opcji filtrowania mamy dostępne filtrowanie po stanach, to znalazły się tutaj też miejsca takie jak Puerto Rico czy Wyspy Dziewicze (\emph{z ang. Virgin Islands}) i wspomniany wcześniej, zamykający ranking z zaledwie 773 zdigitalizowanymi pozycjami, Piedmont. Jest to o tyle zaskakujące, że nie jest to ani stan ani terytorium zależne, jak chociażby Wyspy Dziewicze, a jest to region płaskowyżu położony we wschodnich Stanach Zjednoczonych rozciągający się od Nowego Jorku na północy do środkowej Alabamy na południu. Nie sposób jednak znaleźć informacji z jakich pobudek miejsce to znalazło się w listingu ,,stanów'' w opcji filtrowania i czy aby na pewno jest to poprawne miejsce, a nie swego rodzaju niedopatrzenie.
\clearpage
Na rysunku \ref{wykres1} zaprezentowany został wykres liczebności gazet jakie zostały zebrane w ramach Chronicling America do których dostęp możliwy jest z wykorzystaniem przedstawianego interfejsu. Jak widzimy na samym szycie plasuje się stan Virginia, który to dysponuje zbiorem 125 tysięcy gazet przeznaczonych do digitalizacji w ramach projektu. Tuż za nim znajduje się Dystrykt Columbia, co jest w pełni zrozumiałe ze względu na jego główną siedzibę, Waszyngton, jednocześnie będący stolicą Stanów Zjednoczonych, choć i tak dziwić może fakt, że nie znajduje się on na miejscu pierwszym. Szczególne zainteresowanie wzbudza jedna pozycja w tym rankingu, a mianowicie pozycja ostatnia ,,Piedmont''. Pomimo, że na stronie w opcji filtrowania mamy dostępne filtrowanie po stanach, to znalazły się tutaj też miejsca takie jak Puerto Rico czy Wyspy Dziewicze (\emph{z ang. Virgin Islands}) i wspomniany wcześniej, zamykający ranking z zaledwie 773 zdigitalizowanymi pozycjami, Piedmont. Jest to o tyle zaskakujące, że nie jest to ani stan ani terytorium zależne, jak chociażby Wyspy Dziewicze, a jest to region płaskowyżu położony we wschodnich Stanach Zjednoczonych rozciągający się od Nowego Jorku na północy do środkowej Alabamy na południu. Nie sposób jednak znaleźć informacji, z jakich pobudek miejsce to znalazło się w listingu ,,stanów'' w opcji filtrowania i czy aby na pewno jest to poprawne miejsce, a nie swego rodzaju niedopatrzenie.
\begin{figure}[h!]
\centering
@ -117,27 +118,24 @@ Na rysunku \ref{wykres1} zaprezentowany został wykres liczebności gazet jakie
\label{wykres2}
\end{figure}
Dla porządku wykres na rysunku \ref{wykres2}, przedstawiający już niecałe gazety w rozbiciu na miejsce pochodzenia lecz pojedyncze strony posiada dokładnie tą samą kolejność co poprzedni. Jak widzimy poniżej w tym zestawieniu District of Columbia już zdecydowanie nie ma sobie równych. Obrazów pochodzących z tamtego regionu skatalogowane w ramach projektu dla tego stanu w repozytroium znajduje sie zawrotna liczba 1\,835\,519, która stanowi 10\% całości zbioru. To dwukrotnie więcej niż drugi w tym zestawieniu stan Nowy Jork. W tym wypadku Virginia uplasowała się dopiero na pozycji trzeciej. Stawkę ponownie zamyka Piedmont w ramach którego dostępne jest jedynie 32\,120 pojedynczych stron gazet.
\clearpage
Dla porządku wykres na rysunku \ref{wykres2}, przedstawiający pojedyncze strony w rozbiciu na miejsce pochodzenia posiada dokładnie tą samą kolejność co poprzedni. Jak widzimy poniżej w tym zestawieniu Dystrykt Columbia już zdecydowanie nie ma sobie równych. Obrazów pochodzących z tamtego regionu skatalogowane w ramach projektu dla tego stanu w repozytroium znajduje sie zawrotna liczba 1\,835\,519, która stanowi 10\% całości zbioru. To dwukrotnie więcej niż drugi w tym zestawieniu stan Nowy Jork. W tym wypadku Virginia uplasowała się dopiero na pozycji trzeciej. Stawkę ponownie zamyka Piedmont w ramach którego dostępne jest jedynie 32\,120 pojedynczych stron gazet.
\newline
Z ramienia Chronicling America narodził się kolejny projekt, który stanowi następny krok w stronę pełnej cyfryzacji posiadanych treści. Projekt ten nazywa się Newspaper Navigator, a jego celem było dołożyć kolejną cegiełkę do już i tak mocno rozbudowanych możliwości przeszukiwania skolekcjonowanych zbiorów, a mianowicie rozpoznawania znajdujących się w nich konkretnych rodzajów elementów, głównie będących różnego rodzaju obrazami. Opisowi Newspaper Navigator w pełni poświęcony został następny podrozdział.
Pod auspicjami Chronicling America narodził się kolejny projekt, który stanowi następny krok w stronę pełnej cyfryzacji posiadanych treści. Projekt ten nazywa się Newspaper Navigator, a jego celem było dołożyć kolejną cegiełkę do już i tak mocno rozbudowanych możliwości przeszukiwania zebranych zbiorów, a mianowicie rozpoznawania znajdujących się w nich konkretnych rodzajów elementów, głównie będących różnego rodzaju obrazami.
\section{Opis podejścia Newspaper Navigator}
Newspaper Navigator to nazwa eksperymentu z dziedziny uczenia maszynowego, a będąc bardziej precyzyjnym głębokich sieci neuronowych, opartego wyłącznie na zbiorze danych wyodrębnionym ze skolekcjonowanych pozycji podczas projektu Chronicling America. Ten pilotażowy projekt oferował możliwość zbadania historycznych relacji gazetowych z I wojny światowej i przyczynienia się do cyfrowej nauki w tym samym czasie. Zawartość wizualna gazet została zidentyfikowana przy użyciu modelu wykrywania obiektów wytrenowanego na stronach gazet pochodzących z okresu pierwszej wojny światowej. Adnotacje do tych materiałów zostały zebrane w ramach projektu crowdsourcingowego Beyond Words. Projekt ten był przeprowadzony latach 2017-2021, a w ramach niego Biblioteka Kongresu poprosiła społeczeństwo o identyfikacje wizualnych elementów znajdujących się w przygotowanym pod projekt Newspaper Navigator zbiorze. Wolontariusze mieli do wykonania 1 lub więcej z 3 możliwych rodzajów zadań, po pierwsze było ta wspomniana już identyfikacja, po drugie transkrypcja, oraz po trzecie weryfikacja poprawności zaznaczonych przez innych wolontariuszy treści. W rezultacie powstały adnotacje do treści wizualnych pojawiających się na skolekcjonowanych stronach gazet, które dzielą się na następujące kategorie:
Newspaper Navigator to nazwa eksperymentu z dziedziny uczenia maszynowego, a będąc bardziej precyzyjnym głębokich sieci neuronowych, opartego wyłącznie na zbiorze danych wyodrębnionym z zebranych pozycji podczas projektu Chronicling America. Ten pilotażowy projekt oferował możliwość zbadania historycznych relacji prasowych z I wojny światowej i przyczynienia się do cyfrowej nauki w tym samym czasie. Zawartość wizualna gazet została zidentyfikowana przy użyciu modelu wykrywania obiektów wyuczonego na stronach gazet pochodzących z okresu I wojny światowej. Adnotacje do tych materiałów zostały zebrane w ramach projektu crowdsourcingowego Beyond Words. Projekt ten był przeprowadzony latach 2017-2021, a w ramach niego Biblioteka Kongresu poprosiła społeczeństwo o identyfikacje wizualnych elementów znajdujących się w przygotowanym pod projekt Newspaper Navigator zbiorze. Wolontariusze mieli do wykonania 1 lub więcej z 3 możliwych rodzajów zadań, po pierwsze była wspomniana już identyfikacja, po drugie transkrypcja, oraz po trzecie weryfikacja poprawności zaznaczonych przez innych wolontariuszy treści. W rezultacie powstały adnotacje do treści wizualnych pojawiających się na zebranych stronach gazet, które dzielą się na następujące kategorie:
\begin{enumerate}
\item[$\bullet$] Fotografie
\item[$\bullet$] Ilustracje
\item[$\bullet$] Mapy
\item[$\bullet$] Komiksy
\item[$\bullet$] Karykatura
\item[$\bullet$] Tytuły
\item[$\bullet$] Reklamy
\item[$\bullet$] fotografia (\emph{z ang. photograph}),
\item[$\bullet$] ilustracja (\emph{z ang. illustration}),
\item[$\bullet$] mapa (\emph{z ang. map}),
\item[$\bullet$] komiks (\emph{z ang. cartoon}),
\item[$\bullet$] karykatura (\emph{z ang. editorial cartoon}),
\item[$\bullet$] tytuł (\emph{z ang. headline}),
\item[$\bullet$] reklama (\emph{z ang. advertisement}).
\end{enumerate}
Pomoc wolontariuszy była niezbędna do przygotowana zbioru uczącego dla sztucznych sieci neuronowych, aby je wytrenować i dokonać predykcji na pozostałej, znacznie bardziej licznej, części zbioru po otrzymaniu satysfakcjonujących wyników na wydzielonym zbiorze testowym. Całość zebranego zbioru została wykorzystana przez badaczy Biblioteki Kongresu do stworzenia witryny pozwalającej na wyszukiwanie treści wizualnych pochodzących z dawnych gazet po dowolnie wybranych frazach. \cite{BibEntry2020May_NNNNN}.
\newline
Na rysunkach \ref{wysz00} oraz \ref{wysz01} przedstawiono interfejs wyszukiwarki z przykład wyszukiwania dla frazy 'football' (\emph{z ang. futbol amerykański}):
Pomoc wolontariuszy była niezbędna do przygotowana zbioru uczącego dla sztucznych sieci neuronowych, aby je wyuczyć i dokonać predykcji na pozostałej, znacznie bardziej licznej, części zbioru po otrzymaniu satysfakcjonujących wyników na wydzielonym zbiorze testowym. Całość zebranego zbioru została wykorzystana przez badaczy Biblioteki Kongresu do stworzenia witryny pozwalającej na wyszukiwanie treści wizualnych pochodzących z dawnych gazet po dowolnie wybranych frazach. \cite{BibEntry2020May_NNNNN}. Na rysunkach \ref{wysz00} oraz \ref{wysz01} przedstawiono interfejs wyszukiwarki dla przykładu wyszukiwania frazy 'football' (\emph{z ang. futbol amerykański}):
\begin{figure}[h!]
\centering
\includegraphics[width=1\textwidth]{images/nn_interface_football.png}
@ -147,8 +145,7 @@ Na rysunkach \ref{wysz00} oraz \ref{wysz01} przedstawiono interfejs wyszukiwarki
\caption{Szczegółowy widok wybranego rezultatu wyszukiwania \cite{BibEntry2022Jul_nn_search}}
\label{wysz01}
\end{figure}
Jak można zauważyć dokładny zakres dat, które obejmuje wyszukiwarka, to lata 1900 do 1963. Daty te są datami granicznymi, wyniki nie obejmują ani okresów wcześniejszych, ani późniejszych. Zakres dat jest dostępny w postaci filtra, tak samo jak lokalizacja gazety z której pochodzą wyszukiwane elementy wizualne. Wyniki wyszukiwania zdają się być dobrze dopasowane, zauważyć możemy grupowe zdjęcia drużyn futbolu amerykańskiego oraz pojedyncze zdjęcia poszczególnych zawodników. Po kliknięciu w dowolny rezultat wyszukiwania sprawdzić możemy dlaczego został on zaklasyfikowany do wyszukiwanej frazy, ponieważ tuż obok powiększenia wybranego elementu znajdziemy przypisaną do niego transkrypcje wyekstrahowaną przez zastosowany system OCR. Na powyższym przykładzie widzimy, że wybrane zdjęcie przedstawia grupę zawodników męskiej drużyny futbolu amerykańskiego z nowojorskiego uniwersytetu Columbia. Fraza, którą wyszukiwaliśmy została podkreślona, aby ułatwić użytkownikowi orientacje. Konkretny element wyszukiwania możemy zapisać w postaci obrazu, zobaczyć pełną wersje gazety z której pochodzi, poznać szczegółowe dane o tej gazecie, a także pobrać jej cytat. Nazwa oraz data wydania konkretnego egzemplarza zostały pogrubione i umieszczone nad tekstem pochodzącym z OCR. Przykład powyżej przedstawia wyszukiwarkę jedynie z jej dobrej strony, prezentując dobrze dopasowane wyniki do wyszukiwanej frazy. Choć niewątpliwie wyszukiwarka działa w większości przypadków działa przyzwoicie zdarzają się też takie na których wyniki dopasowywane są dość słabo. Dlatego też wypadałoby jako kontrprzykład przedstawić wyniki wyszukiwania dla innej frazy, gdzie nie radzi sobie ona wystarczająco dobrze. Kolejną wyszukiwaną frazą będzie zatem słowo 'bar' (\emph{z ang. bar}):
Jak można zauważyć dokładny zakres dat, które obejmuje wyszukiwarka, to lata 1900 do 1963. Daty te są datami granicznymi, wyniki nie obejmują ani okresów wcześniejszych, ani późniejszych. Zakres dat jest dostępny w postaci filtra, tak samo jak lokalizacja gazety z której pochodzą wyszukiwane elementy wizualne. Wyniki wyszukiwania zdają się być dobrze dopasowane, zauważyć możemy grupowe zdjęcia drużyn futbolu amerykańskiego oraz pojedyncze zdjęcia poszczególnych zawodników. Po kliknięciu w dowolny rezultat wyszukiwania sprawdzić możemy dlaczego został on zaklasyfikowany do wyszukiwanej frazy, ponieważ tuż obok powiększenia wybranego elementu znajdziemy przypisaną do niego transkrypcje wyekstrahowaną przez zastosowany system OCR. Na powyższym przykładzie widzimy, że wybrane zdjęcie przedstawia grupę zawodników męskiej drużyny futbolu amerykańskiego z nowojorskiego uniwersytetu Columbia. Fraza, którą wyszukiwaliśmy, została podkreślona, aby ułatwić użytkownikowi orientacje. Konkretny element wyszukiwania możemy zapisać w postaci obrazu, zobaczyć pełną wersje gazety, z której pochodzi, poznać szczegółowe dane o tej gazecie, a także pobrać jej cytat. Nazwa oraz data wydania konkretnego egzemplarza zostały pogrubione i umieszczone nad tekstem pochodzącym z OCR. Przykład powyżej przedstawia wyszukiwarkę jedynie z jej dobrej strony, prezentując dobrze dopasowane wyniki do wyszukiwanej frazy. Choć niewątpliwie wyszukiwarka działa w większości przypadków działa przyzwoicie zdarzają się też takie, na których wyniki dopasowywane są dość słabo. Dlatego też wypadałoby jako kontrprzykład przedstawić wyniki wyszukiwania dla innej frazy, gdzie nie radzi sobie ona wystarczająco dobrze. Kolejną wyszukiwaną frazą będzie zatem słowo 'bar' (\emph{z ang. bar}):
\begin{figure}[h!]
\centering
\includegraphics[width=1\textwidth]{images/nn_interface_bar.png}
@ -166,10 +163,10 @@ Jak można zauważyć dokładny zakres dat, które obejmuje wyszukiwarka, to lat
\label{wysz3}
\end{figure}
Jak widzimy na rysunku \ref{wysz1}, tylko jeden z wyników w rzeczywistości pasuje do wprowadzonej frazy (środkowy obrazek w skrajnie lewej kolumnie wyników). Dwa przykładowe błędne wyniki wyszukiwania przedstawione są poniżej kolejno na rysunku \ref{wysz2} oraz \ref{wysz3}. Pierwszy z nich prezentuje rabarbarową galaretkę (\emph{z ang. rhubarb jelly}), drugi zaś według transkryptu przedstawia spotkanie w sprawie podpisania umowy na budowę drogi podziemnej, na którym znajduje się osoba o nazwisku Barclat. Jak nie trudno zauważyć zarówno słowo rhubarb oraz nazwisko Barclat zawierają w sobie wyszukiwaną frazę. Pokazuje to, iż zaimplementowana logika wyszukiwania jest dość prosta i opiera się jedynie na występowaniu danej frazy w jakiejkolwiek możliwej postaci w tekście. Podkreśla ten fakt również brak możliwości sortowania wyników po pewności wyszukiwania, a jedynie po dacie.
Jak wid na rysunku \ref{wysz1}, tylko jeden z wyników w rzeczywistości pasuje do wprowadzonej frazy (środkowy obrazek w skrajnie lewej kolumnie wyników). Dwa przykładowe błędne wyniki wyszukiwania przedstawione są poniżej kolejno na rysunku \ref{wysz2} oraz \ref{wysz3}. Pierwszy z nich prezentuje rabarbarową galaretkę (\emph{z ang. rhubarb jelly}), drugi zaś według transkryptu przedstawia spotkanie w sprawie podpisania umowy na budowę drogi podziemnej, na którym znajduje się osoba o nazwisku Barclat. Jak nietrudno zauważyć zarówno słowo rhubarb oraz nazwisko Barclat zawierają w sobie wyszukiwaną frazę. Pokazuje to, iż zaimplementowana logika wyszukiwania jest dość prosta i opiera się jedynie na występowaniu danej frazy w jakiejkolwiek możliwej postaci w tekście. Podkreśla ten fakt również brak możliwości sortowania wyników po pewności wyszukiwania, a jedynie po dacie.
\newline
Zbiór na którym został przeprowadzony eksperyment Newspaper Navigator składał się z 3,559 stron gazet, na których łącznie zidentyfikowano 48\,409 obiektów. Podział tych obiektów na kategorie prezentuje tabela \ref{tabnn}.
Zbiór, na którym został przeprowadzony eksperyment Newspaper Navigator, składał się z 3,559 stron gazet, na których łącznie zidentyfikowano 48\,409 obiektów. Podział tych obiektów na kategorie prezentuje tabela \ref{tabnn}.
\begin{table}[h!]
\centering
\begin{tabular}{c c c c}
@ -185,7 +182,7 @@ Zbiór na którym został przeprowadzony eksperyment Newspaper Navigator składa
\midrule
Komiksy & 1\,150 & 939 & 211 \\
\midrule
Karykatura & 293 & 239 & 54 \\
Karykatury & 293 & 239 & 54 \\
\midrule
Tytuły & 27\,868 & 22\,179 & 5\,689 \\
\midrule
@ -198,7 +195,7 @@ Zbiór na którym został przeprowadzony eksperyment Newspaper Navigator składa
\label{tabnn}
\end{table}
Do stworzenia modelu ekstrakcji treści wizualnych i ich klasyfikacji użyto architektury sieci neuronowych o nazwie Faster-RCNN. Dokładniej mówiąc jest to implementacja tej architektury w bibliotece Detectron2 stworzonej dla języka programowania Python, w którym powstał opisywany model, a także przeprowadzone zostało moje podejście opisywane w następnym rozdziale. Użyta sieć została uprzednio przetrenowana na popularnym zbiorze danych COCO i jedynie dotrenowana na zbiorze danych Newspaper Navigator \cite{Lee2020May_paper}. Detectron2 to platforma badawcza i biblioteka produkcyjna operująca w języku programowania Python, służąca do wykrywania obiektów, zbudowana przez zespół Facebook AI Research (FAIR). Pozwala ona na bardzo szybką implementacje przetrenowanych już sieci neuronowych służących do pracy z obrazem i dostosowanie ich do posiadanego własnego zbioru danych \cite{BibEntry2021Aug_fb_d2}. Zbiór COCO na którym wytrenowana została użyta sieć neuronowa pochodzi od firmy Microsoft, zebrano w nim 328 tysięcy zdjęć, zawierających ponad 2,5 miliona oznaczonych obiektów, podzielonych na 91 kategorii \cite{Lin2014May}. Użycie uprzednio przetrenowanych model na innym zbiorze danych jest bardzo często spotykaną praktyką. Takie podejście znacząco skraca czas treningu oraz niezbędne do tego zasoby, a ponadto często pozwala również osiągnąć lepsze wyniki. Wówczas sieć neuronowa zamiast inicjalizować wagi losowo na samym początku korzysta z ich wyjściowych wartości osiągniętych na wcześniej użytym zestawie treningowym. W takim przypadku zamiast trenować model od zera, jedynie dostosowuje się jego parametry do konkretnego przypadku, często trenując jedynie ostatnią warstwę, która odpowiada wyłącznie za klasyfikacje. Sama architektura Faster-RCNN oraz wykorzystywanie już częściowo przetrenowanych modeli zostanie szerzej opisane przy okazji opisu mojego podejścia do opisywanego zbioru danych, w kolejnym rozdziale. Ostateczne wyniki jakie zostały osiągnięte przez badaczy z Biblioteki Kongresu opisuje tabela \ref{NN_wynik}.
Do stworzenia modelu ekstrakcji treści wizualnych i ich klasyfikacji użyto architektury sieci neuronowych o nazwie Faster-RCNN. Dokładniej mówiąc jest to implementacja tej architektury w bibliotece Detectron2 stworzonej dla języka programowania Python, w którym powstał opisywany model, a także przeprowadzone zostało podejście stworzone na potrzeby niniejszej pracy magisterskiej. Użyta sieć została uprzednio wyuczona na popularnym zbiorze danych COCO i jedynie douczenia na zbiorze danych Newspaper Navigator \cite{Lee2020May_paper}. Detectron2 to platforma badawcza i biblioteka produkcyjna operująca w języku programowania Python, służąca do wykrywania obiektów, zbudowana przez zespół Facebook AI Research (FAIR). Pozwala ona na bardzo szybką implementację wyuczonych już sieci neuronowych służących do pracy z obrazem i dostosowanie ich do posiadanego własnego zbioru danych \cite{BibEntry2021Aug_fb_d2}. Zbiór COCO, na którym wyuczona została użyta sieć neuronowa, pochodzi od firmy Microsoft, zebrano w nim 328 tysięcy zdjęć, zawierających ponad 2,5 miliona oznaczonych obiektów, podzielonych na 91 kategorii \cite{Lin2014May}. Użycie uprzednio wyuczonego modelu na innym zbiorze danych jest bardzo często spotykaną praktyką. Takie podejście znacząco skraca czas treningu oraz niezbędne do tego zasoby, a ponadto często pozwala również osiągnąć lepsze wyniki. Wówczas sieć neuronowa zamiast inicjalizować wagi losowo na samym początku korzysta z ich wyjściowych wartości osiągniętych na wcześniej użytym zestawie treningowym. W takim przypadku zamiast uczyć model od zera, jedynie dostosowuje się jego parametry do konkretnego przypadku, często modelując jedynie ostatnią warstwę, która odpowiada wyłącznie za klasyfikacje. Sama architektura Faster-RCNN oraz wykorzystywanie już częściowo wyuczonych modeli zostanie szerzej opisane przy okazji opisu mojego podejścia do opisywanego zbioru danych, w kolejnym rozdziale. Ostateczne wyniki, jakie zostały osiągnięte przez badaczy z Biblioteki Kongresu, opisuje tabela \ref{NN_wynik}.
\begin{table}[h!]
\centering
\begin{tabular}{c c}
@ -227,15 +224,15 @@ Do stworzenia modelu ekstrakcji treści wizualnych i ich klasyfikacji użyto arc
\end{table}
Metryka za pomocą której przedstawione zostały powyższe wyniki to średnia predykcja (\emph{z ang. average precision - AP}). Metryka ta jest najpopularniejszym sposobem prezentowania wyników w przypadku zagadnień z zakresu detekcji obrazu (\emph{z ang. object detection}). AP bazuje na następujących sub-formułach:
Metryka, za pomocą której przedstawione zostały powyższe wyniki, to średnia predykcja (\emph{z ang. average precision - AP}). Metryka ta jest najpopularniejszym sposobem prezentowania wyników w przypadku zagadnień z zakresu detekcji obrazu (\emph{z ang. object detection}). AP bazuje na następujących pojęciach:
\begin{enumerate}
\item[$\bullet$] \textbf{Tablica pomyłek (\emph{z ang. confusion matrix})} \\
Dane oznaczone etykietami: pozytywną i negatywną poddawane są klasyfikacji, która przypisuje im predykowaną klasę pozytywną albo predykowaną klasę negatywną. Możliwe błędy jakie może popełnić klasyfikator opisuje właśnie tablica pomyłek.
Dane oznaczone etykietami: pozytywną i negatywną poddawane są klasyfikacji, która przypisuje im przewidywaną klasę pozytywną albo przewidywaną klasę negatywną. Możliwe błędy, jakie może popełnić klasyfikator, opisuje właśnie tablica pomyłek.
\begin{center}
\item[{\includegraphics[scale=0.6]{images/conf_mat.png}}]
\end{center}
Dla przykładu rozważmy klasyfikacje czy dany pacjent jest chory, wówczas:
Dla przykładu rozważmy klasyfikacje, czy dany pacjent jest chory, wówczas:
\begin{enumerate}
\item[$\bullet$] TP = Ludzie chorzy poprawnie zdiagnozowani jako chorzy
\item[$\bullet$] FP = Ludzie zdrowi błędnie zdiagnozowani jako chorzy
@ -244,11 +241,11 @@ Metryka za pomocą której przedstawione zostały powyższe wyniki to średnia p
\end{enumerate}
\item[$\bullet$] \textbf{Indeks Jaccarda (\emph{z ang. Intersection over Union - IoU})} \\
Indeks Jaccarda pozwala określić na ile predykowane współrzędne obiektu na obrazie pokrywają się z ich rzeczywistymi wartościami. Działanie tej metryki prezentuje poniższy schemat:
Indeks Jaccarda pozwala określić, na ile przewidywana współrzędne obiektu na obrazie pokrywają się z ich rzeczywistymi wartościami. Działanie tej metryki prezentuje poniższy schemat:
\begin{center}
\item[{\includegraphics[scale=0.45]{images/iou.png}}]
\end{center}
Im wyższa wartość opisywanej metryki tym model lepiej przewidział położenie obiektu znajdującego się na obrazie \cite{BibEntry2022Jul_mAP}. \\
Im wyższa wartość opisywanej metryki, tym model lepiej przewidział położenie obiektu znajdującego się na obrazie \cite{BibEntry2022Jul_mAP}. \\
\item[$\bullet$] \textbf{Precyzja} \\
Precyzja jest stosunkiem wartości poprawnie sklasyfikowanych jako pozytywne (TP) do sumy obiektów poprawnie oraz fałszywie sklasyfikowanych jako pozytywne (TP + FP).
@ -258,7 +255,7 @@ Metryka za pomocą której przedstawione zostały powyższe wyniki to średnia p
\end{equation}
\end{center}
Metryka ta informuje nas jak dokładny jest klasyfikator względem predykcji przypisanych do klasy pozytywnej, inaczej mówiąc ile z tych przewidywanych pozytywnych obserwacji jest faktycznie pozytywna \cite{Shung2020Apr}. W przypadku zagadnień detekcji obiektów na obrazie precyzja jest obliczana przy użyciu progu IoU. Zakładając próg IoU równy 0,5, w przypadku gdy dana predykcja ma wartość tej metryki równą 0,3 (IoU < próg) jest ona klasyfikowana jako fałszywie pozytywna (FP). Natomiast jeżeli ta predykcja miała by wartość IoU równą przykładowo 0,7 (IoU > próg), wówczas byłaby ona sklasyfikowana jako prawdziwie pozytywna (TP) \cite{BibEntry2022Jul_mAP}. \\
Metryka ta informuje, jak dokładny jest klasyfikator względem predykcji przypisanych do klasy pozytywnej, inaczej mówiąc, ile z tych przewidywanych pozytywnych obserwacji jest faktycznie pozytywna \cite{Shung2020Apr}. W przypadku zagadnień detekcji obiektów na obrazie precyzja jest obliczana przy użyciu progu IoU. Zakładając próg IoU równy 0,5, w przypadku gdy dana predykcja ma wartość tej metryki równą 0,3 (IoU < próg) jest ona klasyfikowana jako fałszywie pozytywna (FP). Natomiast jeżeli ta predykcja miała by wartość IoU równą przykładowo 0,7 (IoU > próg), wówczas byłaby ona sklasyfikowana jako prawdziwie pozytywna (TP) \cite{BibEntry2022Jul_mAP}. \\
\item[$\bullet$] \textbf{Recall} \\
Recall jest stosunkiem wartości poprawnie sklasyfikowanych jako pozytywne (TP) do sumy obiektów poprawnie sklasyfikowanych jako pozytywne oraz negatywne (TP + FN).
@ -272,7 +269,7 @@ Metryka za pomocą której przedstawione zostały powyższe wyniki to średnia p
\end{enumerate}
Średnia precyzja (AP) jest obliczana jako średnia ważona precyzji przy każdym progu IoU, gdzie wagą jest wzrost wartości recall od poprzedniego progu. Średnią precyzje wyraża wzór \ref{AP}.
\begin{equation}
AP = \sum_{n}(R_{n}=R_{n-1})P_{n}
AP = \sum_{n}(R_{n}-R_{n-1})P_{n}
\label{AP}
\end{equation}
W powyższym wzorze P oraz R oznaczają kolejno precyzję i recall przy n-tym progu IoU.
@ -282,12 +279,13 @@ W powyższym wzorze P oraz R oznaczają kolejno precyzję i recall przy n-tym pr
Jeżeli chodzi o metrykę mAP to jest ona obliczana poprzez znalezienie wartości AP dla każdej z klas, a następnie uśrednienie jej \cite{BibEntry2022Jul_mAP}.
\newline
Cały proces jaki został przeprowadzony w ramach eksperymentu Newspaper Navigator jeśli chodzi o przygotowanie danych, aby następnie móc wykorzystać je na potrzeby stworzenia wyszukiwarki opisuje poniższy schemat. Widać na nim, że w pierwszym kroku, po pobraniu zdjęcia gazety, uruchamiany jest na nim stworzony i wytrenowany model detekcji obrazu oparty na sztucznych sieciach neuronowych, który wykrywa elementy wizualne, klasyfikuje je i przekazuje ich współrzędne. Na podstawie współrzędnych tworzone są następnie ramki ograniczającej (\emph{z ang. bounding box}). Kolejnym krokiem jest wycięcie z oryginalnego obrazu wykrytych elementów wizualnych zgodnie z będącymi wyjściem modelu ramkami ograniczającymi. Następnie na wyciętych elementach uruchamiany jest system OCR, który rozpoznaje tekst na obrazie. Wykryty tekst będzie służył jako podstawa do późniejszego przeszukiwania przez stworzony silnik wyszukiwarki. Na koniec wyekstrahowane dane zostają zapisane \cite{Lee2020May_paper}.
Cały proces, jaki został przeprowadzony w ramach eksperymentu Newspaper Navigator, jeśli chodzi o przygotowanie danych, aby następnie móc wykorzystać je na potrzeby stworzenia wyszukiwarki opisuje rysunek \ref{pipelin}. Widać na nim, że w pierwszym kroku, po pobraniu zdjęcia gazety, uruchamiany jest na nim stworzony i wytrenowany model detekcji obrazu oparty na sztucznych sieciach neuronowych, który wykrywa elementy wizualne, klasyfikuje je i przekazuje ich współrzędne. Na podstawie współrzędnych tworzone są następnie ramki ograniczające (\emph{z ang. bounding box}). Kolejnym krokiem jest wycięcie z oryginalnego obrazu wykrytych elementów wizualnych zgodnie z będącymi wyjściem modelu ramkami ograniczającymi. Następnie na wyciętych elementach uruchamiany jest system OCR, który rozpoznaje tekst na obrazie. Wykryty tekst będzie służył jako podstawa do późniejszego przeszukiwania przez stworzony silnik wyszukiwarki. Na koniec wyekstrahowane dane zostają zapisane \cite{Lee2020May_paper}.
\begin{figure}[h!]
\centering
\includegraphics[width=1\textwidth]{images/nn_pipeline.png}
\caption{Schemat przygotowania danych Newspaper Navigator \cite{Lee2020May_paper}}
\label{pipelin}
\end{figure}
Mając na uwadze omówiony w tym rozdziale eksperyment Newspaper Navigator przeprowadzony przez badaczy z Biblioteki Kongresu w kolejnym rozdziale przedstawiony zostanie mój sposób podejścia do problemu. Zostanie w nim zaprezentowany między innymi proces przygotowania danych, opis modelu, ewaluacja jego rezultatów, porównania ich z pierwowzorem, użycie systemu OCR, czy podjęta próba stworzenia wyszukiwarki na podstawie otrzymanych wyników.