Update on Overleaf.

This commit is contained in:
Alex Drożdż 2022-06-24 17:30:50 +00:00 committed by node
parent 506bb9c8b4
commit 1f7e91ecc9
13 changed files with 162 additions and 91 deletions

View File

@ -1,6 +1,33 @@
% here the bibliographic entry for the paper itself should be given, % here the bibliographic entry for the paper itself should be given,
% used for generating declarations % used for generating declarations
@book{osinga2018deep,
title={Deep learning cookbook: practical recipes to get started quickly},
author={Osinga, Douwe},
year={2018},
publisher={" O'Reilly Media, Inc."}
}
@misc{Humanities2022Jun_ca_katol,
author = {Humanities, National Endowment for the},
title = {{Katolik.}},
year = {2022},
month = jun,
issn = {2576-9006},
publisher = {Hierim Derdowski},
note = {[Online; accessed 23. Jun. 2022]},
url = {https://chroniclingamerica.loc.gov/lccn/sn90060821}
}
@misc{Humanities2022Jun_CA_inter,
author = {Humanities, National Endowment for the},
title = {{Chronicling America {$\vert$} Library of Congress}},
year = {2022},
month = jun,
note = {[Online; accessed 20. Jun. 2022]},
url = {https://chroniclingamerica.loc.gov/search/pages/results/?state=&date1=1777&date2=1963&proxtext=&x=12&y=11&dateFilterType=yearRange&rows=20&searchType=basic}
}
@misc{WspoltworcyprojektowFundacjiWikimedia2003Feb, @misc{WspoltworcyprojektowFundacjiWikimedia2003Feb,
author = {{Wsp{\ifmmode\acute{o}\else\'{o}\fi}{\l}tw{\ifmmode\acute{o}\else\'{o}\fi}rcy projekt{\ifmmode\acute{o}\else\'{o}\fi}w Fundacji Wikimedia}}, author = {{Wsp{\ifmmode\acute{o}\else\'{o}\fi}{\l}tw{\ifmmode\acute{o}\else\'{o}\fi}rcy projekt{\ifmmode\acute{o}\else\'{o}\fi}w Fundacji Wikimedia}},
title = {{Tagged Image File Format {\textendash} Wikipedia, wolna encyklopedia}}, title = {{Tagged Image File Format {\textendash} Wikipedia, wolna encyklopedia}},

BIN
ca_base.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 1.3 MiB

View File

@ -148,6 +148,6 @@ Dość dosadnie pokazuje to, że nowocześni bibliotekarze mający do czynienia
\newline \newline
Kolejnym wyzwaniem z jakim muszą mierzyć się przechodzące transformacje cyfrowe biblioteki to problemy prawne. Przede wszystkim przy wyborze dzieł do digitalizacji należy zwrócić uwagę na ich status prawny. Własność fizyczna danej pozycji nie oznacza, że dana instytucja posiada prawa do jej reprodukcji. Aby móc myśleć o digitalizacji niezbędnym jest uzyskanie na nią zgody, która będzie zgodna z obowiązującymi prawami autorskimi, a także odpowiednie zabezpieczenie zasobów cyfrowych co wiąże się z dodatkowymi kosztami \cite{pandey2014digitization}. Dwa główne prawa majątkowe, które prawo autorskie przyznaje podmiotom praw autorskich, to prawo do zwielokrotniania (czyli prawo do do sporządzania kopii) oraz prawo do rozpowszechniania (czyli prawo do rozpowszechniania kopii) \cite{Panezi2014Oct}. Nie bez powodu prawa autorskie określa się jako najbardziej dokuczliwa bariera w rozwoju bibliotek cyfrowych. Obiekty cyfrowe są łatwe do skopiowania i dostępne jednocześnie dla wielu użytkowników. Stanowi to nie mały problemem w kontekście praw autorskich, które w tym wypadku są bardzo łatwe do złamania nawet na późniejszych etapach, już nie tylko przez biblioteki, ale chociażby przez samych ich użytkowników. Przeważnie wykupienie danej książki od wydawcy zwalnia z dalszej kontroli praw autorskich, jednakże biblioteki, przeciwnie do prywatnych firm, w większości nie są właścicielami oferowanych pozycji, a jedynie ich opiekunami i nie posiadają praw autorskich do przechowywanych przez siebie materiałów \cite{cleveland1998digital}. Wśród członków społeczności bibliotekarskiej stopniowo narasta niepokój związany właśnie z tym wyzwaniem, twierdzą oni iż napotkane problemy będą miały zdecydowany wpływ na możliwości bibliotek do udostępniania zbiorów i świadczenia usług internetowych. W 2010 roku szacowano, że dwadzieścia trzy procent istniejących książek powstało przed 1923 rokiem, a więc nie są one objęte prawami autorskimi. Spośród tych tylko pięć procent było nadal w druku w 2010 roku. Tak więc, około siedemdziesiąt dwa procent książek nie było dostępnych dla szerszej publiczności \cite{Shehu2016Feb}. Jednym ze sposobów na możliwość udostępnienia dzieła, które znajduje się jedynie pod opieką biblioteki, a do którego nie posiada ona żadnych praw autorskich jest wynegocjowanie z wydawcami jasnych warunków licencjonowania \cite{Panezi2014Oct}. Kolejną barierę prawną w przypadku ochrony zasobów cyfrowych stanowią tak zwane dzieła osierocone, w przypadku których bardzo trudno jest zidentyfikować lub odszukać osoby roszczące sobie prawa autorskie do danych dzieł. Jeśli nie jest możliwe odnalezienie właścicieli praw autorskich i skontaktowanie się z nimi w celu uzyskania zgody na digitalizacje, będzie ona po prostu najpewniej nie możliwa do wykonania. Proces ustalania praw autorskich jest czynnością czasochłonną i wymagającą dużych zasobów, dlatego instytucje, które podejmują się digitalizacji, najchętniej unikają w procesie selekcji materiały nadal będące pod ochroną praw autorskich. Kwestia ta jest jeszcze bardziej delikatna w przypadku dzieł zbiorowych, przykładowo nagrań spektakli czy sztuk. Wówczas wszyscy ich autorzy tj. reżyserzy, choreografowie, aktorzy, a nawet kostiumolodzy, scenografowie i oświetleniowcy mogą ubiegać się o ochronę praw autorskich. Ze względu na ogromną złożoność prawną wiele dzieł zbiorowych objętych prawami autorskimi nie jest z założenia w ogóle brana pod uwagę przy digitalizacji. Umowy licencyjne negocjowane między podmiotami praw autorskich a instytucjami, takimi jak biblioteki i archiwa, mogą nakładać pewne ograniczenia na dostęp do informacji cyfrowych i sposób ich wykorzystania. Opracowywane są nowe formy licencji otwartego dostępu, w tym licencje Creative Commons, które pozwalają na większą elastyczność w korzystaniu z materiałów chronionych prawem autorskim i mają na celu przeciwdziałanie coraz większemu komercyjnemu zamknięciu cyfrowej sfery publicznej. Licencje otwartego dostępu pozwalają właścicielom praw autorskich na udostępnianie dzieł twórczych mając na uwadze ich możliwe kopiowanie, a także rozpowszechnianie. Dzieje się to poprzez przyznawanie wyjątków (takich jak użycie niekomercyjne) od praw przysługujących im na mocy tradycyjnych praw autorskich. W rzeczywistości takie modele licencji mają na celu rozszerzenie zakresu, który został ograniczony oraz przywrócenie równowagi w przepisach prawa autorskiego w celu maksymalnego otwarcia na dzieła twórcze i naukowe \cite{Evens2011May}. Kolejnym wyzwaniem z jakim muszą mierzyć się przechodzące transformacje cyfrowe biblioteki to problemy prawne. Przede wszystkim przy wyborze dzieł do digitalizacji należy zwrócić uwagę na ich status prawny. Własność fizyczna danej pozycji nie oznacza, że dana instytucja posiada prawa do jej reprodukcji. Aby móc myśleć o digitalizacji niezbędnym jest uzyskanie na nią zgody, która będzie zgodna z obowiązującymi prawami autorskimi, a także odpowiednie zabezpieczenie zasobów cyfrowych co wiąże się z dodatkowymi kosztami \cite{pandey2014digitization}. Dwa główne prawa majątkowe, które prawo autorskie przyznaje podmiotom praw autorskich, to prawo do zwielokrotniania (czyli prawo do do sporządzania kopii) oraz prawo do rozpowszechniania (czyli prawo do rozpowszechniania kopii) \cite{Panezi2014Oct}. Nie bez powodu prawa autorskie określa się jako najbardziej dokuczliwa bariera w rozwoju bibliotek cyfrowych. Obiekty cyfrowe są łatwe do skopiowania i dostępne jednocześnie dla wielu użytkowników. Stanowi to nie mały problemem w kontekście praw autorskich, które w tym wypadku są bardzo łatwe do złamania nawet na późniejszych etapach, już nie tylko przez biblioteki, ale chociażby przez samych ich użytkowników. Przeważnie wykupienie danej książki od wydawcy zwalnia z dalszej kontroli praw autorskich, jednakże biblioteki, przeciwnie do prywatnych firm, w większości nie są właścicielami oferowanych pozycji, a jedynie ich opiekunami i nie posiadają praw autorskich do przechowywanych przez siebie materiałów \cite{cleveland1998digital}. Wśród członków społeczności bibliotekarskiej stopniowo narasta niepokój związany właśnie z tym wyzwaniem, twierdzą oni iż napotkane problemy będą miały zdecydowany wpływ na możliwości bibliotek do udostępniania zbiorów i świadczenia usług internetowych. W 2010 roku szacowano, że dwadzieścia trzy procent istniejących książek powstało przed 1923 rokiem, a więc nie są one objęte prawami autorskimi. Spośród tych tylko pięć procent było nadal w druku w 2010 roku. Tak więc, około siedemdziesiąt dwa procent książek nie było dostępnych dla szerszej publiczności \cite{Shehu2016Feb}. Jednym ze sposobów na możliwość udostępnienia dzieła, które znajduje się jedynie pod opieką biblioteki, a do którego nie posiada ona żadnych praw autorskich jest wynegocjowanie z wydawcami jasnych warunków licencjonowania \cite{Panezi2014Oct}. Kolejną barierę prawną w przypadku ochrony zasobów cyfrowych stanowią tak zwane dzieła osierocone, w przypadku których bardzo trudno jest zidentyfikować lub odszukać osoby roszczące sobie prawa autorskie do danych dzieł. Jeśli nie jest możliwe odnalezienie właścicieli praw autorskich i skontaktowanie się z nimi w celu uzyskania zgody na digitalizacje, będzie ona po prostu najpewniej nie możliwa do wykonania. Proces ustalania praw autorskich jest czynnością czasochłonną i wymagającą dużych zasobów, dlatego instytucje, które podejmują się digitalizacji, najchętniej unikają w procesie selekcji materiały nadal będące pod ochroną praw autorskich. Kwestia ta jest jeszcze bardziej delikatna w przypadku dzieł zbiorowych, przykładowo nagrań spektakli czy sztuk. Wówczas wszyscy ich autorzy tj. reżyserzy, choreografowie, aktorzy, a nawet kostiumolodzy, scenografowie i oświetleniowcy mogą ubiegać się o ochronę praw autorskich. Ze względu na ogromną złożoność prawną wiele dzieł zbiorowych objętych prawami autorskimi nie jest z założenia w ogóle brana pod uwagę przy digitalizacji. Umowy licencyjne negocjowane między podmiotami praw autorskich a instytucjami, takimi jak biblioteki i archiwa, mogą nakładać pewne ograniczenia na dostęp do informacji cyfrowych i sposób ich wykorzystania. Opracowywane są nowe formy licencji otwartego dostępu, w tym licencje Creative Commons, które pozwalają na większą elastyczność w korzystaniu z materiałów chronionych prawem autorskim i mają na celu przeciwdziałanie coraz większemu komercyjnemu zamknięciu cyfrowej sfery publicznej. Licencje otwartego dostępu pozwalają właścicielom praw autorskich na udostępnianie dzieł twórczych mając na uwadze ich możliwe kopiowanie, a także rozpowszechnianie. Dzieje się to poprzez przyznawanie wyjątków (takich jak użycie niekomercyjne) od praw przysługujących im na mocy tradycyjnych praw autorskich. W rzeczywistości takie modele licencji mają na celu rozszerzenie zakresu, który został ograniczony oraz przywrócenie równowagi w przepisach prawa autorskiego w celu maksymalnego otwarcia na dzieła twórcze i naukowe \cite{Evens2011May}.
\newline \clearpage
W przypadku ochrony materiałów cyfrowych jednym z problemów jest starzenie się technologii, co w dłuższej perspektywie czasowej, w przypadku braku reakcji, może prowadzić do kompletnego utracenie możliwości oglądania danych zbiorów, a co za tym idzie zabicia głównego celu digitalizacji, czyli powszechnego, bezpiecznego i długowiecznego dostępu do danych materiałów. Starzenie się technologii w erze cyfrowej jest porównywalne do niszczenia papieru w epoce papieru. Biblioteki w swojej tradycyjnej formie musiały dbać o takie rzeczy jak kontrola klimatu w pomieszczeniach ze zgromadzonymi zbiorami oraz przykładowo ich odkwaszaniem. Te cyfrowe również muszą odpowiednio dbać o zdigitalizowane dzieła, poprzez nieustanne opracowywania nowych rozwiązań technicznych. W dłuższej perspektywie materiały przechowywane na starszych nośnikach mogą zostać utracone, ponieważ nie będzie już sprzętu ani oprogramowania do ich odczytu. Biblioteki będą więc musiały stale przenosić informacje cyfrowe z nośnika na nośnik lub rozważyć nowoczesne technologie chmurowe, a co za tym idzie zlecić zadanie innemu podmiotowi i dodatkowo przeznaczyć część budżetu na opłacenie zewnętrznego dostawcy pamięci. Zachowaniu dostępu do treści dokumentów, niezależnie od ich formatu to kolejne wyzwanie podchodzące pod problemy natury technicznej związane z cyfrowymi bibliotekami. Jest to problem nawet większy niż w przypadku przestarzałych technologii pamięci masowej, ponieważ przenoszenie plików z jednego przestarzałego fizycznego nośnika na inny nowocześniejszy jest owszem męczące ale nie aż tak ryzykowne. W przypadku reakcji odpowiednio wcześniej i zachowania kopii zapasowych przed procesem przenoszenia treści, wszystko powinno obejść się bez większych problemów. W przypadku przestarzałego formatu pliku sprawa robi się znacznie bardziej skomplikowana. Jednym z rozwiązań jest migracja danych, czyli przetłumaczenie danych z jednego formatu na inny, zachowując zdolność użytkowników do pobierania i wyświetlania treści. Jednak i tu pojawiają się trudności, ponieważ migracja danych jest kosztowna, a ryzyko zniekształcenia lub utraty informacji w trakcie procesu migracji jest praktycznie nieuniknione \cite{verma2009digital}. W przypadku ochrony materiałów cyfrowych jednym z problemów jest starzenie się technologii, co w dłuższej perspektywie czasowej, w przypadku braku reakcji, może prowadzić do kompletnego utracenie możliwości oglądania danych zbiorów, a co za tym idzie zabicia głównego celu digitalizacji, czyli powszechnego, bezpiecznego i długowiecznego dostępu do danych materiałów. Starzenie się technologii w erze cyfrowej jest porównywalne do niszczenia papieru w epoce papieru. Biblioteki w swojej tradycyjnej formie musiały dbać o takie rzeczy jak kontrola klimatu w pomieszczeniach ze zgromadzonymi zbiorami oraz przykładowo ich odkwaszaniem. Te cyfrowe również muszą odpowiednio dbać o zdigitalizowane dzieła, poprzez nieustanne opracowywania nowych rozwiązań technicznych. W dłuższej perspektywie materiały przechowywane na starszych nośnikach mogą zostać utracone, ponieważ nie będzie już sprzętu ani oprogramowania do ich odczytu. Biblioteki będą więc musiały stale przenosić informacje cyfrowe z nośnika na nośnik lub rozważyć nowoczesne technologie chmurowe, a co za tym idzie zlecić zadanie innemu podmiotowi i dodatkowo przeznaczyć część budżetu na opłacenie zewnętrznego dostawcy pamięci. Zachowaniu dostępu do treści dokumentów, niezależnie od ich formatu to kolejne wyzwanie podchodzące pod problemy natury technicznej związane z cyfrowymi bibliotekami. Jest to problem nawet większy niż w przypadku przestarzałych technologii pamięci masowej, ponieważ przenoszenie plików z jednego przestarzałego fizycznego nośnika na inny nowocześniejszy jest owszem męczące ale nie aż tak ryzykowne. W przypadku reakcji odpowiednio wcześniej i zachowania kopii zapasowych przed procesem przenoszenia treści, wszystko powinno obejść się bez większych problemów. W przypadku przestarzałego formatu pliku sprawa robi się znacznie bardziej skomplikowana. Jednym z rozwiązań jest migracja danych, czyli przetłumaczenie danych z jednego formatu na inny, zachowując zdolność użytkowników do pobierania i wyświetlania treści. Jednak i tu pojawiają się trudności, ponieważ migracja danych jest kosztowna, a ryzyko zniekształcenia lub utraty informacji w trakcie procesu migracji jest praktycznie nieuniknione \cite{verma2009digital}.

View File

@ -1,84 +1,10 @@
% !TeX encoding = UTF-8 % !TeX encoding = UTF-8
% !TeX spellcheck = pl_PL % !TeX spellcheck = pl_PL
\chapter{Digitalizacja treści na podstawie projektu Chronicling America}
\section{Opis projektu Chronicling America} \chapter{Podstawy teoretyczne sieci neuronowych}
Projekt Chronicling America został przeprowadzony na terenie Stanów Zjednoczonych, a jego celem było rozpowszechnienie dostępu do zdigitalizowanych treści wśród jak najliczniejszej grupy osób, szczególnie wśród młodego pokolenia Amerykanów, bazę tego projektu stanowiły historyczne amerykańskie gazety. Korzystanie z materiałów zgromadzonych i przetworzonych podczas prac nad tym projektem jest całkowicie darmowe dla wszystkich użytkowników, co potwierdza założenia projektu o rozszerzaniu skali potencjalnych czytelników zasobów biblioteki. Szczególnie, że projekt dotyczy gazet nawet sprzed setek lat, które ze względu na stan i wartość prawdopodobnie nie były by dopuszczone do powszechnego użytku. Chronicling America został stworzony przez organizacje United States National Digital Newspaper (NDNP), która narodziła się dzięki współpracy rządowej agencji National Endowment for the Humanities (NEH) oraz Biblioteki Kongresu \cite{ContributorstoWikimediaprojects2022Feb}. NEH jest niezależną agencją federalną, która jest jednym z największych fundatorów programów humanistycznych w całych Stanach Zjednoczony, a jej historia sięga aż 1965 roku. Aktualnie jej główna działalność opiera się na rozdysponowywaniu grantów na projekty humanistyczne, które jak sami określają promują doskonałość w naukach humanistycznych i przekazują lekcje historii wszystkim Amerykanom. Dotacje NEH są zazwyczaj przyznawane instytucjom kulturalnym, takim jak muzea, archiwa, biblioteki, szkoły wyższe, uniwersytety, publiczne stacje telewizyjne i radiowe, a także indywidualnym naukowcom \cite{BibEntry2022Jun}. Z kolei Bibliotek Kongresu Stanów Zjednoczonych jest największą biblioteką na świecie z główną siedzibą w Waszyngtonie, w stanie District of Columbia, której początek datuje się na 1800 rok. Pełni ona funkcje biblioteki narodowej, jest również głównym ośrodkiem badawczym Kongresu USA, a także siedzibą Biura Praw Autorskich USA. Bibliotek Kongresu może poszczycić się Zbiorami liczącymi ponad 171 milionów pozycji, które obejmują aż 40 milionów skatalogowanych książek i innych materiałów drukowanych w 470 językach, ponad 74 miliony rękopisów, największą kolekcję rzadkich książek w Ameryce Północnej oraz największą na świecie kolekcję materiałów prawnych, filmów, map, nut i nagrań dźwiękowych \cite{BibEntry2022Jun_congres}. Niniejsza praca polega na przeprowadzeniu eksperymentu na danych zebranych w ramach omawianego na późniejszych stronach projektu powstałego z ramienia inicjatywy digitalizacyjnej Chronicling America, t.j. Newspaper Navigator. Z racji tego istnieje naturalna potrzeba wytłumaczenia pojęcia jakimi są głębokie sieci neuronowe ze szczególnym naciskiem na sieci przetwarzające obraz, ponieważ technologia ta jest kluczowym elementem całego projektu Newspaper Navigator.
\newline
Podwaliny dla projektu Chronicling America stanowił program znany pod nazwą United States Newspaper Program (USNP) przeprowadzony w latach 1982-2011 również przez agencje National Endowment for the Humanities przy technicznej pomocy Biblioteki Kongresu. Projekt ten miał na celu wyselekcjonowanie, skatalogowanie i zapisanie historycznych gazet wydawanych w Stanach Zjednoczonych od XVIII wieku, a dokładniej 1690 roku, aż do czasów współczesnych w postaci mikrofilmów. USNP zleciło przeprowadzenie projektu w każdym ze stanów, a także w Portoryko i na Wyspach Dziewiczych. Za organizacje odpowiedzialne były konkretne jednostki terytorialne, najczęściej największe stanowe repozytoria gazet. Odpowiedzialne były one między innymi za inwentaryzację zbiorów zawartych głównie w bibliotekach publicznych oraz sądach, biurach prasowych, muzeach, bibliotekach uniwersyteckich, archiwach i towarzystwach historycznych. Rekordy katalogowe zostały wprowadzone do krajowej bazy danych prowadzonej przez Online Computer Library Center (OCLC) i dostępnej na całym świecie poprzez WorldCat, czyli katalog łączący zbiory 71 tysięcy bibliotek ze 112 krajów, co czyni go największą na świecie bibliograficzną bazą danych \cite{BibEntry2022Jun_NEH}. \section{Sieci neuronowe - podstawowe informacje}
\newline Najprościej mówiąc i nie wdając się jeszcze zanadto w szczegóły sieć neuronowa jest to stos połączonych ze sobą warstw na które składają się neurony, czyli podstawowe jednostki obliczeniowe w sieciach. Z jednej strony wprowadza się dane, a z drugiej strony otrzymuje się ich przetworzoną postać. Każda warstwa wykonuje serię operacji matematycznych na otrzymanych danych, a także posiada zestaw zmiennych podlegających modyfikacji w celach optymalizacyjnych \cite{osinga2018deep}.
Dobre praktyki digitalizacji wymagają aby katalogowane dzieła zawierały opis. Gazety skatalogowane w ramach projektu Chronicling America również posiadają standardowe krótkie opis. To jednak nie wszystko, ponieważ osoby odpowiedzialne za ten projekt poszły o krok dalej. Oprócz klasycznych opisów gazety zawierają również specjalne opisy uzupełniające, zwane esejami tytułowymi (z ang. "title essays"). Są one opracowywane na specjalne zlecenie Chronicling America, a nad ich jakością piecze sprawuje agencja National Endowment of the Humanities, która dokonuje przeglądów sporządzonych prac. Opisy uzupełniające stanowią punkt wyjścia do dalszych badań nad zrozumieniem roli jaką odgrywała dana gazeta wśród swoich czytelników. Wśród elementów jakie znajdują się w esejach tytułowych wyróżnić możemy takie jak na przykład:
\begin{itemize}
\item[$\bullet$] miejsce publikacji,
\item[$\bullet$] daty i harmonogram publikacji (np. co tydzień, codziennie, rano lub wieczorem),
\item[$\bullet$] zasięg geograficzny i nakład,
\item[$\bullet$] przynależność polityczna i religijna,
\item[$\bullet$] powód publikacji,
\item[$\bullet$] cechy i stan fizyczny,
\item[$\bullet$] historia zmian nazw, formatów i praw własności,
\item[$\bullet$] spis wyróżniających się redaktorów, wydawców lub reporterów biorących udział przy jej tworzeniu,
\item[$\bullet$] rodzaje prezentowanych artykułów,
\item[$\bullet$] relacje z innymi okolicznymi wydawnictwami,
\item[$\bullet$] innowacyjność w procesie produkcji.
\end{itemize}
\ \\
Opisy te realizują jeden z najważniejszych celi jakie stawia przed sobą projekt Chronicling America, a mianowicie rozumienie treści jakie prezentują gazety w kontekście czasu i miejsca ich wydawania. Aby to osiągnąć uczestniczące w projekcie instytucje posiadające w tym kontekście interesujące zbiory otrzymują nagrody za wybranie i zdigitalizowanie około 100,000 stron gazet reprezentujących historię regionalną danego stanu, swój zasięg geograficzny oraz interesujące wydarzenia. Proces selekcji jest bardzo dokładny oraz ostrożny i musi być przeprowadzany w kontakcie z innymi podmiotami w celu minimalizacji powtarzających się materiałów, ze względu na duże koszta całego przedsięwzięcia. Biblioteka Kongresu odpowiedzialna była za przygotowanie technicznej specyfikacji przeprowadzania całości tego procesu \cite{Humanities2022Jun}.
\newline
Biblioteka Kongresu odpowiedzialna jest za opracowywanie standardów przeprowadzanych przed uczestników projektu procesów digitalizacyjnych. Dokument w którym przedstawione są wypracowane standardy jest aktualizowany na bieżąco, raz w roku. Aktualna wersja zawiera 67 stron na których szczegółowo opisano podejście do digitalizacji. Na stronie Biblioteki Kongresu można zapoznać się z zarówno aktualnym standardem jak i historycznymi. Cele jakie określiła Biblioteka Kongres to między innymi określenie wspólnego interfejs dostępnego dla każdego potencjalnego użytkownika poprzez sieć WWW za pomocą standardowego protokołu HTTP. Ponadto zadbali oni również o określenie odpowiedniego standardu digitalizacji, aby późniejsze wykorzystanie technologii OCR przebiegało efektywnie, a także o stosowanie formatów cyfrowych o wysokim prawdopodobieństwie trwałości, czy przykładanie szczególnej uwagi na koszty konwersji cyfrowej i konserwacji powstałych w ten sposób zasobów. Obecne podejście opiera się w głównej mierze na kilku kluczowych aspektach. Pierwszym z nich jest to, że obrazy odtwarza się z kopii zachowawczej mikrofilmów, na których są przechowywane pozyskane zdjęcia stron gazet. Pliki zaś przetrzymuje się w formacie TIFF 6.0, czyli w formacie opartym na znacznikach, służącym do przechowywania i wymiany obrazów bitmapowych (rastrowych) \cite{BibEntry2022Jun_tech}. Pozwala on na przechowywanie informacje o kanałach alfa, ścieżkach, profilu kolorów, komentarzach, umożliwia także zapisywanie dokumentów wielostronicowych. Możliwa jest również kompresja w tym kompresja ZIP. Wersja 6.0 jako pierwsza zapewnia również możliwość kompresji do formatu JPEG. \cite{WspoltworcyprojektowFundacjiWikimedia2003Feb}. Jeśli chodzi o jakość tych obrazów to wymagana jest konwersja obrazów w 8-bitowej skali szarości skanowanych z maksymalną możliwą rozdzielczością, która wynosi 300-400 DPI \cite{BibEntry2022Jun_tech}. Wspomniana wcześniej miara DPI (z ang. „dots per inch”) określa liczbę pikseli (ich gęstość) na jeden cal, która reprezentuje jakość przedstawianych obrazów czy wydruków. Na poniższej rycinie wyjaśnione zostało jak w zależności od wartości DPI zmienia się jakoś przedstawianego obrazu czarnej kropki. Jak nie trudno zauważyć im wyższa wartość miary, tym obraz jest dokładniejszy i bardziej wygładzony \cite{BibEntry2022Jun_dpi}.
\begin{figure}[h!]
\centering
\includegraphics[width=0.6\textwidth]{dpi.png}
\caption{Przykład różnych wartości DPI \cite{DuggalVisualSolutions2022Jun}.}
\end{figure}
\ \\
Kolejnymi kluczowymi aspektami, które porusza przygotowany przez Bibliotekę Kongresu dokument to:
\begin{itemize}
\item[$\bullet$] wykorzystanie OCR z ramkami zawierającymi pojedyncze wyrazy, z uwzględnieniem rozpoznawania kolumn na stronie, ale bez segmentacji stron na artykuł,
\item[$\bullet$] opracowanie strukturalnych metadanych dla stron, wydań, edycji i tytułów w celu obsługi interfejsu przeglądania chronologicznego,
\item[$\bullet$] zdeponowanie kopii wszystkich obrazów stron i powiązanych metadanych w zbiorach Biblioteki Kongresu,
\item[$\bullet$] zaimplementowany interfejs zaprojektowany specjalnie dla dostępu do historycznych gazet w domenie publicznej dostępny z ramienia Biblioteki Kongresu umożliwiający wyszukiwanie pełnotekstowe, a także poszczególnych obrazów stron oraz podświetlanie wyszukiwanych słów na obrazach,
\item[$\bullet$] replikowalność podejścia przez każdego uczestnika projektu, tak aby mógł wykorzystywać wytworzone zdigitalizowane treści w innych potrzebnych projektach, jeżeli zajdzie taka potrzeba.
\end{itemize}
\ \\
W dokumencie sporządzono bardzo szczegółowy opis metadanych, jakie mają zostać opracowane. Organizacje biorące udział w projekcie zostały poinstruowane w kontekście prawie 60 pól jakie mogą zostać przez nie wypełnione, z których 26 jest polami obowiązkowymi. Przedstawiona został również dokładna struktura pliku XML w którym mają być one zawarte. Instrukcja zawiera między innymi nazwę opisywanych danych, ich typ, przykład, notatkę z dokładniejszym wytłumaczeniem, czy konkretną ścieżkę w pliku XML w jakiej mają zostać zawarte. Przykładami pól są: oryginalne repozytorium z którego pochodzi dany materiał, wykonawca obsługujący skaner pozyskujący obraz, model takiego skanera, jego oprogramowanie, tytuł materiału, data wydania, format źródłowy, czy wymiary \cite{BibEntry2022Jun_tech}.
\newline
POTEM ZDJĘCIA INTERFEJSU STRONY I PRZYKŁADOWYCH POZYCJI (fajnie by było dać jakieś przykłady polskich gazet), można też dodać krótki opis stąd: \cite{Humanities2022Jun}, tam na dole jest to opisane z jakich języków to jest stworzone itd.
\newline
Na stronie głównej programu Chronicling America (\url{https://chroniclingamerica.loc.gov/newspapers/}) możemy przeczytać, że najwcześniej wydane gazety skolekcjonowane w ramach projektu Chronicling America pochodzą z 1777 roku, a najpóźniejsze zaś z 1963. Na dzień dzisiejszy zbiór ten obfituje w 3,745 historycznych gazet wydawanych na przestrzeni lat, czyli ponad 2,5 miliona egzemplarzy, co łącznie daje 19,706,097 milinów pojedynczych stron skatalogowanych gazet. Liczebność gazet dostępnych do przeglądania z poziomu przeglądarki internetowej w rozbiciu na poszczególne stany prezentuje się następująco:
\begin{figure}[h!]
\centering
\includegraphics[width=1\textwidth]{gazety_per_terytorium.png}
\caption{Liczba wszystkich skolekcjonowanych gazet w repozytorium Chronicling America w rozbiciu na poszczególne obszary}
\end{figure}
OPISAĆ CO WIDAĆ NA WYKESIE
\clearpage
\begin{figure}[h!]
\centering
\includegraphics[width=1\textwidth]{strony_per_terytorium.png}
\caption{Liczba wszystkich skolekcjonowanych stron gazet w repozytorium Chronicling America w rozbiciu na poszczególne obszary}
\end{figure}
OPISAĆ CO WIDAĆ NA WYKESIE
\clearpage
POTEM JAKIEŚ STATYSTYKI PER YEAR I CO TAM JESZCZE MI SIĘ UDA WYMYŚLIĆ
\section{Opis podejście Newspaper navigator}
Newspaper navigator oddzielny podrozdział po płynnym przejściu z Chronicling America
Kto zrobił, w jaki sposób, dlaczego w ogóle powstał taki projket na bazie zbiorów Chronicling America, przykładowe obrazki, dane statystyczne, performance modelu i opis całego podejścia.
https://news-navigator.labs.loc.gov/ <- strona NN
https://arxiv.org/abs/2005.01583 <- paper NN

View File

@ -1,5 +1,130 @@
% !TeX encoding = UTF-8 % !TeX encoding = UTF-8
% !TeX spellcheck = pl_PL % !TeX spellcheck = pl_PL
\chapter{Digitalizacja treści na podstawie projektu Chronicling America}
\chapter{Podstawy teoretyczne sieci neuronowych} \section{Przedstawienie projektu Chronicling America}
Projekt Chronicling America został przeprowadzony na terenie Stanów Zjednoczonych, a jego celem było rozpowszechnienie dostępu do zdigitalizowanych treści wśród jak najliczniejszej grupy osób, szczególnie wśród młodego pokolenia Amerykanów, bazę tego projektu stanowiły historyczne amerykańskie gazety. Korzystanie z materiałów zgromadzonych i przetworzonych podczas prac nad tym projektem jest całkowicie darmowe dla wszystkich użytkowników, co potwierdza założenia projektu o rozszerzaniu skali potencjalnych czytelników zasobów biblioteki. Szczególnie, że projekt dotyczy gazet nawet sprzed setek lat, które ze względu na stan i wartość prawdopodobnie nie były by dopuszczone do powszechnego użytku. Chronicling America został stworzony przez organizacje United States National Digital Newspaper (NDNP), która narodziła się dzięki współpracy rządowej agencji National Endowment for the Humanities (NEH) oraz Biblioteki Kongresu \cite{ContributorstoWikimediaprojects2022Feb}. NEH jest niezależną agencją federalną, która jest jednym z największych fundatorów programów humanistycznych w całych Stanach Zjednoczony, a jej historia sięga aż 1965 roku. Aktualnie jej główna działalność opiera się na rozdysponowywaniu grantów na projekty humanistyczne, które jak sami określają promują doskonałość w naukach humanistycznych i przekazują lekcje historii wszystkim Amerykanom. Dotacje NEH są zazwyczaj przyznawane instytucjom kulturalnym, takim jak muzea, archiwa, biblioteki, szkoły wyższe, uniwersytety, publiczne stacje telewizyjne i radiowe, a także indywidualnym naukowcom \cite{BibEntry2022Jun}. Z kolei Bibliotek Kongresu Stanów Zjednoczonych jest największą biblioteką na świecie z główną siedzibą w Waszyngtonie, w stanie District of Columbia, której początek datuje się na 1800 rok. Pełni ona funkcje biblioteki narodowej, jest również głównym ośrodkiem badawczym Kongresu USA, a także siedzibą Biura Praw Autorskich USA. Bibliotek Kongresu może poszczycić się Zbiorami liczącymi ponad 171 milionów pozycji, które obejmują aż 40 milionów skatalogowanych książek i innych materiałów drukowanych w 470 językach, ponad 74 miliony rękopisów, największą kolekcję rzadkich książek w Ameryce Północnej oraz największą na świecie kolekcję materiałów prawnych, filmów, map, nut i nagrań dźwiękowych \cite{BibEntry2022Jun_congres}.
\newline
Podwaliny dla projektu Chronicling America stanowił program znany pod nazwą United States Newspaper Program (USNP) przeprowadzony w latach 1982-2011 również przez agencje National Endowment for the Humanities przy technicznej pomocy Biblioteki Kongresu. Projekt ten miał na celu wyselekcjonowanie, skatalogowanie i zapisanie historycznych gazet wydawanych w Stanach Zjednoczonych od XVIII wieku, a dokładniej 1690 roku, aż do czasów współczesnych w postaci mikrofilmów. USNP zleciło przeprowadzenie projektu w każdym ze stanów, a także w Portoryko i na Wyspach Dziewiczych. Za organizacje odpowiedzialne były konkretne jednostki terytorialne, najczęściej największe stanowe repozytoria gazet. Odpowiedzialne były one między innymi za inwentaryzację zbiorów zawartych głównie w bibliotekach publicznych oraz sądach, biurach prasowych, muzeach, bibliotekach uniwersyteckich, archiwach i towarzystwach historycznych. Rekordy katalogowe zostały wprowadzone do krajowej bazy danych prowadzonej przez Online Computer Library Center (OCLC) i dostępnej na całym świecie poprzez WorldCat, czyli katalog łączący zbiory 71 tysięcy bibliotek ze 112 krajów, co czyni go największą na świecie bibliograficzną bazą danych \cite{BibEntry2022Jun_NEH}.
\newline
Dobre praktyki digitalizacji wymagają aby katalogowane dzieła zawierały opis. Gazety skatalogowane w ramach projektu Chronicling America również posiadają standardowe krótkie opis. To jednak nie wszystko, ponieważ osoby odpowiedzialne za ten projekt poszły o krok dalej. Oprócz klasycznych opisów gazety zawierają również specjalne opisy uzupełniające, zwane esejami tytułowymi (z ang. "title essays"). Są one opracowywane na specjalne zlecenie Chronicling America, a nad ich jakością piecze sprawuje agencja National Endowment of the Humanities, która dokonuje przeglądów sporządzonych prac. Opisy uzupełniające stanowią punkt wyjścia do dalszych badań nad zrozumieniem roli jaką odgrywała dana gazeta wśród swoich czytelników. Wśród elementów jakie znajdują się w esejach tytułowych wyróżnić możemy takie jak na przykład:
\begin{itemize}
\item[$\bullet$] miejsce publikacji,
\item[$\bullet$] daty i harmonogram publikacji (np. co tydzień, codziennie, rano lub wieczorem),
\item[$\bullet$] zasięg geograficzny i nakład,
\item[$\bullet$] przynależność polityczna i religijna,
\item[$\bullet$] powód publikacji,
\item[$\bullet$] cechy i stan fizyczny,
\item[$\bullet$] historia zmian nazw, formatów i praw własności,
\item[$\bullet$] spis wyróżniających się redaktorów, wydawców lub reporterów biorących udział przy jej tworzeniu,
\item[$\bullet$] rodzaje prezentowanych artykułów,
\item[$\bullet$] relacje z innymi okolicznymi wydawnictwami,
\item[$\bullet$] innowacyjność w procesie produkcji.
\end{itemize}
\ \\
Opisy te realizują jeden z najważniejszych celi jakie stawia przed sobą projekt Chronicling America, a mianowicie rozumienie treści jakie prezentują gazety w kontekście czasu i miejsca ich wydawania. Aby to osiągnąć uczestniczące w projekcie instytucje posiadające w tym kontekście interesujące zbiory otrzymują nagrody za wybranie i zdigitalizowanie około 100,000 stron gazet reprezentujących historię regionalną danego stanu, swój zasięg geograficzny oraz interesujące wydarzenia. Proces selekcji jest bardzo dokładny oraz ostrożny i musi być przeprowadzany w kontakcie z innymi podmiotami w celu minimalizacji powtarzających się materiałów, ze względu na duże koszta całego przedsięwzięcia. Biblioteka Kongresu odpowiedzialna była za przygotowanie technicznej specyfikacji przeprowadzania całości tego procesu \cite{Humanities2022Jun}.
\newline
Biblioteka Kongresu odpowiedzialna jest za opracowywanie standardów przeprowadzanych przed uczestników projektu procesów digitalizacyjnych. Dokument w którym przedstawione są wypracowane standardy jest aktualizowany na bieżąco, raz w roku. Aktualna wersja zawiera 67 stron na których szczegółowo opisano podejście do digitalizacji. Na stronie Biblioteki Kongresu można zapoznać się z zarówno aktualnym standardem jak i historycznymi. Cele jakie określiła Biblioteka Kongres to między innymi określenie wspólnego interfejs dostępnego dla każdego potencjalnego użytkownika poprzez sieć WWW za pomocą standardowego protokołu HTTP. Ponadto zadbali oni również o określenie odpowiedniego standardu digitalizacji, aby późniejsze wykorzystanie technologii OCR przebiegało efektywnie, a także o stosowanie formatów cyfrowych o wysokim prawdopodobieństwie trwałości, czy przykładanie szczególnej uwagi na koszty konwersji cyfrowej i konserwacji powstałych w ten sposób zasobów. Obecne podejście opiera się w głównej mierze na kilku kluczowych aspektach. Pierwszym z nich jest to, że obrazy odtwarza się z kopii zachowawczej mikrofilmów, na których są przechowywane pozyskane zdjęcia stron gazet. Pliki zaś przetrzymuje się w formacie TIFF 6.0, czyli w formacie opartym na znacznikach, służącym do przechowywania i wymiany obrazów bitmapowych (rastrowych) \cite{BibEntry2022Jun_tech}. Pozwala on na przechowywanie informacje o kanałach alfa, ścieżkach, profilu kolorów, komentarzach, umożliwia także zapisywanie dokumentów wielostronicowych. Możliwa jest również kompresja w tym kompresja ZIP. Wersja 6.0 jako pierwsza zapewnia również możliwość kompresji do formatu JPEG. \cite{WspoltworcyprojektowFundacjiWikimedia2003Feb}. Jeśli chodzi o jakość tych obrazów to wymagana jest konwersja obrazów w 8-bitowej skali szarości skanowanych z maksymalną możliwą rozdzielczością, która wynosi 300-400 DPI \cite{BibEntry2022Jun_tech}. Wspomniana wcześniej miara DPI (z ang. „dots per inch”) określa liczbę pikseli (ich gęstość) na jeden cal, która reprezentuje jakość przedstawianych obrazów czy wydruków. Na poniższej rycinie wyjaśnione zostało jak w zależności od wartości DPI zmienia się jakoś przedstawianego obrazu czarnej kropki. Jak nie trudno zauważyć im wyższa wartość miary, tym obraz jest dokładniejszy i bardziej wygładzony \cite{BibEntry2022Jun_dpi}.
\begin{figure}[h!]
\centering
\includegraphics[width=0.6\textwidth]{dpi.png}
\caption{Przykład różnych wartości DPI \cite{DuggalVisualSolutions2022Jun}.}
\end{figure}
\ \\
Kolejnymi kluczowymi aspektami, które porusza przygotowany przez Bibliotekę Kongresu dokument to:
\begin{itemize}
\item[$\bullet$] wykorzystanie OCR z ramkami zawierającymi pojedyncze wyrazy, z uwzględnieniem rozpoznawania kolumn na stronie, ale bez segmentacji stron na artykuł,
\item[$\bullet$] opracowanie strukturalnych metadanych dla stron, wydań, edycji i tytułów w celu obsługi interfejsu przeglądania chronologicznego,
\item[$\bullet$] zdeponowanie kopii wszystkich obrazów stron i powiązanych metadanych w zbiorach Biblioteki Kongresu,
\item[$\bullet$] zaimplementowany interfejs zaprojektowany specjalnie dla dostępu do historycznych gazet w domenie publicznej dostępny z ramienia Biblioteki Kongresu umożliwiający wyszukiwanie pełnotekstowe, a także poszczególnych obrazów stron oraz podświetlanie wyszukiwanych słów na obrazach,
\item[$\bullet$] replikowalność podejścia przez każdego uczestnika projektu, tak aby mógł wykorzystywać wytworzone zdigitalizowane treści w innych potrzebnych projektach, jeżeli zajdzie taka potrzeba.
\end{itemize}
\ \\
W dokumencie sporządzono bardzo szczegółowy opis metadanych, jakie mają zostać opracowane. Organizacje biorące udział w projekcie zostały poinstruowane w kontekście prawie 60 pól jakie mogą zostać przez nie wypełnione, z których 26 jest polami obowiązkowymi. Przedstawiona został również dokładna struktura pliku XML w którym mają być one zawarte. Instrukcja zawiera między innymi nazwę opisywanych danych, ich typ, przykład, notatkę z dokładniejszym wytłumaczeniem, czy konkretną ścieżkę w pliku XML w jakiej mają zostać zawarte. Przykładami pól są: oryginalne repozytorium z którego pochodzi dany materiał, wykonawca obsługujący skaner pozyskujący obraz, model takiego skanera, jego oprogramowanie, tytuł materiału, data wydania, format źródłowy, czy wymiary \cite{BibEntry2022Jun_tech}.
\newline
Interfejs internetowej aplikacji do przeszukiwania i przeglądania zbiorów zebranych w ramach Chronicling America dostępny jest pod adresem: \url{https://chroniclingamerica.loc.gov/newspapers/}. Jego główna strona preznetuje się następująco:
\newline
\begin{figure}[h!]
\centering
\includegraphics[width=1\textwidth]{ca_base.png}
\caption{Interfejs aplikacji do obsługi zbiorów Chronicling America \cite{Humanities2022Jun_CA_inter}}
\end{figure}
\clearpage
Ze strony internetowej Chronicling America mamy swobodny dostęp do bazy wszystkich skolekcjonowanych w ramach tego projektu obrazów. Na dzień dzisiejszy zbiór ten obfituje w 19,706,097 zdjęć pojedynczych stron gazet. Liczba ta przekłada się na około 3,750 historyczne gazety, czyli ponad 2.5 miliona egzemplarzy. Aby przeszukiwać bazę danych możemy wybrać z takich opcji filtrowania jak: filtrowanie po regionie z którego pochodzą oraz po zakresie dat ich wydawania. Zważając na ilość metadanych jakie zostały zebrane i ilość informacji jakie przechowywane są w bazie Chronicling America na temat każdej z gazet liczba filtrów jest jednak dość mała, chociaż możliwość przeszukiwania tekstu obrazów po dowolnych frazach i fakt, że podkreślane są one w wynikach wydaje się zaspokajać większość potrzeb z tym związanych. Jest to zdecydowanie najważniejsza funkcjonalność jaką oferuje ta witryna. Dzięki zastosowaniu technologii OCR możemy wyszukać dowolną frazę wpisując ją w panel wyszukiwania w prawym górnym rogu. Wyjątkowo interesującym rozwiązaniem jest podkreślenie na każdym z rezultatów wyszukiwanej frazy, co znacznie ułatwia wyszukiwanie interesujących treści, już później na etapie samych wyników. Przykład działania zademonstruje wyszukując frazę "polish" w celu znalezienia jakichkolwiek polskich gazet wydawanych na terenie Stanów Zjednoczonych skolekcjonowanych w trakcie trwania projektu Chronicling America.
\begin{figure}[h!]
\centering
\includegraphics[width=0.9\textwidth]{polish_ca.png}
\caption{Wyniki wyszukiwania frazy "polish" na stronie głównej projektu Chronicling America \cite{Humanities2022Jun_CA_inter}}
\end{figure}
Po wpisaniu tej frazy w wyszukiwarkę otrzymaliśmy aż 1,350,355 wyników, jednak przez identyczną pisownie w języku angielskim jak słowo polerować zapewne większość z tych wyników nie dotyczy wzmianek o Polakach czy Polsce. Jednakże już na pierwszy rzut oka dostrzec możemy takie pozycje jak "Dziennik Chicagowski" czy pismo "Katolik".
\begin{figure}[h!]
\centering
\subfloat[\centering Strona tytułowa pisma Katolik]{{\includegraphics[width=7cm]{pdf_katolik.png} }}%
\qquad
\subfloat[\centering Wycinek transkryptu strony tytułowej]{{\includegraphics[width=3cm]{trans_katolik.png} }}%
\caption{Przykład polskiego pisma w zbiorach Chronicling America \cite{Humanities2022Jun_CA_inter}}%
\end{figure}
Zaprezentowane powyżej czasopismo to "Katolik", wydanie z dnia 12 kwietnia 1894 roku. Pod tą nazwą pismo to wydawane było jednak jedynie przez 2 lata (1893-1895) swojej historii. Szerzej znane może jako "Wiarus", który zadebiutował w 1886 roku w stanie Minnesota, a dokładniej w miejscowości Winona, która stanowiła centrum polskiej emigracji dla tego stanu. Treści w niej przedstawiane były w większości w języku polskim, chociaż już na prezentowanej stronie można zauważyć również treści w języku angielskim. Sam "Wiarus" ma bardzo ciekawą historie, ponieważ już same początki tego pisma nie należały do najprostszych, mimo ambicji zarządu wydawnictwa. Po utracie dwóch redaktorów w ciągu dziesięciu numerów, w tym jednego rosyjskiego szpiega, który wypełniał gazetę antypolskimi nastrojami, wydawnictwo dość niechętnie zatrudniło Hieronima Derdowskiego, byłego redaktora gazety "Pielgrzym Polski" z Detroit o dość szemranej przeszłości. Derdowski był z pochodzenia Kaszubą i właśnie swojemu pochodzeniu zawdzięcza on sukces jaki udało mu się osiągnąć, ponieważ to Winony masowo emigrowali właśnie Kaszubi. Dzięki znajomości języka kaszubskiego szybko nawiązał on kontakt z osadnikami w Winonie. Rozpowszechniając język polski, edukując, a także przystosowując polską ludność do życia w Ameryce, Derdowski odniósł tak duży sukces, że 19 września 1889 r. udało mu się nabyć całe wydawnictwo. Jak jednak bywa z każdym sukcesem, a co za tym idzie i rozgłosem, "Wiarus" otrzymywał również głosy sprzeciwu ze względu na ataki na osoby publiczne jakich dokonywał Derdowski w swojej gazecie. Największy sprzeciw i wystawienie na publiczną debatę przyniosła zmiana nazwy pisma na "Katolik", które jednak ugięło się pod naporem opinii publicznej i po dwóch latach powróciło do swojej pierwotnej nazwy. Gazeta wydawana była nawet po śmierci Derdowskiego, wciąż głosząc jego poglądy aż do 1919 roku. Historia ta to zaledwie streszczenie informacji jakie zawarte są dla tej gazet na stronie Chronicling Amercica, jest to o tyle imponujące że przedstawiona jest tam cała historia dość niszowego pisma i to w dodatku w obcym dla amerykanów języku, co podkreśla nakład prac i staranność z jakim przeprowadzony został ten projekt. Zrzut ekranu ze strony z informacjami na temat pisma "Katolik" przedstawiony został ponieżej. Dla każdej gazety istnieje też możliwość pobrania transkryptu, jednakże jak nie trudno zauważyć w tym przypadku jakościowo nie należy on do najlepszych. Możliwe jest jednak zrozumienie sensu przewodniego prezentowanej treści, co jest już i tak dużym sukcesem zważając na to, że polsko języczne treści to zaledwie mikroskopijna część zbioru i nie są one zbiorem docelowym, a jedynie dodatkiem wzbogacającym bujną historie amerykańskiego piśmiennictwa \cite{Humanities2022Jun_ca_katol}.
\clearpage
\begin{figure}[h!]
\centering
\includegraphics[width=0.85\textwidth]{stron_info_katol.png}
\caption{Strona informacyjna dla czasopisma "Katolik" \cite{Humanities2022Jun_ca_katol}}
\end{figure}
Strona Chronicling America nie oferuje jednak dostępu do żadnych statystyk związanych ze skolekcjonowanym zbiorem, dlatego aby uniknąć żmudnego ręcznego zapisywania liczebności wynikła potrzeba skorzystania z technik web scraping'u, dzięki temu zostały pozyskane takie dane jak rozkład liczebności stron gazet ze względu na lata wydawania czy region z którego pochodzą.
\newline
\begin{figure}[h!]
\centering
\includegraphics[width=0.87\textwidth]{strony_per_year.png}
\caption{Liczba wszystkich skolekcjonowanych stron gazet w repozytorium Chronicling America w rozbiciu na lata ich wydawania}
\end{figure}
Powyższy wykres przedstawia liczebność skolekcjonowanych obrazów stron poszczególnych gazet ze względu na lata w których je wydawano. Jak nie trudno zauważyć najstarsze okazy charakteryzują się bardzo znikomą liczebnością. Dla trzech pierwszych lat (1777-1779), spośród obejmowanych przez projekt Chronicling America dat, zbiór zdigitalizowanych stron gazet wynosi zaledwie 316 obrazów. Kolejne 9 lat (1780-1788) to z kolei brak jakichkolwiek materiałów, co wydaje się być dość zrozumiałe ze względu na burzliwą historie Stanów Zjednoczonych i panujące w tych latach walki o niepodległość, a także jej późniejszą formalizacje. Największa ilość publikacji jaka została skolekcjonowana w ramach projektu pochodzi z lat 1908-1921, ta liczba wynosi aż 6,876,837 stron co stanowi 35\% całości zbiorów. Jest to o tyle ciekawe, że spodziewać by się można było tendencji wzrostowej przez cały zakres dat jeżeli chodzi o liczbę skatalogowanych materiałów, a z danych ewidentnie wynika, że po 1921 roku zauważalny jest drastyczny spadek ich ilości.
\newline
\begin{figure}[h!]
\centering
\includegraphics[width=0.85\textwidth]{gazety_per_terytorium.png}
\caption{Liczba wszystkich skolekcjonowanych gazet w repozytorium Chronicling America w rozbiciu na poszczególne obszary}
\end{figure}
Na wykres przedstawionym powyżej zaprezentowana została liczebność gazet jakie zostały skolekcjonowane w ramach Chronicling America do których dostęp możliwy jest z wykorzystaniem przedstawianego interfejsu. Jak widzimy na samym szycie plasuje się stan Virginia, który to dysponuje zbiorem 125 tysięcy gazet przeznaczonych do digitalizacji w ramach projektu. Tuż za nim znajduje się District od Columbia, co jest w pełni zrozumiałe ze względu na jego główną siedzibę, Waszyngton, jednocześnie będący stolicą Stanów Zjednoczonych, choć i tak dziwić może fakt, że nie znajduje się on na miejscu pierwszym. Szczególne zainteresowanie wzbudza jedna pozycja w tym rankingu, a mianowicie pozycja ostatnia "Piedmont". Pomimo, że na stronie w opcji filtrowania mamy dostępne filtrowanie po stanach, to znalazły się tutaj też miejsca takie jak Puerto Rico czy Wyspy Dziewicze (z ang. Virgin Islands) i wspomniany wcześniej, zamykający ranking z zaledwie 773 zdigitalizowanymi pozycjami, Piedmont. Jest to o tyle zaskakujące, że nie jest to ani stan ani terytorium zależne, jak chociażby Wyspy Dziewicze, a jest to region płaskowyżu położony we wschodnich Stanach Zjednoczonych rozciągający się od Nowego Jorku na północy do środkowej Alabamy na południu. Nie sposób jednak znaleźć informacji z jakich pobudek miejsce to znalazło się w listingu "stanów" w opcji filtrowania i czy aby na pewno jest to poprawne miejsce, a nie swego rodzaju niedopatrzenie.
\clearpage
\begin{figure}[h!]
\centering
\includegraphics[width=1\textwidth]{strony_per_terytorium.png}
\caption{Liczba wszystkich skolekcjonowanych stron gazet w repozytorium Chronicling America w rozbiciu na poszczególne obszary}
\end{figure}
Dla porządku wykres przedstawiający już niecałe gazety w rozbiciu na miejsce pochodzenia lecz pojedyncze strony posiada dokładnie tą samą kolejność co poprzedni. Jak widzimy poniżej w tym zestawieniu District of Columbia już zdecydowanie nie ma sobie równych. Obrazów pochodzących z tamtego regionu skatalogowane w ramach projektu dla tego stanu w repozytroium znajduje sie zawrotna liczba 1,835,519, która stanowi 10\% całości zbioru. To dwukrotnie więcej niż drugi w tym zestawieniu stan Nowy Jork. W tym wypadku Virginia uplasowała się dopiero na pozycji trzeciej. Stawkę ponownie zamyka Piedmont w ramach którego dostępne jest jedynie 32,120 pojedynczych stron gazet.
\clearpage
Z ramienia Chronicling America narodził się kolejny projekt, który stanowi następny krok w stronę pełnej cyfryzacji posiadanych treści. Projekt ten nazywa się Newspaper Navigator, a jego celem było dołożyć kolejną cegiełkę do już i tak mocno rozbudowanych możliwości przeszukiwania skolekcjonowanych zbiorów, a mianowicie rozpoznawania znajdujących się w nich konkretnych rodzajów elementów, głównie będących różnego rodzaju obrazami. Opisowi Newspaper Navigator w pełni poświęcony został następny podrozdział.
\section{Opis podejścia Newspaper Navigator}
Newspaper navigator oddzielny podrozdział po płynnym przejściu z Chronicling America
Kto zrobił, w jaki sposób, dlaczego w ogóle powstał taki projket na bazie zbiorów Chronicling America, przykładowe obrazki, dane statystyczne, performance modelu i opis całego podejścia.
https://news-navigator.labs.loc.gov/ <- strona NN
https://arxiv.org/abs/2005.01583 <- paper NN
W zależności jak mocno technicznie wejdę tutaj tak może być potrzeba wrzucenia tego rozdziału o sieciach jednak jako drugi i chyba faktycznie tak jest słuszniej

View File

@ -2,4 +2,7 @@
% !TeX spellcheck = pl_PL % !TeX spellcheck = pl_PL
\chapter{Dane - opis i charakterystyka} \chapter{Eksperyment na podstawie danych Newspaper Navigator}
Cały opis mojego podejścia, a także
eksperymenty, ewaluacja i analiza (co robi dobrze model, co robi źle)

View File

@ -1,8 +0,0 @@
% !TeX encoding = UTF-8
% !TeX spellcheck = pl_PL
\chapter{Opis mojego podejścia}
Cały opis mojego podejścia, a także
eksperymenty, ewaluacja i analiza (co robi dobrze model, co robi źle)

View File

@ -85,8 +85,6 @@ Tu możesz umieścić swoją dedykację.
\clearpage \clearpage
\input{chapter4} \input{chapter4}
\clearpage \clearpage
\input{chapter5}
\clearpage
\bibliographystyle{unsrt} \bibliographystyle{unsrt}
\bibliography{bibliography} \bibliography{bibliography}

BIN
pdf_katolik.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 1.2 MiB

BIN
polish_ca.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 1.5 MiB

BIN
stron_info_katol.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 674 KiB

BIN
strony_per_year.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 2.1 MiB

BIN
trans_katolik.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 208 KiB