msc-drozdz/chapter2.tex

85 lines
13 KiB
TeX
Raw Normal View History

2022-03-19 19:41:58 +01:00
% !TeX encoding = UTF-8
% !TeX spellcheck = pl_PL
2022-06-09 23:52:47 +02:00
\chapter{Digitalizacja treści na podstawie projektu Chronicling America}
2022-03-19 19:41:58 +01:00
2022-06-17 00:29:29 +02:00
\section{Opis projektu Chronicling America}
2022-06-09 23:52:47 +02:00
Projekt Chronicling America został przeprowadzony na terenie Stanów Zjednoczonych, a jego celem było rozpowszechnienie dostępu do zdigitalizowanych treści wśród jak najliczniejszej grupy osób, szczególnie wśród młodego pokolenia Amerykanów, bazę tego projektu stanowiły historyczne amerykańskie gazety. Korzystanie z materiałów zgromadzonych i przetworzonych podczas prac nad tym projektem jest całkowicie darmowe dla wszystkich użytkowników, co potwierdza założenia projektu o rozszerzaniu skali potencjalnych czytelników zasobów biblioteki. Szczególnie, że projekt dotyczy gazet nawet sprzed setek lat, które ze względu na stan i wartość prawdopodobnie nie były by dopuszczone do powszechnego użytku. Chronicling America został stworzony przez organizacje United States National Digital Newspaper (NDNP), która narodziła się dzięki współpracy rządowej agencji National Endowment for the Humanities (NEH) oraz Biblioteki Kongresu \cite{ContributorstoWikimediaprojects2022Feb}. NEH jest niezależną agencją federalną, która jest jednym z największych fundatorów programów humanistycznych w całych Stanach Zjednoczony, a jej historia sięga aż 1965 roku. Aktualnie jej główna działalność opiera się na rozdysponowywaniu grantów na projekty humanistyczne, które jak sami określają promują doskonałość w naukach humanistycznych i przekazują lekcje historii wszystkim Amerykanom. Dotacje NEH są zazwyczaj przyznawane instytucjom kulturalnym, takim jak muzea, archiwa, biblioteki, szkoły wyższe, uniwersytety, publiczne stacje telewizyjne i radiowe, a także indywidualnym naukowcom \cite{BibEntry2022Jun}. Z kolei Bibliotek Kongresu Stanów Zjednoczonych jest największą biblioteką na świecie z główną siedzibą w Waszyngtonie, w stanie District of Columbia, której początek datuje się na 1800 rok. Pełni ona funkcje biblioteki narodowej, jest również głównym ośrodkiem badawczym Kongresu USA, a także siedzibą Biura Praw Autorskich USA. Bibliotek Kongresu może poszczycić się Zbiorami liczącymi ponad 171 milionów pozycji, które obejmują aż 40 milionów skatalogowanych książek i innych materiałów drukowanych w 470 językach, ponad 74 miliony rękopisów, największą kolekcję rzadkich książek w Ameryce Północnej oraz największą na świecie kolekcję materiałów prawnych, filmów, map, nut i nagrań dźwiękowych \cite{BibEntry2022Jun_congres}.
\newline
2022-06-17 00:29:29 +02:00
Podwaliny dla projektu Chronicling America stanowił program znany pod nazwą United States Newspaper Program (USNP) przeprowadzony w latach 1982-2011 również przez agencje National Endowment for the Humanities przy technicznej pomocy Biblioteki Kongresu. Projekt ten miał na celu wyselekcjonowanie, skatalogowanie i zapisanie historycznych gazet wydawanych w Stanach Zjednoczonych od XVIII wieku, a dokładniej 1690 roku, aż do czasów współczesnych w postaci mikrofilmów. USNP zleciło przeprowadzenie projektu w każdym ze stanów, a także w Portoryko i na Wyspach Dziewiczych. Za organizacje odpowiedzialne były konkretne jednostki terytorialne, najczęściej największe stanowe repozytoria gazet. Odpowiedzialne były one między innymi za inwentaryzację zbiorów zawartych głównie w bibliotekach publicznych oraz sądach, biurach prasowych, muzeach, bibliotekach uniwersyteckich, archiwach i towarzystwach historycznych. Rekordy katalogowe zostały wprowadzone do krajowej bazy danych prowadzonej przez Online Computer Library Center (OCLC) i dostępnej na całym świecie poprzez WorldCat, czyli katalog łączący zbiory 71 tysięcy bibliotek ze 112 krajów, co czyni go największą na świecie bibliograficzną bazą danych \cite{BibEntry2022Jun_NEH}.
\newline
Dobre praktyki digitalizacji wymagają aby katalogowane dzieła zawierały opis. Gazety skatalogowane w ramach projektu Chronicling America również posiadają standardowe krótkie opis. To jednak nie wszystko, ponieważ osoby odpowiedzialne za ten projekt poszły o krok dalej. Oprócz klasycznych opisów gazety zawierają również specjalne opisy uzupełniające, zwane esejami tytułowymi (z ang. "title essays"). Są one opracowywane na specjalne zlecenie Chronicling America, a nad ich jakością piecze sprawuje agencja National Endowment of the Humanities, która dokonuje przeglądów sporządzonych prac. Opisy uzupełniające stanowią punkt wyjścia do dalszych badań nad zrozumieniem roli jaką odgrywała dana gazeta wśród swoich czytelników. Wśród elementów jakie znajdują się w esejach tytułowych wyróżnić możemy takie jak na przykład:
\begin{itemize}
\item[$\bullet$] miejsce publikacji,
\item[$\bullet$] daty i harmonogram publikacji (np. co tydzień, codziennie, rano lub wieczorem),
\item[$\bullet$] zasięg geograficzny i nakład,
\item[$\bullet$] przynależność polityczna i religijna,
\item[$\bullet$] powód publikacji,
\item[$\bullet$] cechy i stan fizyczny,
\item[$\bullet$] historia zmian nazw, formatów i praw własności,
\item[$\bullet$] spis wyróżniających się redaktorów, wydawców lub reporterów biorących udział przy jej tworzeniu,
\item[$\bullet$] rodzaje prezentowanych artykułów,
\item[$\bullet$] relacje z innymi okolicznymi wydawnictwami,
\item[$\bullet$] innowacyjność w procesie produkcji.
\end{itemize}
\ \\
Opisy te realizują jeden z najważniejszych celi jakie stawia przed sobą projekt Chronicling America, a mianowicie rozumienie treści jakie prezentują gazety w kontekście czasu i miejsca ich wydawania. Aby to osiągnąć uczestniczące w projekcie instytucje posiadające w tym kontekście interesujące zbiory otrzymują nagrody za wybranie i zdigitalizowanie około 100,000 stron gazet reprezentujących historię regionalną danego stanu, swój zasięg geograficzny oraz interesujące wydarzenia. Proces selekcji jest bardzo dokładny oraz ostrożny i musi być przeprowadzany w kontakcie z innymi podmiotami w celu minimalizacji powtarzających się materiałów, ze względu na duże koszta całego przedsięwzięcia. Biblioteka Kongresu odpowiedzialna była za przygotowanie technicznej specyfikacji przeprowadzania całości tego procesu \cite{Humanities2022Jun}.
\newline
Biblioteka Kongresu odpowiedzialna jest za opracowywanie standardów przeprowadzanych przed uczestników projektu procesów digitalizacyjnych. Dokument w którym przedstawione są wypracowane standardy jest aktualizowany na bieżąco, raz w roku. Aktualna wersja zawiera 67 stron na których szczegółowo opisano podejście do digitalizacji. Na stronie Biblioteki Kongresu można zapoznać się z zarówno aktualnym standardem jak i historycznymi. Cele jakie określiła Biblioteka Kongres to między innymi określenie wspólnego interfejs dostępnego dla każdego potencjalnego użytkownika poprzez sieć WWW za pomocą standardowego protokołu HTTP. Ponadto zadbali oni również o określenie odpowiedniego standardu digitalizacji, aby późniejsze wykorzystanie technologii OCR przebiegało efektywnie, a także o stosowanie formatów cyfrowych o wysokim prawdopodobieństwie trwałości, czy przykładanie szczególnej uwagi na koszty konwersji cyfrowej i konserwacji powstałych w ten sposób zasobów. Obecne podejście opiera się w głównej mierze na kilku kluczowych aspektach. Pierwszym z nich jest to, że obrazy odtwarza się z kopii zachowawczej mikrofilmów, na których są przechowywane pozyskane zdjęcia stron gazet. Pliki zaś przetrzymuje się w formacie TIFF 6.0, czyli w formacie opartym na znacznikach, służącym do przechowywania i wymiany obrazów bitmapowych (rastrowych) \cite{BibEntry2022Jun_tech}. Pozwala on na przechowywanie informacje o kanałach alfa, ścieżkach, profilu kolorów, komentarzach, umożliwia także zapisywanie dokumentów wielostronicowych. Możliwa jest również kompresja w tym kompresja ZIP. Wersja 6.0 jako pierwsza zapewnia również możliwość kompresji do formatu JPEG. \cite{WspoltworcyprojektowFundacjiWikimedia2003Feb}. Jeśli chodzi o jakość tych obrazów to wymagana jest konwersja obrazów w 8-bitowej skali szarości skanowanych z maksymalną możliwą rozdzielczością, która wynosi 300-400 DPI \cite{BibEntry2022Jun_tech}. Wspomniana wcześniej miara DPI (z ang. „dots per inch”) określa liczbę pikseli (ich gęstość) na jeden cal, która reprezentuje jakość przedstawianych obrazów czy wydruków. Na poniższej rycinie wyjaśnione zostało jak w zależności od wartości DPI zmienia się jakoś przedstawianego obrazu czarnej kropki. Jak nie trudno zauważyć im wyższa wartość miary, tym obraz jest dokładniejszy i bardziej wygładzony \cite{BibEntry2022Jun_dpi}.
\begin{figure}[h!]
\centering
\includegraphics[width=0.6\textwidth]{dpi.png}
\caption{Przykład różnych wartości DPI \cite{DuggalVisualSolutions2022Jun}.}
\end{figure}
\ \\
Kolejnymi kluczowymi aspektami, które porusza przygotowany przez Bibliotekę Kongresu dokument to:
\begin{itemize}
\item[$\bullet$] wykorzystanie OCR z ramkami zawierającymi pojedyncze wyrazy, z uwzględnieniem rozpoznawania kolumn na stronie, ale bez segmentacji stron na artykuł,
\item[$\bullet$] opracowanie strukturalnych metadanych dla stron, wydań, edycji i tytułów w celu obsługi interfejsu przeglądania chronologicznego,
\item[$\bullet$] zdeponowanie kopii wszystkich obrazów stron i powiązanych metadanych w zbiorach Biblioteki Kongresu,
\item[$\bullet$] zaimplementowany interfejs zaprojektowany specjalnie dla dostępu do historycznych gazet w domenie publicznej dostępny z ramienia Biblioteki Kongresu umożliwiający wyszukiwanie pełnotekstowe, a także poszczególnych obrazów stron oraz podświetlanie wyszukiwanych słów na obrazach,
\item[$\bullet$] replikowalność podejścia przez każdego uczestnika projektu, tak aby mógł wykorzystywać wytworzone zdigitalizowane treści w innych potrzebnych projektach, jeżeli zajdzie taka potrzeba.
\end{itemize}
\ \\
W dokumencie sporządzono bardzo szczegółowy opis metadanych, jakie mają zostać opracowane. Organizacje biorące udział w projekcie zostały poinstruowane w kontekście prawie 60 pól jakie mogą zostać przez nie wypełnione, z których 26 jest polami obowiązkowymi. Przedstawiona został również dokładna struktura pliku XML w którym mają być one zawarte. Instrukcja zawiera między innymi nazwę opisywanych danych, ich typ, przykład, notatkę z dokładniejszym wytłumaczeniem, czy konkretną ścieżkę w pliku XML w jakiej mają zostać zawarte. Przykładami pól są: oryginalne repozytorium z którego pochodzi dany materiał, wykonawca obsługujący skaner pozyskujący obraz, model takiego skanera, jego oprogramowanie, tytuł materiału, data wydania, format źródłowy, czy wymiary \cite{BibEntry2022Jun_tech}.
\newline
2022-06-09 23:52:47 +02:00
2022-06-17 00:29:29 +02:00
POTEM ZDJĘCIA INTERFEJSU STRONY I PRZYKŁADOWYCH POZYCJI (fajnie by było dać jakieś przykłady polskich gazet), można też dodać krótki opis stąd: \cite{Humanities2022Jun}, tam na dole jest to opisane z jakich języków to jest stworzone itd.
\newline
2022-06-09 23:52:47 +02:00
2022-06-17 00:29:29 +02:00
Na stronie głównej programu Chronicling America (\url{https://chroniclingamerica.loc.gov/newspapers/}) możemy przeczytać, że najwcześniej wydane gazety skolekcjonowane w ramach projektu Chronicling America pochodzą z 1777 roku, a najpóźniejsze zaś z 1963. Na dzień dzisiejszy zbiór ten obfituje w 3,745 historycznych gazet wydawanych na przestrzeni lat, czyli ponad 2,5 miliona egzemplarzy, co łącznie daje 19,706,097 milinów pojedynczych stron skatalogowanych gazet. Liczebność gazet dostępnych do przeglądania z poziomu przeglądarki internetowej w rozbiciu na poszczególne stany prezentuje się następująco:
2022-06-09 23:52:47 +02:00
2022-06-17 00:29:29 +02:00
\begin{figure}[h!]
\centering
\includegraphics[width=1\textwidth]{gazety_per_terytorium.png}
\caption{Liczba wszystkich skolekcjonowanych gazet w repozytorium Chronicling America w rozbiciu na poszczególne obszary}
\end{figure}
2022-06-09 23:52:47 +02:00
2022-06-17 00:29:29 +02:00
OPISAĆ CO WIDAĆ NA WYKESIE
\clearpage
2022-06-09 23:52:47 +02:00
2022-06-17 00:29:29 +02:00
\begin{figure}[h!]
\centering
\includegraphics[width=1\textwidth]{strony_per_terytorium.png}
\caption{Liczba wszystkich skolekcjonowanych stron gazet w repozytorium Chronicling America w rozbiciu na poszczególne obszary}
\end{figure}
2022-06-09 23:52:47 +02:00
2022-06-17 00:29:29 +02:00
OPISAĆ CO WIDAĆ NA WYKESIE
\clearpage
2022-06-09 23:52:47 +02:00
2022-06-17 00:29:29 +02:00
POTEM JAKIEŚ STATYSTYKI PER YEAR I CO TAM JESZCZE MI SIĘ UDA WYMYŚLIĆ
2022-06-09 23:52:47 +02:00
\section{Opis podejście Newspaper navigator}
2022-06-17 00:29:29 +02:00
Newspaper navigator oddzielny podrozdział po płynnym przejściu z Chronicling America
2022-06-09 23:52:47 +02:00
2022-06-17 00:29:29 +02:00
Kto zrobił, w jaki sposób, dlaczego w ogóle powstał taki projket na bazie zbiorów Chronicling America, przykładowe obrazki, dane statystyczne, performance modelu i opis całego podejścia.
2022-06-09 23:52:47 +02:00
https://news-navigator.labs.loc.gov/ <- strona NN
https://arxiv.org/abs/2005.01583 <- paper NN