Update on Overleaf.

This commit is contained in:
Alex Drożdż 2022-05-14 01:17:56 +00:00 committed by node
parent 4ecc68a7c5
commit 48070ff0c2
8 changed files with 257 additions and 15 deletions

View File

@ -1,6 +1,178 @@
% here the bibliographic entry for the paper itself should be given, % here the bibliographic entry for the paper itself should be given,
% used for generating declarations % used for generating declarations
@article{verma2009digital,
title={Digital Libraries: Definitions, Issues and Challenges in Modern Era},
author={Verma, Naresh Chandra and Dominic, J},
journal={Journal of Lib. Inf. \& comm. Technology Vol},
volume={1},
number={1},
year={2009}
}
@article{Evens2011May,
author = {Evens, Tom and Hauttekeete, Laurence},
title = {{Challenges of digital preservation for cultural heritage institutions}},
journal = {Journal of Librarianship and Information Science},
volume = {43},
number = {3},
pages = {157--165},
year = {2011},
month = may,
issn = {0961-0006},
publisher = {SAGE Publications Ltd},
doi = {10.1177/0961000611410585}
}
@misc{Panezi2014Oct,
author = {Panezi, Argyri},
title = {{Legal Challenges For Online Digital Libraries}},
year = {2014},
month = oct,
note = {[Online; accessed 13. May 2022]},
doi = {10.2139/ssrn.3441842}
}
@misc{Shehu2016Feb,
author = {Shehu, Mohammed},
title = {{Digitizaton of Library Materials In Academic Libraries: Issues for Consideration}},
year = {2016},
month = feb,
note = {[Online; accessed 13. May 2022]},
doi = {10.2139/ssrn.2748474}
}
@misc{cleveland1998digital,
title={Digital libraries: definitions, issues and challenges},
author={Cleveland, Gary},
year={1998},
publisher={IFLA, Universal dataflow and telecommunications core programme}
}
@article{Isfandyari-Moghaddam2008Nov,
author = {Isfandyari-Moghaddam, Alireza and Bayat, Behrooz},
title = {{Digital libraries in the mirror of the literature: issues and considerations}},
journal = {Electronic Library},
volume = {26},
number = {6},
pages = {844--862},
year = {2008},
month = nov,
publisher = {Emerald Group Publishing Limited},
doi = {10.1108/02640470810921628}
}
@article{mithe2013optical,
title={Optical character recognition},
author={Mithe, Ravina and Indalkar, Supriya and Divekar, Nilam},
journal={International journal of recent technology and engineering (IJRTE)},
volume={2},
number={1},
pages={72--75},
year={2013},
publisher={Citeseer}
}
@misc{PatrickFarley2022May,
author = {PatrickFarley},
title = {{Co to jest optyczne rozpoznawanie znak{\ifmmode\acute{o}\else\'{o}\fi}w? - Azure Cognitive Services}},
year = {2022},
month = may,
note = {[Online; accessed 11. May 2022]},
url = {https://docs.microsoft.com/pl-pl/azure/cognitive-services/computer-vision/overview-ocr}
}
@incollection{Srihari2003Jan,
author = {Srihari, Sargur N. and Shekhawat, Ajay and Lam, Stephen W.},
title = {{Optical character recognition (OCR)}},
booktitle = {{Encyclopedia of Computer Science}},
pages = {1326--1333},
year = {2003},
month = jan,
isbn = {978-047086412},
publisher = {John Wiley and Sons Ltd.},
address = {Chichester, England, UK},
doi = {10.5555/1074100.1074664}
}
@book{Westover2012,
author = {Westover, T.},
title = {{Auraria}},
year = {2012},
isbn = {978-0-98497480-1},
publisher = {QW Publishers},
url = {https://books.google.pl/books?id=dYJIYhopOZcC&printsec=frontcover&hl=pl&source=gbs_ge_summary_r&cad=0#v=twopage&q&f=false}
}
@article{Jones2011Apr,
author = {Jones, Edgar},
title = {{Google Books as a General Research Collection}},
journal = {Libr. Resources Tech. Serv.},
volume = {54},
number = {2},
pages = {77--89},
year = {2011},
month = apr,
issn = {2159-9610},
url = {https://www.journals.ala.org/index.php/lrts/article/view/5108/6199}
}
@book{corrado2017digital,
title={Digital preservation for libraries, archives, and museums},
author={Corrado, Edward M and Sandy, Heather Moulaison},
year={2017},
publisher={Rowman \& Littlefield}
}
@article{hedstrom1997digital,
title={Digital preservation: a time bomb for digital libraries},
author={Hedstrom, Margaret},
journal={Computers and the Humanities},
volume={31},
number={3},
pages={189--202},
year={1997},
publisher={Springer}
}
@article{Alasem2009Jan,
author = {Alasem, Abdurrahman},
title = {{An Overview of xn--eGovernment-xf3f Metadata Standards and Initiatives based on Dublin Core}},
journal = {EJEG},
volume = {7},
number = {1},
pages = {pp1-10},
year = {2009},
month = jan,
issn = {1479-439X},
url = {https://academic-publishing.org/index.php/ejeg/article/view/485}
}
@misc{BibEntry2022May_metada_books,
title = {{OA Books Toolkit}},
year = {2022},
month = may,
note = {[Online; accessed 8. May 2022]},
url = {https://oabooks-toolkit.org/lifecycle/14788396-research-is-reused/article/4859829-metadata}
}
@misc{BibEntry2022May_metada,
title = {{What is metadata? - Castor Blog}},
year = {2022},
month = may,
note = {[Online; accessed 8. May 2022]},
url = {https://www.castordoc.com/blog/what-is-metadata}
}
@misc{ContributorstoWikimediaprojects2022Apr,
author = {{Contributors to Wikimedia projects}},
title = {{Metadata - Wikipedia}},
year = {2022},
month = apr,
note = {[Online; accessed 8. May 2022]},
url = {https://en.wikipedia.org/w/index.php?title=Metadata&oldid=1084575692}
}
@book{bulow2011preparing, @book{bulow2011preparing,
title={Preparing collections for digitization}, title={Preparing collections for digitization},
author={B{\"u}low, Anna and Ahmon, Jess and Spencer, Ross}, author={B{\"u}low, Anna and Ahmon, Jess and Spencer, Ross},

View File

@ -1,5 +1,4 @@
% !TeX spellcheck = pl_PL % !TeX spellcheck = pl_PL
\chapter{Problematyka digitalizacji treści archiwalnych} \chapter{Problematyka digitalizacji treści archiwalnych}
\section{Zagadnienie digitalizacji archiwalnych dokumentów i cyfrowej biblioteki} \section{Zagadnienie digitalizacji archiwalnych dokumentów i cyfrowej biblioteki}
@ -61,28 +60,94 @@ Sam wybór pozycji które mogą w danym momencie zostać zdigitalizowane nie jes
Kolejnym etapem procesu digitalizacji jest pozyskiwanie obrazu dzieł, które zostały wybrane podczas poprzednio omawianego procesu selekcji. Etap ten jest sercem całego procesu. Do przechwytywania obrazu używa się skanerów, aparatów cyfrowych lub specjalnych konwerterów analogowo-cyfrowych, które przekształcają analogowe wersje książek, czy dokumentów w sygnały cyfrowe. Proces ten może być wykonywany wewnętrznie lub zlecony wykwalifikowanej w kwestii digitalizacji firmie komercyjnej. Najważniejszym elementem tego procesu jest dokładne odzwierciedlenie analogowej wersji materiałów źródłowych i ich zgodność z pierwotnymi założeniami procesu \cite{xie2016discover}. Kolejnym etapem procesu digitalizacji jest pozyskiwanie obrazu dzieł, które zostały wybrane podczas poprzednio omawianego procesu selekcji. Etap ten jest sercem całego procesu. Do przechwytywania obrazu używa się skanerów, aparatów cyfrowych lub specjalnych konwerterów analogowo-cyfrowych, które przekształcają analogowe wersje książek, czy dokumentów w sygnały cyfrowe. Proces ten może być wykonywany wewnętrznie lub zlecony wykwalifikowanej w kwestii digitalizacji firmie komercyjnej. Najważniejszym elementem tego procesu jest dokładne odzwierciedlenie analogowej wersji materiałów źródłowych i ich zgodność z pierwotnymi założeniami procesu \cite{xie2016discover}.
\newline \newline
Następne punkty procesu związane są głównie z pojęciem metadanych. \begin{figure}[h!]
\centering
\includegraphics[width=1.0\textwidth]{metadan.png}
\caption{Wizualizacja czym w rzeczywistości mogą być metadane}
\end{figure}
DALEJ OPISYWAĆ TO CO TAM WYPUNKTOWANE WYŻEJ Z [9] Następne punkty procesu związane są głównie z pojęciem metadanych. Na wstępnie pozwolę sobie wytłumaczyć samo to pojęcie w ogólnym rozumieniu, aby następnie móc szerzej opisać jego znaczenie w procesie digitalizacji treści. Metadane definiuje się jako dane dostarczające informacji o jednym lub kilku aspektach danych; służą one do podsumowania podstawowych informacji o danych, co może ułatwić śledzenie i pracę z konkretnymi danymi. Najprościej mówiąc metadane są to takie dane, które opisują inne dane. Doskonałym przykładem są zdjęcia. Tak jak zostało to zaprezentowane na powyższej rycinie obraz w tym wypadku to dane (macierze z wartościami pikseli), a wszystkie dodatkowe informacje, takie jak nazwa pliku, autor, data utworzenia, rozdzielczość, lokalizacja, które właśnie opisują dany obraz to metadane. Z kolei w przypadku dokumentu tekstowego metadane mogą zawierać informacje o tym, jak długi jest dokument, kto jest jego autorem, kiedy został napisany, krótkie streszczenie dokumentu, a także słowa kluczowe powiązane z zawartością \cite{ContributorstoWikimediaprojects2022Apr}. Metadane są następnie przekazywane podmiotom uczestniczącym w łańcuchu publikacji książek, takim jak dostawcy usług, badacze, fundatorzy, bibliotekarze, czy kuratorzy danych \cite{BibEntry2022May_metada_books}. Metadane mogą być przechowywane i zarządzane w bazie danych, często nazywanej rejestrem metadanych lub repozytorium metadanych. Jednak bez kontekstu i punktu odniesienia identyfikacja metadanych na podstawie samego ich oglądania może okazać się niemożliwa \cite{ContributorstoWikimediaprojects2022Apr}. Istnieje wiele standardów metadanych, ale jeśli chodzi o cyfrowe biblioteki powszechnie używanym jest standard Dublin Core. Proste metadane zgodne ze standardem Dublin Core składają się z 15-stu elementów, które przedstawia poniższa tabela \cite{Alasem2009Jan}.
\newline \newline
Istnieje również pojęcie masowej cyfryzacji czyli czegoś więcej aniżeli tylko projektu na dużą skalę jak np. digitalizacja kilku bibliotek miejskich zlecona przez władze danego miasta. Jest to digitalizacja materiałów na skalę przemysłową. Innymi słowy oznacza to przekształcanie całych bibliotek bez dokonywania selekcji poszczególnych materiałów z czym mamy do czynienia w przypadku pojedynczych instytucji. Celem masowej digitalizacji nie jest tworzenie wybranych kolekcji dzieł czy dokumentów, ale digitalizacja wszystkiego, czyli np. każdej książki, jaka kiedykolwiek została wydrukowana. Aby zrobić to efektywnie, masowa digitalizacja opiera się na wydajnym fotografowaniu książek strona po stronie i poddawaniu tych obrazów działaniu omówionego wcześniej oprogramowania do optycznego rozpoznawania znaków (OCR) w celu uzyskania tekstu, który można bez przeszkód przeszukiwać. Ludzki czynnik podczas masowej digitalizacji jest ograniczany do absolutnego minimum. Na samą myśl o masowej digitalizacji do głowy nasuwają się globalni liderzy technologiczni tacy jak Google. Celem tej korporacji jest zdigitalizowanie jak największej ilości książek znajdujących się w światowych bibliotekach i księgarniach. Gigant, który rozwija swoją usługę Google Books pozwala w niej na przeszukiwanie materiałów z możliwością podglądu kontekstu wyszukiwanych haseł. \cite{COYLE2006641} \begin{center}
\begin{table}[h]
\centering
\begin{tabular}{|m{2.5cm}|m{8cm}|} \hline
\textbf{Element} & \textbf{Definicja} \\ [0.5ex] \hline\hline
\textbf{Tytuł} & Nazwa nadana zasobowi \\ \hline
\textbf{Temat} & Temat zawartości zasobu \\ \hline
\textbf{Opis} & Opis zawartości zasobu \\ \hline
\textbf{Typ} & Charakter lub gatunek zawartości zasobu \\ \hline
\textbf{Źródło} & Odniesienie do zasobu, z którego pochodzi niniejszy zasób \\ \hline
\textbf{Relacja} & Odniesienie do zasobu powiązanego \\ \hline
\textbf{Zasięg} & Zasięg lub zakres zawartości zasobu \\ \hline
\textbf{Twórca} & Jednostka odpowiedzialna za wytworzenie zawartości zasobu \\ \hline
\textbf{Wydawca} & Jednostka odpowiedzialna za udostępnienie zasobu \\ \hline
\textbf{Współtwórca} & Osoba odpowiedzialna za wniesienie wkładu w zawartość zasobu \\ \hline
\textbf{Prawa} & Informacje o prawach posiadanych w zasobie i nad zasobem \\ \hline
\textbf{Dane} & Dane związane ze zdarzeniem w cyklu zasobu \\ \hline
\textbf{Format} & Fizyczna lub cyfrowa manifestacja zasobu \\ \hline
\textbf{Identyfikator} & Jednoznaczne odniesienie do zasobu w danym kontekście \\ \hline
\textbf{Język} & język (języki), w którym zapisana jest intelektualna zawartość zasobu \\ \hline
\end{tabular}
\end{table}
\end{center}
A TERAZ TUTAJ JESZCZE BARDZIEJ OPISAĆ GOOGLE BOOKS + SCREENY FUNKCJONALNOŚCI ŻEBY TROCHE ZWIĘKSZYĆ OBJĘTOŚĆ Po skompletowaniu metadanych zarówno one jak i pozyskane obrazy zostają umieszczone w systemie zarządzania biblioteką cyfrową, który został już opisany we wcześniejszym podrozdziale. Dokumenty znajdujące się już w systemie podobnie jak dokumenty fizyczne również podlegają konserwacji. Cyfrowa konserwacja to przede wszystkim nowe wyzwania przed bibliotekami i archiwami cyfrowymi, które i tak już borykały się z koniecznością tradycyjnej (fizycznej) konserwacji książek, czy dokumentów. Konserwację cyfrową można definiować jako planowanie i alokację zasobów oraz zastosowanie metod i technik konserwatorskich niezbędnych do zapewnienia, aby informacje cyfrowe o trwałej wartości pozostały dostępne dla użytkowników przez bardzo długi czas \cite{hedstrom1997digital}. Pierwszą myślą odnośnie cyfrowej konserwacji jest bez wątpienia tworzenie regularnych kopii zapasowych, czy migracji danych, jednak myślenie że dotyczy ona wyłącznie tych pojęć jest błędne. Kopie zapasowe są doskonałą odpowiedzią na krótkoterminowe ryzyko związane z awarią nośników cyfrowych. Jeśli są one wykonane prawidłowo, to są w stanie zapewnić ochronę strumienia bitów ale nie rozwiązują takich problemów jak przestarzałe formaty plików, kwestie prawne oraz autentyczności i pewnego źródła pochodzenia. Kopie zapasowe mogą chronić dane przed przypadkowym usunięciem, przypadkowymi zmianami, działaniem wirusów i hakerów oraz katastrofami, takimi jak powodzie i pożary. Głównym problemem są zmiany technologiczne, starsze kopie cyfrowe mogą stać się nie możliwe do przeczytania przez dane oprogramowanie czy sprzęt, ponieważ ich nowsze wersje mogą nie być przystosowywane do odczytu przestarzałych plików. Ważne jest aby zasoby były regularnie aktualizowane do odpowiednich formatów, a także aby dostęp do nich był nadzorowany, szczególnie jeśli mowa tu o plikach źródłowych których pochodne trafiają później do cyfrowych bibliotek, gdzie dostępne są dla szerokiego grona odbiorców. Podsumowując, długoterminowa konserwacja nie odnosi się do pojęcia kopii zapasowych (konserwacja krótkoterminowa), długoterminowa konserwacja to przede wszystkim uodpornienie zbiorów na zmiany technologiczne \cite{corrado2017digital}.
OPIS GOOGLE BOOKS NP. TUTAJ https://www.journals.ala.org/index.php/lrts/article/view/5108/6199
\newline \newline
SZKIC PODROZDZIAŁU: Istnieje również pojęcie masowej cyfryzacji czyli czegoś więcej aniżeli tylko projektu na dużą skalę jak np. digitalizacja kilku bibliotek miejskich zlecona przez władze danego miasta. Jest to digitalizacja materiałów na skalę przemysłową. Innymi słowy oznacza to przekształcanie całych bibliotek bez dokonywania selekcji poszczególnych materiałów z czym mamy do czynienia w przypadku pojedynczych instytucji. Celem masowej digitalizacji nie jest tworzenie wybranych kolekcji dzieł czy dokumentów, ale digitalizacja wszystkiego, czyli np. każdej książki, jaka kiedykolwiek została wydrukowana. Aby zrobić to efektywnie, masowa digitalizacja opiera się na wydajnym fotografowaniu książek strona po stronie i poddawaniu tych obrazów działaniu omówionego wcześniej oprogramowania do optycznego rozpoznawania znaków (OCR) w celu uzyskania tekstu, który można bez przeszkód przeszukiwać. Ludzki czynnik podczas masowej digitalizacji jest ograniczany do absolutnego minimum. Na samą myśl o masowej digitalizacji do głowy nasuwają się globalni liderzy technologiczni tacy jak Google. Celem tej korporacji jest zdigitalizowanie jak największej ilości książek znajdujących się w światowych bibliotekach i księgarniach. Gigant, który rozwija swoją usługę Google Books pozwala w niej na przeszukiwanie materiałów z możliwością podglądu kontekstu wyszukiwanych haseł \cite{COYLE2006641}. Jeśli chodzi o Google to wszystko zaczęło się w 2004 roku, kiedy to światowy gigant ogłosił współprace z pięcioma dużymi amerykańskimi bibliotekami. W skład tej piątki wchodziła Nowojorska Biblioteka Publiczna oraz biblioteki uniwersytetów Harvard, Michigan, Oxford i Uniwersytetu Stanforda. Biblioteki miały wyłączne prawo wyboru pozycji, które zostaną przez firmę z Kalifornii zdigitalizowane, a także otrzymały ich cyfrowe kopie na własny użytek. Konkurencja dla Google'a okazała się być krótkotrwałą, Microsoft który tuż po Google'u rozpoczął prace nad własnym projektem digitalizacji we współpracy z Internet Archive zakończył swoje działania już w 2008 roku. Zebrana jednak przez nich w tym czasie kolekcja może budzić podziw, gdyż udało im się poddać procesowi cyfryzacji aż 750 tysięcy woluminów \cite{Jones2011Apr}. Na poniższych zrzutach ekranu znajduje się przykładowy widok książki dostępnej w cyfrowej bibliotece Google, wraz z najważniejszą funkcjonalnością jaką oferuje, czyli możliwością przeszukiwania interesujących fraz w tekście.
fajnje by bylo zaczac od tego jak nasteuje wgl selekcja \newline
Masowe skanowanie + OCR + pozyskiwanie metadanych [standard: dublin core] + hand writing recognition
\begin{figure}[h!]
\centering
\includegraphics[width=1\textwidth]{google_books.png}
\caption{Podgląd wybranej pozycji w usłudze Google Books \cite{Westover2012}}
\end{figure}
\clearpage
\begin{figure}[h!]
\centering
\includegraphics[width=1\textwidth]{google_books_search.png}
\caption{Podgląd przeszukiwania tekstu wybranej pozycji w usłudze Google Books \cite{Westover2012}}
\end{figure}
Swobodne przeszukiwanie publikacji udostępnionych w ramach usługi Google Books jest możliwe dzięki zastosowaniu technik OCR, czyli optycznego rozpoznawanie znaków (z ang. Optical Character Recognition). OCR można zdefiniować jako proces przekształcania obrazów cyfr, liter i innych symboli drukowanych maszynowo lub pisanych odręcznie na format możliwy do zrozumienia przez komputer. Długa historia badań w tej dziedzinie w tej dziedzinie, sukces komercyjny oraz ciągła potrzeba i możliwość obsługi mniej ograniczonych form tekstu czynią OCR jednym z najważniejszych obszarów zastosowań uczenia maszynowego. \cite{Srihari2003Jan}
\newline
\begin{figure}[h!]
\centering
\includegraphics[width=0.95\textwidth]{ocr_scheme.png}
\caption{Schemat działania OCR \cite{PatrickFarley2022May}}
\end{figure}
Na powyższym schemacie zaobserwować możemy etapy działania OCR, od momentu zeskanowania, aż po przygotowany plik JSON z zawartością przetwarzanego obrazu. Optyczne rozpoznawanie znaków umożliwia konwersję różnych różnych typów dokumentów, takich jak zeskanowane dokumenty papierowe, pliki PDF lub obrazy zarejestrowane przez aparat cyfrowy na dane ,które później można edytować i przeszukiwać. Warto podkreślić, że obrazy przechwycone przez aparat cyfrowy różnią się od zeskanowanych dokumentów lub obrazów. Mają one często przeróżne wady takie jak zniekształcenia na krawędziach i źle dopasowane światło, co utrudnia większości aplikacji OCR prawidłowe rozpoznanie tekstu. Na proces jaki przeprowadza OCR przejść składają się trzy etapy. Pierwszym z nich to segmentacja, tzn. identyfikacja poszczególnych glifów, które są podstawowymi jednostkami reprezentującymi jeden lub więcej znaków zazwyczaj przylegających do siebie, na podstawie binarnego obrazu wejściowego. Drugim krokiem jest ekstrakcja cech, czyli wyliczenie z każdego glifu wektora liczb, które posłużą jako cechy wejściowe dla sztucznej sieci neuronowej. Ostatnim zadaniem jest klasyfikacja konkretnych wystąpień słów \cite{mithe2013optical}.
\section{Wyzwania i problemy digitalizacji} \section{Wyzwania i problemy digitalizacji}
Digitalizacja zasobów danego podmiotu to jednak nie tylko pozytywne strony, to również przedsięwzięcie, które wymaga zmierzenia się z wieloma wyzwaniami i potencjalnymi problemami. \cite{pandey2014digitization} Digitalizacja zasobów danego podmiotu to jednak nie tylko pozytywne strony, to również przedsięwzięcie, które wymaga zmierzenia się z wieloma wyzwaniami i potencjalnymi problemami. Pierwszym problemem z jakim borykać się mogą cyfrowe biblioteki to odpowiednio wykwalifikowani nowocześni bibliotekarze, którzy pomimo posiadania typowych i tradycyjnych dla tego zawodu umiejętności powinni również dysponować technicznym zapleczem niezbędnym do korzystania i utrzymywania zasobów bibliotek cyfrowych, a nawet ich projektowania. Można wyróżnić aż kilkanaście nowych umiejętności, które z racji cyfrowych transformacji bibliotek są lub będą pożądane pośród nowej fali pracowników bibliotecznych. Te cechy to:
stąd też \cite{xie2016discover} \begin{itemize}
\item[$\bullet$] umiejętność korzystania z komputera i sieci,
\item[$\bullet$] formułowanie strategii przeszukiwania zbiorów,
\item[$\bullet$] poradnictwo i edukacja użytkowników,
\item[$\bullet$] integracja zasobów sieciowych,
\item[$\bullet$] katalogowanie i porządkowanie informacji cyfrowych,
\item[$\bullet$] projektowanie interfejsów użytkownika i portali,
\item[$\bullet$] ewaluacja stron internetowych,
\item[$\bullet$] umiejętność zarządzania projektami,
\item[$\bullet$] języki znaczników, przede wszystkim XML,
\item[$\bullet$] technologie internetowe,
\item[$\bullet$] e-metryki i sposoby oceny bibliotek cyfrowych,
\item[$\bullet$] wiedza i umiejętność obsługiwania baz danych,
\item[$\bullet$] zarządzanie e-publikacjami,
\item[$\bullet$] analiza i interpretacja informacji,
\item[$\bullet$] wiedza z zakresu architektury informacji.
\end{itemize}
\section{Opis projektu "Chronicling America"} To pokazuje, że nowocześni bibliotekarze mający do czynienia z usługami cyfrowymi nie mogą ograniczać się tylko do wiedzy z zakresu jednej dziedziny. Sama wiedza dotycząca bibliotekoznawstwa nie jest już wystarczająca, nowi pracownicy powinni łączyć ją z wiedzą z zakresu informatyki, znajomością pewnych specyficznych technologii, czy teorii informacji. Jak nie trudno się domyślić znalezienie tak specyficznie wykwalifikowanego personelu pracowniczego jest nie lada wyzwaniem dla każdej biblioteki decydującej się na cyfryzacje swoich zbiorów \cite{Isfandyari-Moghaddam2008Nov}.
\newline
Jeszcze nie opis Newspapers navigator'a tylko całego dużego projketu digitalizacji treści z bibliotek na którym się on opierał Kolejnym wyzwaniem z jakim muszą mierzyć się przechodzące transformacje cyfrowe biblioteki to problemy prawne. Przede wszystkim przy wyborze dzieł do digitalizacji należy zwrócić uwagę na ich status prawny. Własność fizyczna danej pozycji nie oznacza, że dana instytucja posiada prawa do jej reprodukcji. Aby móc myśleć o digitalizacji niezbędnym jest uzyskanie na nią zgody, która będzie zgodna z obowiązującymi prawami autorskimi, a także odpowiednie zabezpieczenie zasobów cyfrowych co wiąże się z dodatkowymi kosztami \cite{pandey2014digitization}. Dwa główne prawa majątkowe, które prawo autorskie przyznaje podmiotom praw autorskich, to prawo do zwielokrotniania (czyli prawo do do sporządzania kopii) oraz prawo do rozpowszechniania (czyli prawo do rozpowszechniania kopii) \cite{Panezi2014Oct}. Nie bez powodu prawa autorskie określa się jako najbardziej dokuczliwa bariera w rozwoju bibliotek cyfrowych. Obiekty cyfrowe są łatwe do skopiowania i dostępne jednocześnie dla wielu użytkowników. Stanowi to nie mały problemem w kontekście praw autorskich, które w tym wypadku są bardzo łatwe do złamania nawet na późniejszych etapach, już nie tylko przez biblioteki, ale chociażby przez samych ich użytkowników. Przeważnie wykupienie danej książki od wydawcy zwalnia z dalszej kontroli praw autorskich, jednakże biblioteki, przeciwnie do prywatnych firm, w większości nie są właścicielami oferowanych pozycji, a jedynie ich opiekunami i nie posiadają praw autorskich do przechowywanych przez siebie materiałów \cite{cleveland1998digital}. Wśród członków społeczności bibliotekarskiej stopniowo narasta niepokój związany właśnie z tym wyzwaniem, twierdzą oni iż napotkane problemy będą miały zdecydowany wpływ na możliwości bibliotek do udostępniania zbiorów i świadczenia usług internetowych. W 2010 r. szacowano, że dwadzieścia trzy procent istniejących książek powstało przed 1923 r., a więc nie są one objęte prawami autorskimi. Spośród tych, które wydrukowano po tej dacie, tylko pięć procent było nadal w druku w 2010 roku. Tak więc, około siedemdziesiąt dwa procent książek nie było dostępnych dla szerszej publiczności \cite{Shehu2016Feb}. Jednym ze sposobów na możliwość udostępnienia dzieła, które znajduje się jedynie pod opieką biblioteki, a do którego nie posiada ona żadnych praw autorskich jest wynegocjowanie z wydawcami jasnych warunków licencjonowania \cite{Panezi2014Oct}. Kolejną barierę prawną w przypadku ochrony zasobów cyfrowych stanowią tak zwane dzieła osierocone, w przypadku których bardzo trudno jest zidentyfikować lub odszukać osoby roszczące sobie prawa autorskie do danych dzieł. Jeśli nie jest możliwe odnalezienie właścicieli praw autorskich i skontaktowanie się z nimi w celu uzyskania zgody na digitalizacje, będzie ona po prostu najpewniej nie możliwa do wykonania. Proces ustalania praw autorskich jest czynnością czasochłonną i wymagającą dużych zasobów, dlatego instytucje, które podejmują się digitalizacji, najchętniej unikają w procesie selekcji materiały nadal będące pod ochroną praw autorskich. Kwestia ta jest jeszcze bardziej delikatna w przypadku dzieł zbiorowych, przykładowo nagrań spektakli czy sztuk. Wówczas wszyscy ich autorzy tj. reżyserzy, choreografowie, aktorzy, a nawet kostiumolodzy, scenografowie i oświetleniowcy mogą ubiegać się o ochronę praw autorskich. Ze względu na ogromną złożoność prawną wiele dzieł zbiorowych objętych prawami autorskimi nie jest z założenia w ogóle brana pod uwagę przy digitalizacji. Umowy licencyjne negocjowane między podmiotami praw autorskich a instytucjami, takimi jak biblioteki i archiwa, mogą nakładać pewne ograniczenia na dostęp do informacji cyfrowych i sposób ich wykorzystania. Opracowywane są nowe formy licencji otwartego dostępu, w tym licencje Creative Commons, które pozwalają na większą elastyczność w korzystaniu z materiałów chronionych prawem autorskim i mają na celu przeciwdziałanie coraz większemu komercyjnemu zamknięciu cyfrowej sfery publicznej. Licencje otwartego dostępu pozwalają właścicielom praw autorskich na udostępnianie dzieł twórczych mając na uwadze ich możliwe kopiowanie, a także rozpowszechnianie. Dzieje się to poprzez przyznawanie wyjątków (takich jak użycie niekomercyjne) od praw przysługujących im na mocy tradycyjnych praw autorskich. W rzeczywistości takie modele licencji mają na celu rozszerzenie zakresu, który został ograniczony oraz przywrócenie równowagi w przepisach prawa autorskiego w celu maksymalnego otwarcia na dzieła twórcze i naukowe \cite{Evens2011May}.
\newline
W przypadku ochrony materiałów cyfrowych jednym z problemów jest starzenie się technologii, co w dłuższej perspektywie czasowej, w przypadku braku reakcji, może prowadzić do kompletnego utracenie możliwości oglądania danych zbiorów, a co za tym idzie zabicia głównego celu digitalizacji, czyli powszechnego, bezpiecznego i długowiecznego dostępu do danych materiałów. Starzenie się technologii w erze cyfrowej jest porównywalne do niszczenia papieru w epoce papieru. Biblioteki w swojej tradycyjnej formie musiały dbać o takie rzeczy jak kontrola klimatu w pomieszczeniach ze zgromadzonymi zbiorami oraz przykładowo ich odkwaszaniem. Te cyfrowe również muszą odpowiednio dbać o zdigitalizowane dzieła, poprzez nieustanne opracowywania nowych rozwiązań technicznych. W dłuższej perspektywie materiały przechowywane na starszych nośnikach mogą zostać utracone, ponieważ nie będzie już sprzętu ani oprogramowania do ich odczytu. Biblioteki będą więc musiały stale przenosić informacje cyfrowe z nośnika na nośnik lub rozważyć nowoczesne technologie chmurowe, a co za tym idzie zlecić zadanie innemu podmiotowi i dodatkowo przeznaczyć część budżetu na opłacenie zewnętrznego dostawcy pamięci. Zachowaniu dostępu do treści dokumentów, niezależnie od ich formatu to kolejne wyzwanie podchodzące pod problemy natury technicznej związane z cyfrowymi bibliotekami. Jest to problem nawet większy niż w przypadku przestarzałych technologii pamięci masowej, ponieważ przenoszenie plików z jednego przestarzałego fizycznego nośnika na inny nowocześniejszy jest owszem męczące ale nie aż tak ryzykowne. W przypadku reakcji odpowiednio wcześniej i zachowania kopii zapasowych przed procesem przenoszenia treści, wszystko powinno obejść się bez większych problemów. W przypadku przestarzałego formatu pliku sprawa robi się znacznie bardziej skomplikowana. Jednym z rozwiązań jest migracja danych, czyli przetłumaczenie danych z jednego formatu na inny, zachowując zdolność użytkowników do pobierania i wyświetlania treści. Jednak i tu pojawiają się trudności, ponieważ migracja danych jest kosztowna, a ryzyko zniekształcenia lub utraty informacji w trakcie procesu migracji jest praktycznie nieuniknione. \cite{verma2009digital}.

View File

@ -2,4 +2,8 @@
% !TeX spellcheck = pl_PL % !TeX spellcheck = pl_PL
\chapter{Tytuł chapter 2} \chapter{Dane - opis i charakterystyka}
\section{Opis projektu "Chronicling America"}
Opis całego projektu "Chronicling America" i płynne przejście do projektu "Newspaper Navigator".

BIN
google_books.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 772 KiB

BIN
google_books_search.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 735 KiB

BIN
metadan.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 419 KiB

View File

@ -18,6 +18,7 @@
\usepackage{authblk} \usepackage{authblk}
\usepackage[demo]{graphicx} \usepackage[demo]{graphicx}
\usepackage{subfig} \usepackage{subfig}
\usepackage{placeins}
\input{metadata} \input{metadata}

BIN
ocr_scheme.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 104 KiB