Zrobiony/poprawiony bootstraping
This commit is contained in:
parent
7371aa39d0
commit
3339af9f87
214
bibliografia.bib
214
bibliografia.bib
@ -1,206 +1,16 @@
|
|||||||
@MISC{Fielding,
|
@ARTICLE{Hearst,
|
||||||
author = {Roy Thomas Fielding},
|
author = {Marti Hearst },
|
||||||
title = {Chapter 5: Representational State Transfer (REST)},
|
title = {Automatic Acquisition of Hyponyms from Large Text Corpora.},
|
||||||
year = {2000},
|
journal = {Proc. of the
|
||||||
howpublished={\url{http://www.ics.uci.edu/~fielding/pubs/dissertation/rest_arch_style.html}}
|
Fourteenth International Conference on Computational Linguistics, Nantes, France.},
|
||||||
}
|
year = {1992}
|
||||||
|
|
||||||
@MISC{SOAP_coverpages,
|
|
||||||
title = {XML {Cover} {Pages} on the history of {SOAP}},
|
|
||||||
note = {Coverpages.org. Ostatnia modyfikacja 2003-07-22},
|
|
||||||
key = {Xml},
|
|
||||||
howpublished={\url{http://xml.coverpages.org/soap.html}}
|
|
||||||
}
|
|
||||||
|
|
||||||
@MISC{EBay,
|
|
||||||
author = {Nick Wingfield},
|
|
||||||
title = {{EBay Aims to Be 'Operating System' For All E-Commerce on Internet}},
|
|
||||||
note = {The Wall Street Journal. Ostatnia modyfikacja 2000-11-20},
|
|
||||||
howpublished = {\url{http://www.wsj.com/articles/SB974675427606513763}}
|
|
||||||
}
|
|
||||||
|
|
||||||
@MISC{Amazon,
|
|
||||||
title = {{Amazon.com Launches Web Services; Developers Can Now Incorporate Amazon.com Content and Features into Their Own Web Sites; Extends ''Welcome Mat'' for Developers}},
|
|
||||||
key = {Amazon},
|
|
||||||
note = {Amazon Press Release. Opublikowano 2002-07-16},
|
|
||||||
howpublished = {\url{http://phx.corporate-ir.net/phoenix.zhtml?c=176060&p=irol-newsArticle&ID=503034}}
|
|
||||||
}
|
|
||||||
|
|
||||||
@MISC{Facebook,
|
|
||||||
author = {John Musser},
|
|
||||||
title = {Facebook {Launches} {API}},
|
|
||||||
note = {ProgrammableWeb.com. Opublikowano 2006-08-16},
|
|
||||||
howpublished = {\url{http://phx.corporate-ir.net/phoenix.zhtml?c=176060&p=irol-newsArticle&ID=503034}}
|
|
||||||
}
|
|
||||||
|
|
||||||
@MISC{Yahoo_buys_Flickr,
|
|
||||||
author = {Jim Hu},
|
|
||||||
title = {{Yahoo buys photo-sharing site Flickr}},
|
|
||||||
note = {CNET.com. Opublikowano 2005-03-21},
|
|
||||||
howpublished = {\url{https://www.cnet.com/news/yahoo-buys-photo-sharing-site-flickr/}}
|
|
||||||
}
|
|
||||||
|
|
||||||
@MISC{Flickr_archive,
|
|
||||||
author = {Flickr},
|
|
||||||
title = {{Yahoo buys photo-sharing site Flickr}},
|
|
||||||
note = {Flickr.com. Archiwum z 2004-08-04},
|
|
||||||
howpublished = {\url{https://web.archive.org/web/20040821021045/http://www.flickr.com/services/api/}}
|
|
||||||
}
|
}
|
||||||
|
|
||||||
|
|
||||||
@MISC{company_status_codes,
|
@ARTICLE{Bootstrap,
|
||||||
author = {Michael Gotiashvili},
|
author = {Daniel Waegel},
|
||||||
title = {{HTTP Status Codes To Handle Errors In Your API}},
|
title = {A Survey of Bootstrapping Techniques in Natural Language Processing},
|
||||||
note = {mrGott.com. Opublikowano 2015-06-24},
|
journal = {Department of Computer Science,
|
||||||
howpublished = {\url{http://mrgott.com/misc/5-http-status-codes-to-handle-errors-in-your-api}}
|
University of Delaware, Literature Survey Reports},
|
||||||
}
|
year = {2013}
|
||||||
|
|
||||||
@MISC{blueprint,
|
|
||||||
author = {Pocoo},
|
|
||||||
title = {{Modular Applications with Blueprints}},
|
|
||||||
note = {Pocoo.org. Dostęp 2017-01-29},
|
|
||||||
howpublished = {\url{http://flask.pocoo.org/docs/0.12/blueprints/}}
|
|
||||||
}
|
|
||||||
|
|
||||||
@MISC{owasp,
|
|
||||||
author = {Erlend Oftedal and Andrew van der Stock and Tony Hsu Hsiang Chih},
|
|
||||||
title = {{REST Security Cheat Sheet}},
|
|
||||||
note = {OWASP.org. Dostęp: 2016-11-17},
|
|
||||||
howpublished = {\url{https://www.owasp.org/index.php/REST_Security_Cheat_Sheet}}
|
|
||||||
}
|
|
||||||
|
|
||||||
@techreport{RFC5789,
|
|
||||||
author = {L. Dusseault and J. Snell},
|
|
||||||
title = {PATCH Method for HTTP},
|
|
||||||
howpublished = {Internet Requests for Comments},
|
|
||||||
type = {RFC},
|
|
||||||
number = {5789},
|
|
||||||
year = {2010},
|
|
||||||
month = {March},
|
|
||||||
issn = {2070-1721},
|
|
||||||
publisher = {RFC Editor},
|
|
||||||
institution = {RFC Editor},
|
|
||||||
url = {http://www.rfc-editor.org/rfc/rfc5789.txt},
|
|
||||||
note = {\url{http://www.rfc-editor.org/rfc/rfc5789.txt}},
|
|
||||||
}
|
|
||||||
|
|
||||||
@techreport{RFC7232,
|
|
||||||
author = {R. Fielding and J. Reschke},
|
|
||||||
title = {Hypertext Transfer Protocol (HTTP/1.1): Conditional Requests},
|
|
||||||
howpublished = {Internet Requests for Comments},
|
|
||||||
type = {RFC},
|
|
||||||
number = {7232},
|
|
||||||
year = {2014},
|
|
||||||
month = {June},
|
|
||||||
issn = {2070-1721},
|
|
||||||
publisher = {RFC Editor},
|
|
||||||
institution = {RFC Editor},
|
|
||||||
url = {http://www.rfc-editor.org/rfc/rfc7232.txt},
|
|
||||||
note = {\url{http://www.rfc-editor.org/rfc/rfc7232.txt}},
|
|
||||||
}
|
|
||||||
|
|
||||||
@MISC{embed,
|
|
||||||
author = {Vinay Sahni},
|
|
||||||
title = {{Best Practices for Designing a Pragmatic RESTful API}},
|
|
||||||
note = {VinaySahni.com. Opublikowano 2015-06-21},
|
|
||||||
howpublished = {\url{http://www.vinaysahni.com/best-practices-for-a-pragmatic-restful-api}}
|
|
||||||
}
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
@MISC{Twitter,
|
|
||||||
author = {Biz Stone},
|
|
||||||
title = {Introducing the {Twitter} {API}},
|
|
||||||
note = {ProgrammableWeb.com. Opublikowano 2006-08-16},
|
|
||||||
howpublished = {\url{http://phx.corporate-ir.net/phoenix.zhtml?c=176060&p=irol-newsArticle&ID=503034}}
|
|
||||||
}
|
|
||||||
|
|
||||||
@MISC{octo_design,
|
|
||||||
author = {Antoine Chantalou and Augustin Grimprel and Benoit Lafontaine and Florent Jaby and Jérémy Buisson and Mohamed Kissa and Nicolas Laurent},
|
|
||||||
title = {{How to design a REST API}},
|
|
||||||
note = {Octo.com. Opublikowano 2014-12-01},
|
|
||||||
howpublished = {\url{http://blog.octo.com/en/design-a-rest-api/}}
|
|
||||||
}
|
|
||||||
|
|
||||||
@techreport{RFC3968,
|
|
||||||
author = {G. Camarillo},
|
|
||||||
title = {The Internet Assigned Number Authority (IANA) Header Field Parameter Registry for the Session Initiation Protocol (SIP)},
|
|
||||||
howpublished = {Internet Requests for Comments},
|
|
||||||
type = {BCP},
|
|
||||||
number = {98},
|
|
||||||
year = {2004},
|
|
||||||
month = {December},
|
|
||||||
issn = {2070-1721},
|
|
||||||
publisher = {RFC Editor},
|
|
||||||
institution = {RFC Editor},
|
|
||||||
}
|
|
||||||
|
|
||||||
@techreport{RFC7396,
|
|
||||||
author = {P. Hoffman and J. Snell},
|
|
||||||
title = {JSON Merge Patch},
|
|
||||||
howpublished = {Internet Requests for Comments},
|
|
||||||
type = {RFC},
|
|
||||||
number = {7396},
|
|
||||||
year = {2014},
|
|
||||||
month = {October},
|
|
||||||
issn = {2070-1721},
|
|
||||||
publisher = {RFC Editor},
|
|
||||||
institution = {RFC Editor},
|
|
||||||
}
|
|
||||||
|
|
||||||
@techreport{RFC6902,
|
|
||||||
author = {P. Bryan and M. Nottingham},
|
|
||||||
title = {JavaScript Object Notation (JSON) Patch},
|
|
||||||
howpublished = {Internet Requests for Comments},
|
|
||||||
type = {RFC},
|
|
||||||
number = {6902},
|
|
||||||
year = {2013},
|
|
||||||
month = {April},
|
|
||||||
issn = {2070-1721},
|
|
||||||
publisher = {RFC Editor},
|
|
||||||
institution = {RFC Editor},
|
|
||||||
}
|
|
||||||
|
|
||||||
@techreport{RFC2616,
|
|
||||||
author = {Roy T. Fielding and James Gettys and Jeffrey C. Mogul and Henrik Frystyk Nielsen and Larry Masinter and Paul J. Leach and Tim Berners-Lee},
|
|
||||||
title = {Hypertext Transfer Protocol -- HTTP/1.1},
|
|
||||||
howpublished = {Internet Requests for Comments},
|
|
||||||
type = {RFC},
|
|
||||||
number = {2616},
|
|
||||||
year = {1999},
|
|
||||||
month = {June},
|
|
||||||
issn = {2070-1721},
|
|
||||||
publisher = {RFC Editor},
|
|
||||||
institution = {RFC Editor},
|
|
||||||
url = {http://www.rfc-editor.org/rfc/rfc2616.txt},
|
|
||||||
note = {\url{http://www.rfc-editor.org/rfc/rfc2616.txt}},
|
|
||||||
}
|
|
||||||
|
|
||||||
@BOOK{Best_Practices,
|
|
||||||
author = "Murat Yener and Alex Theedom",
|
|
||||||
publisher = {John Wiley \& Sons},
|
|
||||||
title = {Professional Java EE Design Patterns},
|
|
||||||
year = 2015,
|
|
||||||
month = "Jan."
|
|
||||||
}
|
|
||||||
|
|
||||||
|
|
||||||
@TECHREPORT{SUN_awarie,
|
|
||||||
author = {Waldo J. , Wyant G., Wollrath A., and Kendall S.},
|
|
||||||
title = {A note on distributed computing},
|
|
||||||
institution = {Sun Microsystems Laboratories, Inc.},
|
|
||||||
month = {Nov.},
|
|
||||||
year = {1994},
|
|
||||||
type = {Technical Report},
|
|
||||||
number = {SMLI TR-94-29}
|
|
||||||
}
|
|
||||||
|
|
||||||
@misc{wiki:latex,
|
|
||||||
key = "13240150",
|
|
||||||
title = "{LaTeX}",
|
|
||||||
howpublished = "[online]",
|
|
||||||
month = "lipiec",
|
|
||||||
year = "2008",
|
|
||||||
note = "[dostęp: 2008-09-10 20:48Z]",
|
|
||||||
annote = "Dostępny w Internecie: \url{http://pl.wikipedia.org/wiki/Fullpagename?oldid=13240150}"
|
|
||||||
}
|
}
|
@ -1,24 +1,82 @@
|
|||||||
\chapter{Metody ekstrakcji informacji}
|
\chapter{Metody ekstrakcji informacji}
|
||||||
% w kontekście mojego projektu
|
% w kontekście mojego projektu
|
||||||
W tym rozdziale zaprezentowane będę wybrane metody, których idee lub
|
W tym rozdziale zaprezentowane są wybrane metody,
|
||||||
ich bezpośrednie użycie znalazło się
|
które brane były pod uwagę lub zostały zastosowane
|
||||||
w końcowym systemie ekstrakcji informacji o godzinach rozpoczęcia mszy świętych.
|
w końcowym systemie ekstrakcji informacji o godzinach rozpoczęcia mszy świętych.
|
||||||
\section {Wzorce Hearst - metoda samowsporna \textit{(ang. bootstraping)}}
|
\section {Algorytmy \textit{bootstraping}}
|
||||||
Pierwszy raz w dziedzinie ekstrakcji informacji metody samowsporne zostały
|
Niech $J$ to będzie dowolna reprezentacja języka (wyraz, fraza, wyrażenie
|
||||||
zastosowane przy ekstrakcji relacji. Były to wzorce Hearst \textit{(ang.
|
regularne itp.)
|
||||||
Hearst patterns)}.
|
W dziedzinie przetwarzania języka naturalnego \textit{bootstraping} to technika
|
||||||
|
wyszukiwania niezanotowanych $J$ przy użyciu małego zbioru specjalnie
|
||||||
|
wyselekcjonowanych $J$.
|
||||||
|
Implementacji algorytmu \textit{bootstraping} jest wiele; wszystkie jednak
|
||||||
|
oparte są na następującym schemacie \cite{Bootstrap}:
|
||||||
|
\begin{enumerate}
|
||||||
|
\item Stwórz pustą listę $J$. % pusta lista $J$, pusta lista wyrazów, pusta
|
||||||
|
% lista fraz
|
||||||
|
\item Zainicjalizuj listę starannie dobranymi $J$.
|
||||||
|
\item Wykorzystaj elementy listy do znalezienia nowych $J$ z korpusu treningowego.
|
||||||
|
\item Oceń nowe $J$; najlepsze $J$ dodaj do listy.
|
||||||
|
\item Wróć do 3. i powtarzaj aż do osiągnięcia z góry określonej liczby iteracji lub
|
||||||
|
spełnienia innego warunku stopu.
|
||||||
|
|
||||||
|
\end{enumerate}
|
||||||
|
\textit{Bootstraping} jest szczególnie przydatny w przypadku, gdy mamy mały
|
||||||
|
zbiór treningowy, ponieważ z jego pomocą jesteśmy w stanie powiększyć zbiór
|
||||||
|
treningowy. %todo poprawić
|
||||||
|
|
||||||
|
|
||||||
|
\subsection{Wzorce Hearst}
|
||||||
|
Jedną z pierwszych implementacji algorytmu \textit{bootstraping} w dziedzinie
|
||||||
|
ekstrakcji informacji
|
||||||
|
są wzorce Hearst \textit{(ang. Hearst patterns)} \cite{Hearst}.
|
||||||
|
|
||||||
\smallskip
|
\smallskip
|
||||||
\noindent Znajdowanie nowych wzorców za pomocą wzorców Hearst:
|
\noindent Znajdowanie nowych wzorców za pomocą wzorców Hearst można przedstawić
|
||||||
|
następująco:
|
||||||
|
|
||||||
\begin{enumerate}
|
\begin{enumerate}
|
||||||
\item Wybierz relację leksykalną R.
|
\item Wybierz relację leksykalną $R$.
|
||||||
\item Zbierz zbiór par, które są w relacji R.
|
\item Zbierz zbiór $S$ par $(x, y)\in R$, gdzie $x$ i $y$ to słowa lub frazy.
|
||||||
\item Znajdź zdania, które zawierają te pary.
|
\item Znajdź zdania, które zawierają pary ze zbioru $S$.
|
||||||
\item Przyjrzyj się kontekstowi w jakim występują te pary. Załóż, że często
|
\item Przyjrzyj się kontekstowi w jakim występują te pary. Załóż, że często powtarzające się wzorce reprezentują relację R.
|
||||||
powtarzające się wzorce reprezentują relację R.
|
\item Wykorzystaj nowo odkryte wzorce do znalezienia nowych par słów lub fraz będących w relacji $R$.
|
||||||
\item Weź nowo odkryte wzorce i przejdź do 2.
|
\item Dodaj nowo znalezione pary słów lub fraz do zbioru $S$, wróć do 3. i powtarzaj aż do osiągnięcia z góry określonej liczby iteracji.
|
||||||
\end{enumerate}
|
\end{enumerate}
|
||||||
|
|
||||||
|
\enlargethispage{6\baselineskip}
|
||||||
|
\subsubsection{Przykład}
|
||||||
|
Rozważmy relację R taką, że $(x, y) \in R$ wtedy, gdy $x$ został pochowany w
|
||||||
|
$y$.
|
||||||
|
Załóżmy, że zaczynamy z parą \texttt{('Józef Piłsudski', 'Kraków')}$\in R$.
|
||||||
|
W korpusie treningowym szukamy zdań zawierających w sobie parę \texttt{('Józef Piłsudski', 'Kraków')} i otrzymujemy:
|
||||||
|
|
||||||
|
\centerline{„Józef Piłsudski został pochowany w Krakowie.”}
|
||||||
|
\centerline{„Miejsce pochówku Józefa Piłsudskiego to Kraków.”}
|
||||||
|
\centerline{„Grób Józefa Piłsudskiego znajduje się w Krakowie.”}
|
||||||
|
|
||||||
|
Ze znalezionych zdań tworzymy następujące wzorce:
|
||||||
|
|
||||||
|
\centerline{$x$ został pochowany w $y$.}
|
||||||
|
\centerline{Miejsce pochówku $x$ to $y$.}
|
||||||
|
\centerline{Grób $x$ znajduje się w $y$.}
|
||||||
|
|
||||||
|
Wykorzystujemy powyższe wzorce do znalezienia nowych par będących w relacji $R$
|
||||||
|
i otrzymujemy:
|
||||||
|
|
||||||
|
\centerline{\texttt{('Władysław Araszkiewicz', 'Warszawa')}}
|
||||||
|
\centerline{\texttt{('Władysław Kuczewski', 'Częstochowa')}}
|
||||||
|
|
||||||
|
Następnie nowe pary używamy do znalezienia nowych wzorców, a potem nowe
|
||||||
|
wzorce do wyszukania kolejnych par i powtarzamy powyższy
|
||||||
|
algorytm aż do osiągnięcia określonej liczby iteracji.
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
\subsection{Miejsce na opis bardziej skomplikowanej metoda implementującej
|
||||||
|
algorytm \textit{bootstraping}}
|
||||||
|
|
||||||
\section{Dziel i zwyciężaj algorytmami genetycznymi}
|
\section{Dziel i zwyciężaj algorytmami genetycznymi}
|
||||||
W 2015 Bartoli i in. zaprezentowali efektywny algorytm genetyczny do generowania wzorców w
|
W 2015 Bartoli i in. zaprezentowali efektywny algorytm genetyczny do generowania wzorców w
|
||||||
postaci wyrażeń regularnych przy użyciu niewielkiego zbioru zanotowanych przykładów.
|
postaci wyrażeń regularnych przy użyciu niewielkiego zbioru zanotowanych przykładów.
|
||||||
|
Loading…
Reference in New Issue
Block a user