ium/IUM_13.Publikacja.ipynb

561 lines
20 KiB
Plaintext
Raw Normal View History

{
"cells": [
{
"cell_type": "markdown",
"id": "honey-resistance",
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
2024-04-09 09:46:32 +02:00
"## Inżynieria uczenia maszynowego\n",
"### 5 czerwca 2024\n",
"# 13. Przygotowanie publikacji naukowej"
]
},
{
"cell_type": "markdown",
"id": "a5f10a0e",
2023-05-31 13:30:01 +02:00
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
2024-06-04 10:43:21 +02:00
"## Abstract\n",
"- Umiejętność pisania artykułu naukowego może okazać się przydatna dla osób zajmujących się uczeniem maszynowym.\n",
"- Zastosowanie klarownej struktury dokumentu ułatwia jego odbiór jak i tworzenie.\n",
"- LaTeX + Overleaf jaka narzędzia do składu artykułu"
]
},
{
"cell_type": "markdown",
"id": "35d3630d",
2023-05-31 13:30:01 +02:00
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
2024-06-04 10:43:21 +02:00
"## Introduction\n",
"\n",
"- Uczenie maszynowe i jego zastosowania to prężnie rozwijająca się dziedzina nauki\n",
"- Żeby nadążyć za jej rozwojem musimy czytać artykuły naukowe\n",
2023-05-24 13:45:11 +02:00
"- A jeśli nasza praca ma charakter badawczy, to warto efekty naszej pracy od zebrać w postaci artykułu i opublikować\n",
"- Nasz pracodawca może od nas tego wymagać lub przynajmniej zachęcać\n",
"- Dlatego zapoznamy się z:\n",
"1. Strukturą artykułu naukowego\n",
"2. Technicznymi aspektami jego tworzenia"
]
},
{
"cell_type": "markdown",
"id": "1033fc4d",
2023-05-31 13:30:01 +02:00
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
2024-06-04 10:43:21 +02:00
"## Related work\n",
"\n",
"Jak napisać artykuł naukowy z dziedziny ML:\n",
"- http://www.isle.org/~langley/papers/craft.ml2k.pdf / https://icml.cc/Conferences/2002/craft.html\n",
"- https://www.researchgate.net/publication/337857231_How_to_Write_a_Machine_Learning_Paper_for_not_so_Dummies/comments\n",
"- https://towardsdatascience.com/writing-more-successful-machine-learning-research-papers-39863ca9ea90\n",
"- https://towardsdatascience.com/tips-for-reading-and-writing-an-ml-research-paper-a505863055cf\n",
"\n",
"Dobre wyjaśnienie struktury artykułu naukowego znajdziemy w napisanym po polsku artykule\n",
"- https://ekulczycki.pl/warsztat_badacza/struktura-artykulu-naukowego-uniwersalne-wytyczne-i-przydatne-wskazowki/"
]
},
{
"cell_type": "markdown",
"id": "2c7eb238",
2023-05-31 13:30:01 +02:00
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
2024-06-04 10:43:21 +02:00
"## Methods"
]
},
{
"cell_type": "markdown",
"id": "changed-president",
"metadata": {
"slideshow": {
2023-05-31 13:30:01 +02:00
"slide_type": "fragment"
}
},
"source": [
"### Struktura artykułu naukowego\n",
"Struktura [(A)IMRaD](https://en.wikipedia.org/wiki/IMRAD):\n",
"\n",
"0. Abstrakt (**A**bstract) - Dlaczego, jak, \n",
"1. Wprowadzenie (**I**ntroduction) - \"Dlaczego?\"\n",
2023-05-24 13:45:11 +02:00
" 1. Related work - \"Kontekst naukowy\"\n",
"2. Metody (**M**ethod) - \"Jak?\"\n",
"3. Wyniki (**R**esults) - \"Co?\"\n",
"4. Wnioski (**D**iscussion/Conclusions) - \"Interpretacja wyników\""
]
},
{
"cell_type": "markdown",
"id": "8cb9b025",
2023-05-31 13:30:01 +02:00
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
"<img src=\"https://upload.wikimedia.org/wikipedia/commons/7/75/Wineglass_model_for_IMRaD_structure..png\"/>"
]
},
{
"cell_type": "markdown",
"id": "d3e245eb",
2023-05-31 13:30:01 +02:00
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
"#### Tytuł\n",
"- powinien odzwierciedlać treść artykułu ;)\n",
"- nie za długi (< 12 wyrazów)\n",
"- lepiej, żeby nie był pytaniem (patrz [Prawo nagłówków Betteridge'a](https://pl.wikipedia.org/wiki/Prawo_nag%C5%82%C3%B3wk%C3%B3w_Betteridge%E2%80%99a), choć [niekoniecznie](https://link.springer.com/article/10.1007/s11192-016-2030-2))\n",
"- dobry artykuł może mieć krótki, chwytliwy tytuł, szczególnie, jeśli autorzy mają renomę ;) Przykłady:\n",
" - [\"Attention Is All You Need\"](https://arxiv.org/abs/1706.03762)"
]
},
{
"cell_type": "markdown",
"id": "1f150ddb",
2023-05-31 13:30:01 +02:00
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
"#### Abstrakt\n",
"\n",
"- stanowi samodzielną całość - powinien być zrozumiały bez reszty artykułu\n",
"- jest bardzo istotny - stanowi \"reklamówkę\" naszej pracy - ma zachęcić do lektury\n",
"- powinien zawierać wszystkie najważniejsz elementy artykułu i mieć podobną strukturę (IMRaD)"
]
},
{
"cell_type": "markdown",
"id": "6005b4bd",
2023-05-31 13:30:01 +02:00
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
"#### Wprowadzenie\n",
" - Kontekst badań\n",
2023-05-24 13:45:11 +02:00
" - Od ogółu do szczegółu\n",
" - Motywacja\n",
" - Co chcemy właściwie zbadać - sformułowanie hipotezy badawczej"
]
},
{
"cell_type": "markdown",
"id": "1308de25",
2023-05-31 13:30:01 +02:00
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
"#### Related work\n",
" - Kontekst naukowy\n",
" - Co zrobiono przed nami\n",
" - Musimy się do tego odnieść w dalszej części i zaznaczyć co nasze badania wnoszą nowego do dziedziny\n",
" - Cytujemy najważniejsze prace\n",
2023-05-24 13:45:11 +02:00
" - Najlepiej zacząć szeroko i w przeszłości i stopniowo przechodzili do coraz nowszych i bardziej szczegółowych badań, bliżej związanych z tematyką poruszaną w naszym artykule."
]
},
{
"cell_type": "markdown",
"id": "b6cf4464",
2023-05-31 13:30:01 +02:00
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
"#### Metody\n",
"- Jak przeprowadziliśmy nasze badania/eksperymenty\n",
"- Informacje tu zawarte w powinny umożliwić zreprodukowanie naszych wyników innym badaczom\n",
"- Opisujemy:\n",
" - Dane\n",
" - Algorytmy/architekturę\n",
2024-06-05 09:05:36 +02:00
" - możemy, choć nie musimy, podać techniczne szczegóły dotyczące implementacji, np. użyty framework. Zazwyczaj jednak kwestie techniczne nie są istotne i możemy od nich abstrahować, a na potrzeby reprodukowalności wyników najlepiej po prostu opublikować kod źródłowy/dane i wspomnieć o tym w artykule\n",
" - Procedurę ewaluacji/testowania\n",
"- Warto na naszych dancyh przetestować metodą bazową (\"baseline\") - np. obecny SOTA (\"State of the art\"), żeby potem móc do niej porównać nasze rozwiązanie."
]
},
{
"cell_type": "markdown",
"id": "5aee7988",
2023-05-31 13:30:01 +02:00
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
"#### Wyniki\n",
"- Jakie wyniki otrzymaliśmy\n",
"- Powstrzymajmy się z ich interpretacją\n",
"- Możemy dokonywać porównań, ale z opiniami w stylu \"Nasze podejście deklasuje obecny SOTA\" (State Of The Art) poczekajmy do następnej sekcji"
]
},
{
"cell_type": "markdown",
"id": "7be88b24",
2023-05-31 13:30:01 +02:00
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
"#### Konkluzje\n",
"- Interpretacja wyników\n",
"- Jakie jest ich znaczenie?\n",
"- Jak prezentują się w szerszym kontekście\n",
"- Tak jak we wprowaszeniu przechodzimy od ogółu do szczegółu (zawężamy perspektywę), tutaj postępujemy odwrotnie - zaczynając od szczegółowej interpretacji przechodzimy do znaczenia wyników w szerszym kontekście"
]
},
{
"cell_type": "markdown",
"id": "4753cf22",
2023-05-31 13:30:01 +02:00
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
2024-06-04 10:43:21 +02:00
"### LaTeX\n",
"\n",
2024-06-04 10:43:21 +02:00
"- LaTeX (wym. *latech*) to system składu tekstu\n",
"- Najbardziej popularny w dziedzinach technicznych\n",
"- https://www.latex-project.org//\n",
"- Podejście [WYSIWYM](https://pl.wikipedia.org/wiki/WYSIWYM)(\"What you see is what you mean\") w przeciwieństwie do WYSIWIG (What you see is what you get - przykład: Word).\n",
"- Piszemy tekst ze znacznikami, kompilujemy, dostajemy gotowy dokument, np. pdf\n",
"- Stosowany powszechnie do pisania publikacji naukowych (artykułów, książek jak i rozpraw nukowych)\n",
"- Pozwala łatwo zmienić styl/szablon\n",
"- W założeniu, podczas pisania skupiamy się na treści i strukturze a LaTeX sam zatroszczy się o wygląd\n",
"- Przystępna dokumentacja: https://www.overleaf.com/learn/latex/Learn_LaTeX_in_30_minutes"
]
},
{
"cell_type": "markdown",
"id": "918e3b39",
2023-05-31 13:30:01 +02:00
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
2024-06-04 10:43:21 +02:00
"#### Struktura\n",
"```latex\n",
"\n",
"\\documentclass[conference]{IEEEtran}\n",
"%\\documentclass[a4paper]{IEEEconf}\n",
"\n",
"\\usepackage[]{graphicx}\n",
"% to typeset algorithms\n",
"\\usepackage{algorithmic}\n",
"\\usepackage{algorithm}\n",
"% to typeset code fragments\n",
"\\usepackage{listings}\n",
"% to make an accent \\k be available\n",
"\\usepackage[OT4,T1]{fontenc}\n",
"% provides various features to facilitate writing math formulas and to improve the typographical quality of their output.\n",
"\\usepackage[cmex10]{amsmath}\n",
"\\interdisplaylinepenalty=2500\n",
"% por urls typesetting and breaking\n",
"\\usepackage{url}\n",
"% for vertical merging table cells\n",
"\\usepackage{multirow}\n",
"% \\usepackage[utf8]{inputenc}\n",
"\n",
"\n",
"\\title{Research paper structure in LaTeX}\n",
"\n",
"\n",
"%\\author{}\n",
"\\name{Tomasz Ziętkiewicz}\n",
"\n",
"\n",
"\\begin{document}\n",
"\\maketitle\n",
"% \n",
"\\begin{abstract}\n",
"This paper is an example of a paper structure in \\LaTeX\n",
"\\end{abstract}\n",
"\n",
"\\noindent\\textbf{Index Terms}: speech recognition, error correction, post-processing, post-editing, natural language processing\n",
"\n",
"\n",
"\\section{Introduction}\n",
"Introductions has always been very important parts of scientific papers...\n",
"\n",
"\\section{Related work} \\label{sec:related}\n",
"Tips on writing research papers can be found in \\cite{howtowrite}\n",
"\n",
"\n",
"\\section{Data} \\label{sec:data}\n",
"Data is prepared using our novel data pipeline presented on figure \\ref{fig:data-piepline}\n",
"\n",
"\\begin{figure}[htbp]\n",
" \\centering\n",
" \\label{fig:data-pipeline}\n",
" \\includegraphics[scale=0.6]{data-pipeline.pdf}\n",
" \\caption{Data preparation pipeline}\n",
"\\end{figure}\n",
"\n",
"\n",
"Data statistics are shown in Table \\ref{tab:data}.\n",
"Data sets were randomly divided into training, development, and test subsets in a proportion 8:1:1.\n",
"\n",
"\t\\begin{table}\n",
"\t \\caption{Datasets statistics }\n",
" \\label{tab:data}\n",
" \\centering\n",
"\t\t\\begin{tabular}{|l|r|r|r|r|r|}\n",
" \t\t\\hline\n",
" \t\tLanguage & \\textbf{de-DE} & \\textbf{es-ES} & \\textbf{fr-FR} \\\\\n",
" \t\t\\hline\n",
" \t\tSentences & $12 242$ & $16 905$ & $7180$ \\\\\n",
" \t\tTokens & $37 955$ & $55 567$ & $28 004$ \\\\\n",
" \t\t\\hline\n",
"\t\t\\end{tabular}\n",
"\t\t\\end{table}\n",
"\n",
"\\section{Method} \\label{sec:method}\n",
"The proposed method consists of ...\n",
"\n",
"\\subsection{Data preparation}\n",
"To train the model, a lot of data is needed...\n",
"\n",
"\\subsection{Architecture}\n",
"\n",
"\n",
"\\section{Results} \\label{sec:results}\n",
"Table \\ref{tab:results} presents averaged results.\n",
"The metric used is computes as follows:\n",
"\\begin{equation}\n",
" RMSE = \\sqrt{\\frac{1}{n}\\Sigma_{i=1}^{n}{\\Big(\\frac{d_i -f_i}{\\sigma_i}\\Big)^2}}\n",
"\\end{equation} \n",
"where ...\n",
"\n",
" \\begin{table}\n",
"\t\t\\begin{tabular}{|l|c|c|c|c|c|}\n",
" \\hline \n",
" & Train & Test & Dev & - & Eval\\\\ \n",
" \\hline \n",
" Raw ASR 1best & 9.59 & 12.08 & 12.39 & 45.64 & 27.6\\\\ \n",
" \\hline \n",
" lattice oracle WER & 3.75 & 4.72 & 4.93 & 30.71 & 17.7\\\\ \n",
" \\hline \n",
" Edit operation tagger (from 1best) & - & 10.7 & - & - & 24.7\\\\ \n",
" \\hline \n",
" Absolute WER Reduction & - & $11.42\\%$ & - & - & $10.50\\%$ \\\\ \n",
" \\hline \n",
" Relative WER Reduction & - & $11.42\\%$ & - & - & $10.50\\%$ \\\\ \n",
" \\hline \n",
"\t\t\\end{tabular}\n",
" \\label{tab:results}\n",
"\t\t\\caption{Word Error Rates for input data and the proposed system.}\n",
"\t\\end{table}\n",
"\n",
"\n",
"\\section{Conclusions} \\label{sec:conclusions}\n",
"We presented a new approach to ASR errors correction problem. As demonstrated using three independent datasets, correction models trained using this approach are effective even for relatively small training datasets. The method allows to precisely control which errors should be included in the model and which of the included ones should be corrected at the inference time. The evaluations performed on the models show that they can significantly improve the ASR results by reducing the WER by more than $20\\%$. All of the models presented offer very good inference latency, making them suitable for use with streaming ASR systems. \n",
"\n",
"The presented method is well suited for industrial applications where the ability to precisely control how the error correction model works, as well as small latency, are crucial. \n",
"\n",
"%\\section{Acknowledgements}\n",
"\n",
"\n",
"\\bibliographystyle{IEEEtran}\n",
"\n",
"\\bibliography{bibliography}\n",
"\n",
"\\end{document}\n",
"\n",
"```"
]
},
{
"cell_type": "markdown",
"id": "3ea5c879",
2023-05-31 13:30:01 +02:00
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
"```bibtex\n",
"\n",
"@book{Hastie2009,\n",
"\ttitle={The Elements of Statistical Learning: Data Mining, Inference, and Prediction},\n",
"\tauthor={Hastie, Trevor and Tibshirani, Robert and Friedman, Jerome},\n",
"\tyear={2009},\n",
"\tpublisher={Springer},\n",
"\taddress = {New York, NY},\n",
"\tedition = {2nd}\n",
"}\n",
"\n",
"@article{Byon2013,\n",
"title = {Wind turbine operations and maintenance: A tractable approximation of dynamic decision-making},\n",
"author = {Byon, E.},\n",
"journal = { IIE Transactions},\n",
"volume = {45},\n",
"number = {11},\n",
"pages = {1188--1201},\n",
"year = {2013}\n",
"}\n",
"\n",
"@inproceedings{Breunig2000,\n",
" title={{LOF}: Identifying density-based local outliers},\n",
" author={Breunig, M. M. and Kriegel, H.-P. and Ng, R. T. and Sander, J.},\n",
" booktitle={Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data},\n",
" pages={93--104},\n",
" year={2000},\n",
" organization={ACM}\n",
"}\n",
"\n",
"@incollection{Yang2010,\n",
" author = \"Yang, J. AND Huang, T. S.\",\n",
" title = \"Image super-resolution: {H}istorical overview and future challenges\",\n",
" booktitle = \"Super-Resolution Imaging\",\n",
" editor = \"Milanfar, Peyman\",\n",
" pages =\"3--35\",\n",
" publisher = \"Chapman \\& Hall/CRC Press\",\n",
" address = {Boca Raton, FL},\n",
" year = \"2010\"\n",
"}\n",
"```"
]
},
{
"cell_type": "markdown",
"id": "pressing-european",
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
2024-06-04 10:43:21 +02:00
"### Overleaf \n",
" - Overlaf to serwis/aplikacja webowa umożliwiająca edycję i kompilację dokumentów Latexa on-line, w przeglądarce\n",
" - https://www.overleaf.com/\n",
" - Działa od ręki, bez potrzeby konfiguracji, instalacji pakietów itp.\n",
" - podgląd gotowego dokumentu, automatyczna kompilacja\n",
" - edytor z uzupełnianiem składni\n",
" - intagracja z Git/GitHub"
]
},
2023-05-24 13:45:11 +02:00
{
"cell_type": "markdown",
2023-05-31 13:30:01 +02:00
"id": "ba75e390",
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
2023-05-24 13:45:11 +02:00
"source": [
2024-06-04 10:43:21 +02:00
"### arXiv.org\n",
2023-05-24 13:45:11 +02:00
" - https://arxiv.org/\n",
" - baza artykułów, uporządkowanych według kategorii\n",
" - umożliwia samodzielne opublikowanie artykułu jeszcze przed wysłaniem go do czasopisma/na konferencję. Artykuły tam dostępne nie są recenzowane, ale jest to sposób na otrzymanie feedbacku od społeczności poza oficjalnym procesem publikacyjnym."
]
},
{
"cell_type": "markdown",
"id": "e1822b3c",
2023-05-31 13:30:01 +02:00
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
2024-06-04 10:43:21 +02:00
"### Materiały pomocnicze\n",
"* JupyterBook: https://jupyterbook.org/en/stable/intro.html\n",
"* The Turing Way: https://the-turing-way.netlify.app/welcome.html\n"
]
},
{
"cell_type": "markdown",
"id": "informational-writer",
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
2024-06-04 10:43:21 +02:00
"## Conclusions\n",
2024-06-05 09:05:36 +02:00
"### Zadanie [20pkt] - 19 czerwca 2024\n",
"1. Wybierz konferencję naukową z dziedziny ML/AI/Computer Science.\n",
" - 💡 Możesz sugerować się którąś z poniższych list:\n",
" * https://www.aclweb.org/portal/events\n",
" * http://www.wikicfp.com/cfp/call?conference=machine%20learning\n",
2024-06-04 10:43:21 +02:00
"2. Używając szablonu LaTeX udostępnionego przez organizatorów konferencji, stwórz szkic artykułu naukowego opisującego wyniki eksperymentów ML, które przeprowadziłaś/eś w trakcie zajęć.\n",
2023-05-24 13:45:11 +02:00
"3. Napisz artykuł używając Overleaf. Udostępnij w [arkuszu z zapisami](https://uam.sharepoint.com/:x:/r/sites/2023SL06-DIUMUI0LABInynieriauczeniamaszynowego-Grupa11/Shared%20Documents/General/IUM-2023-zapisy.xlsx?d=w49d444e07d864d2997ef7d72c5a47da0&csf=1&web=1&e=RT11aP) link udostępniający dokument ([jak stworzyć taki link](https://www.overleaf.com/learn/how-to/What_is_Link_Sharing%3F))\n",
"4. Artykuł musi zawierać co najmniej:\n",
" - 6 niepustych sekcji (abstract, introduction, related work, method, results, conclusions)\n",
" - jedną tabelkę (np. opisującą dane lub wyniki)\n",
" - jedną ilustrację (np. jakiś wykres, który tworzyli Państwo na zajęciach)\n",
" - 5 cytowań (można np. zacytować artykuły opisujące użytą metodę, zbiory danych, narzędzia. Zazwyczaj popularne biblioteki, datasety podają w README jak należy je cytować)\n",
" - 1 wzór matematyczny\n",
2024-06-05 09:05:36 +02:00
"5. Artykuł **nie musi** być długi i profesjonalnie napisany, chodzi raczej o zaznajomienie się z formą i strukturą :)\n",
"6. Artykuł powinien być zgodny z wytycznymi konferencji dotyczącymi formy artykułów (oczywiście poza liczbą stron)\n",
" \n",
"Zapewne w napisanym artykule nie opiszą państwo niczego nowatorskiego i wartego publikacji - tutaj udajemy, że zastosowaliśmy metodę po raz pierwszy, osiągnęliśmy nieosiągalne dotąd wyniki itp. Liczy się forma i struktura pracy. Można dodać komentarz wyjaśniający prawdziwy cel artykuły w sekcji/przypisie \"Disclaimer\", żeby nikt Państwa nie posądzał o pisanie nieprawdy.\n",
" "
]
},
{
"cell_type": "markdown",
"id": "challenging-student",
"metadata": {
"slideshow": {
"slide_type": "slide"
}
},
"source": [
"![Tajny język naukowców](https://i1.kwejk.pl/k/obrazki/2017/10/2b48483a6c4f274aa276732e41f856af.jpg)"
]
}
],
"metadata": {
"celltoolbar": "Slideshow",
"kernelspec": {
2023-05-24 13:45:11 +02:00
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
2023-05-24 13:45:11 +02:00
"version": "3.9.16"
}
},
"nbformat": 4,
"nbformat_minor": 5
}