systemy_dialogowe/notebooks/12-ujednoznacznianie.ipynb

{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "2c89fac1",
   "metadata": {},
   "source": [
    "Ujednoznacznianie wypowiedzi użytkownika\n",
    "========================================\n",
    "\n",
    "Problem\n",
    "-------\n",
    "W systemie dialogowym ukierunkowanym na wypełnianie wielu zadań jednocześnie polecenia użytkownika mogą być niejednoznacznie. Przykładowo wypowiedź\n",
    "\n",
    "> please book it for me\n",
    "\n",
    "może dotyczyć zarówno rezerwacji pokoju w hotelu jak i biletu na pociąg.\n",
    "\n",
    "System, w którym moduł NLU jest zbudowany z wykorzystaniem gramatyk semantycznych może zwrócić\n",
    "więcej niż jedną ramę reprezentującą znaczenie wypowiedzi. Która rama powinna zostać uznana za\n",
    "prawidłową?\n",
    "\n",
    "System, w którym moduł NLU jest zbudowany przy użyciu modelu sekwencyjnego może zwrócić jedną,\n",
    "arbitralnie wybraną ramę. Co wtedy?\n",
    "\n",
    "Ujednoznacznianie z wykorzystaniem reguł\n",
    "----------------------------------------\n",
    "\n",
    "Do ujednoznaczniania wypowiedzi użytkownika można wykorzystać monitor stanu dialogu oraz taktykę\n",
    "prowadzenia dialogu.  Możemy m.in.:\n",
    "\n",
    " 1. Dopasować niejednoznaczną wypowiedź do wszystkich dziedzin licząc na to, że w toku dialogu\n",
    "    niejednoznaczność zostanie rozstrzygnięta (to\n",
    "    rozwiązanie zostało przyjęte w monitorze `SimpleRuleDST` przedstawionym na zajęciach ósmych).\n",
    "\n",
    " 2. Dopasować niejednoznaczną wypowiedź wyłącznie do tej dziedziny, dla której stan dialogu zawiera\n",
    "    wypełnione sloty.\n",
    "\n",
    " 3. Sprawdzić czy wypowiedź użytkownika stanowi odpowiedź na pytanie uprzednio zadane przez system\n",
    "    (pole `request_state` w monitorze `SimpleRuleDST`).\n",
    "\n",
    " 4. Wykorzystać taktykę prowadzenia dialogu do zadania pytania, które rozstrzygnie\n",
    "    niejednoznaczność."
   ]
  },
  {
   "cell_type": "markdown",
   "id": "4c43c939",
   "metadata": {},
   "source": [
    "Ujednoznacznianie z wykorzystaniem uczenia maszynowego\n",
    "------------------------------------------------------\n",
    "\n",
    "W procesie uczenia modelu NLU można wykorzystać historię dialogu jako kontekst (zbiór dodatkowych\n",
    "cech) warunkujących wynik uczenia.\n",
    "Takie podejście zostało zastosowane w modelu [jointBERT](https://github.com/thu-coai/ConvLab-2/blob/master/convlab2/nlu/jointBERT/jointBERT.py), w którym kontekst składa się z trzech (sklejonych ze sobą) tur dialogu poprzedzających bieżącą wypowiedź.\n",
    "\n",
    "Porównajmy skuteczność modelu bezkontekstowego ze skutecznością modelu uwzględniającego kontekst.\n",
    "Do oceny jakości wykorzystamy zbiór danych [MultiWOZ](https://github.com/budzianowski/multiwoz) (Budzianowski i in., 2018)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "dc543a04",
   "metadata": {
    "lines_to_next_cell": 0
   },
   "outputs": [],
   "source": [
    "from convlab2.nlu.jointBERT.multiwoz import BERTNLU\n",
    "from convlab2.util.dataloader.module_dataloader import MultiTurnNLUDataloader\n",
    "from convlab2.util.dataloader.dataset_dataloader import MultiWOZDataloader\n",
    "\n",
    "dataloader = MultiTurnNLUDataloader(dataset_dataloader=MultiWOZDataloader())\n",
    "data = dataloader.load_data(data_key='test', role='sys')['test']"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "18cee3d4",
   "metadata": {
    "lines_to_next_cell": 0
   },
   "outputs": [],
   "source": [
    "data['utterance'][:3]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "eafcffe8",
   "metadata": {},
   "outputs": [],
   "source": [
    "data['dialog_act'][:3]"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "10607b8d",
   "metadata": {
    "lines_to_next_cell": 0
   },
   "source": [
    "Precision, recall oraz F1 obu modeli zmierzymy korzystając z funkcji `evaluate`."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "0c9b943c",
   "metadata": {},
   "outputs": [],
   "source": [
    "from convlab2.nlu.evaluate import calculateF1\n",
    "from tqdm.notebook import tqdm\n",
    "\n",
    "def evaluate(model, data):\n",
    "    results = []\n",
    "\n",
    "    for utt, ctx, acts in tqdm(zip(data['utterance'], data['context'], data['dialog_act']), total=len(data['utterance'])):\n",
    "        predicted = model.predict(utterance=utt, context=ctx)\n",
    "        results.append({'predict': predicted, 'golden': acts})\n",
    "\n",
    "    precision, recall, fscore = calculateF1(results)\n",
    "    print(f'Precision: {precision:.4f} Recall: {recall:.4f} F1: {fscore:.4f}')\n",
    "    return precision, recall, fscore"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "db8227a6",
   "metadata": {
    "lines_to_next_cell": 0
   },
   "source": [
    "Zmierzmy skuteczność modelu bezkontekstowego."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "7c29b75f",
   "metadata": {},
   "outputs": [],
   "source": [
    "noctx_model = BERTNLU(mode='all',\n",
    "                      config_file='multiwoz_all.json',\n",
    "                      model_file='https://convlab.blob.core.windows.net/convlab-2/bert_multiwoz_all.zip')\n",
    "\n",
    "noctx_results = evaluate(noctx_model, data)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "f82fb6fc",
   "metadata": {
    "lines_to_next_cell": 0
   },
   "source": [
    "Zmierzmy skutecznosć modelu uwzględniającego kontekst."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "d3d7773f",
   "metadata": {},
   "outputs": [],
   "source": [
    "ctx_model = BERTNLU(mode='all',\n",
    "                    config_file='multiwoz_all_context.json',\n",
    "                    model_file='https://convlab.blob.core.windows.net/convlab-2/bert_multiwoz_all_context.zip')\n",
    "\n",
    "ctx_results = evaluate(ctx_model, data)"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "621c5295",
   "metadata": {},
   "source": [
    "Literatura\n",
    "----------\n",
    " 1. Pawel Budzianowski, Tsung-Hsien Wen, Bo-Hsiang Tseng, Iñigo Casanueva, Stefan Ultes, Osman Ramadan, Milica Gasic, MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling. EMNLP 2018, pp. 5016-5026"
   ]
  }
 ],
 "metadata": {
  "jupytext": {
   "cell_metadata_filter": "-all",
   "main_language": "python",
   "notebook_metadata_filter": "-all"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
add data files, fill Klaudia Marciniak data files, add script to fasten filling the data files 2023-04-15 17:30:39 +02:00			`{`
			`"cells": [`
			`{`
			`"cell_type": "markdown",`
			`"id": "2c89fac1",`
			`"metadata": {},`
			`"source": [`
			`"Ujednoznacznianie wypowiedzi użytkownika\n",`
			`"========================================\n",`
			`"\n",`
			`"Problem\n",`
			`"-------\n",`
			`"W systemie dialogowym ukierunkowanym na wypełnianie wielu zadań jednocześnie polecenia użytkownika mogą być niejednoznacznie. Przykładowo wypowiedź\n",`
			`"\n",`
			`"> please book it for me\n",`
			`"\n",`
			`"może dotyczyć zarówno rezerwacji pokoju w hotelu jak i biletu na pociąg.\n",`
			`"\n",`
			`"System, w którym moduł NLU jest zbudowany z wykorzystaniem gramatyk semantycznych może zwrócić\n",`
			`"więcej niż jedną ramę reprezentującą znaczenie wypowiedzi. Która rama powinna zostać uznana za\n",`
			`"prawidłową?\n",`
			`"\n",`
			`"System, w którym moduł NLU jest zbudowany przy użyciu modelu sekwencyjnego może zwrócić jedną,\n",`
			`"arbitralnie wybraną ramę. Co wtedy?\n",`
			`"\n",`
			`"Ujednoznacznianie z wykorzystaniem reguł\n",`
			`"----------------------------------------\n",`
			`"\n",`
			`"Do ujednoznaczniania wypowiedzi użytkownika można wykorzystać monitor stanu dialogu oraz taktykę\n",`
			`"prowadzenia dialogu. Możemy m.in.:\n",`
			`"\n",`
			`" 1. Dopasować niejednoznaczną wypowiedź do wszystkich dziedzin licząc na to, że w toku dialogu\n",`
			`" niejednoznaczność zostanie rozstrzygnięta (to\n",`
			" rozwiązanie zostało przyjęte w monitorze `SimpleRuleDST` przedstawionym na zajęciach ósmych).\n",
			`"\n",`
			`" 2. Dopasować niejednoznaczną wypowiedź wyłącznie do tej dziedziny, dla której stan dialogu zawiera\n",`
			`" wypełnione sloty.\n",`
			`"\n",`
			`" 3. Sprawdzić czy wypowiedź użytkownika stanowi odpowiedź na pytanie uprzednio zadane przez system\n",`
			" (pole `request_state` w monitorze `SimpleRuleDST`).\n",
			`"\n",`
			`" 4. Wykorzystać taktykę prowadzenia dialogu do zadania pytania, które rozstrzygnie\n",`
			`" niejednoznaczność."`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"id": "4c43c939",`
			`"metadata": {},`
			`"source": [`
			`"Ujednoznacznianie z wykorzystaniem uczenia maszynowego\n",`
			`"------------------------------------------------------\n",`
			`"\n",`
			`"W procesie uczenia modelu NLU można wykorzystać historię dialogu jako kontekst (zbiór dodatkowych\n",`
			`"cech) warunkujących wynik uczenia.\n",`
			`"Takie podejście zostało zastosowane w modelu [jointBERT](https://github.com/thu-coai/ConvLab-2/blob/master/convlab2/nlu/jointBERT/jointBERT.py), w którym kontekst składa się z trzech (sklejonych ze sobą) tur dialogu poprzedzających bieżącą wypowiedź.\n",`
			`"\n",`
			`"Porównajmy skuteczność modelu bezkontekstowego ze skutecznością modelu uwzględniającego kontekst.\n",`
			`"Do oceny jakości wykorzystamy zbiór danych [MultiWOZ](https://github.com/budzianowski/multiwoz) (Budzianowski i in., 2018)"`
			`]`
			`},`
			`{`
			`"cell_type": "code",`
			`"execution_count": null,`
			`"id": "dc543a04",`
			`"metadata": {`
			`"lines_to_next_cell": 0`
			`},`
			`"outputs": [],`
			`"source": [`
			`"from convlab2.nlu.jointBERT.multiwoz import BERTNLU\n",`
			`"from convlab2.util.dataloader.module_dataloader import MultiTurnNLUDataloader\n",`
			`"from convlab2.util.dataloader.dataset_dataloader import MultiWOZDataloader\n",`
			`"\n",`
			`"dataloader = MultiTurnNLUDataloader(dataset_dataloader=MultiWOZDataloader())\n",`
			`"data = dataloader.load_data(data_key='test', role='sys')['test']"`
			`]`
			`},`
			`{`
			`"cell_type": "code",`
			`"execution_count": null,`
			`"id": "18cee3d4",`
			`"metadata": {`
			`"lines_to_next_cell": 0`
			`},`
			`"outputs": [],`
			`"source": [`
			`"data['utterance'][:3]"`
			`]`
			`},`
			`{`
			`"cell_type": "code",`
			`"execution_count": null,`
			`"id": "eafcffe8",`
			`"metadata": {},`
			`"outputs": [],`
			`"source": [`
			`"data['dialog_act'][:3]"`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"id": "10607b8d",`
			`"metadata": {`
			`"lines_to_next_cell": 0`
			`},`
			`"source": [`
			"Precision, recall oraz F1 obu modeli zmierzymy korzystając z funkcji `evaluate`."
			`]`
			`},`
			`{`
			`"cell_type": "code",`
			`"execution_count": null,`
			`"id": "0c9b943c",`
			`"metadata": {},`
			`"outputs": [],`
			`"source": [`
			`"from convlab2.nlu.evaluate import calculateF1\n",`
			`"from tqdm.notebook import tqdm\n",`
			`"\n",`
			`"def evaluate(model, data):\n",`
			`" results = []\n",`
			`"\n",`
			`" for utt, ctx, acts in tqdm(zip(data['utterance'], data['context'], data['dialog_act']), total=len(data['utterance'])):\n",`
			`" predicted = model.predict(utterance=utt, context=ctx)\n",`
			`" results.append({'predict': predicted, 'golden': acts})\n",`
			`"\n",`
			`" precision, recall, fscore = calculateF1(results)\n",`
			`" print(f'Precision: {precision:.4f} Recall: {recall:.4f} F1: {fscore:.4f}')\n",`
			`" return precision, recall, fscore"`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"id": "db8227a6",`
			`"metadata": {`
			`"lines_to_next_cell": 0`
			`},`
			`"source": [`
			`"Zmierzmy skuteczność modelu bezkontekstowego."`
			`]`
			`},`
			`{`
			`"cell_type": "code",`
			`"execution_count": null,`
			`"id": "7c29b75f",`
			`"metadata": {},`
			`"outputs": [],`
			`"source": [`
			`"noctx_model = BERTNLU(mode='all',\n",`
			`" config_file='multiwoz_all.json',\n",`
			`" model_file='https://convlab.blob.core.windows.net/convlab-2/bert_multiwoz_all.zip')\n",`
			`"\n",`
			`"noctx_results = evaluate(noctx_model, data)"`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"id": "f82fb6fc",`
			`"metadata": {`
			`"lines_to_next_cell": 0`
			`},`
			`"source": [`
			`"Zmierzmy skutecznosć modelu uwzględniającego kontekst."`
			`]`
			`},`
			`{`
			`"cell_type": "code",`
			`"execution_count": null,`
			`"id": "d3d7773f",`
			`"metadata": {},`
			`"outputs": [],`
			`"source": [`
			`"ctx_model = BERTNLU(mode='all',\n",`
			`" config_file='multiwoz_all_context.json',\n",`
			`" model_file='https://convlab.blob.core.windows.net/convlab-2/bert_multiwoz_all_context.zip')\n",`
			`"\n",`
			`"ctx_results = evaluate(ctx_model, data)"`
			`]`
			`},`
			`{`
			`"cell_type": "markdown",`
			`"id": "621c5295",`
			`"metadata": {},`
			`"source": [`
			`"Literatura\n",`
			`"----------\n",`
			`" 1. Pawel Budzianowski, Tsung-Hsien Wen, Bo-Hsiang Tseng, Iñigo Casanueva, Stefan Ultes, Osman Ramadan, Milica Gasic, MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling. EMNLP 2018, pp. 5016-5026"`
			`]`
			`}`
			`],`
			`"metadata": {`
			`"jupytext": {`
			`"cell_metadata_filter": "-all",`
			`"main_language": "python",`
			`"notebook_metadata_filter": "-all"`
			`}`
			`},`
			`"nbformat": 4,`
			`"nbformat_minor": 5`
			`}`