add example embedding search

2024-04-09 12:27:39 +02:00 · 2024-04-09 12:27:39 +02:00 · 3c52d24af0
commit 3c52d24af0
parent 2cff58e5fc
1 changed files with 35 additions and 0 deletions
--- a/embeddings.py
+++ b/embeddings.py
@ -0,0 +1,35 @@
 import numpy as np
 import torch
 from transformers import AutoModel, AutoTokenizer
 tokenizer = AutoTokenizer.from_pretrained("Geotrend/distilbert-base-pl-cased")
 model = AutoModel.from_pretrained("Geotrend/distilbert-base-pl-cased")
 text = """
 "nazwa": "Tatar wołowy","""
 # "skladniki": [
 #   "wołowina",
 #   "cebula",
 #   "ogórki kiszone",
 #   "musztarda",
 #   "jajko",
 #   "pieprz",
 #   "sól"
 # ],
 # "alergeny": [
 #   "jajko",
 #   "gorczyca"
 # ]
 # """
 encoded_input = tokenizer(text, return_tensors='pt', padding=True)
 output = model(**encoded_input)
 prompt = "tatar"
 encoded_prompt = tokenizer(prompt, return_tensors='pt', padding=True)
 output_prompt = model(**encoded_prompt)
 text_embedding = output.last_hidden_state[:, 0, :]
 prompt_embedding = output_prompt.last_hidden_state[:, 0, :]
 cosine = torch.nn.functional.cosine_similarity(
    text_embedding, prompt_embedding, dim=1)
 print(cosine.item())