ium_464979/kuggle_download.sh

#!/bin/bash

# Pobieranie i rozpakowanie
pip install kaggle
kaggle datasets download -d thedevastator/1-5-million-beer-reviews-from-beer-advocate
unzip -o 1-5-million-beer-reviews-from-beer-advocate.zip
DATASET_FILE="beer_reviews.csv"

echo "------------------ Cut off top: ${1} rows ------------------"
head -n $1 $DATASET_FILE > cutoff_$DATASET_FILE

# Mieszanie i podział
echo "------------------ Split and shufle ------------------"
total_lines=$(tail -n +2 cutoff_$DATASET_FILE | wc -l)

train_lines=$((total_lines * 80 / 100))
dev_lines=$((total_lines * 10 / 100))
test_lines=$((total_lines - train_lines - dev_lines))

shuf cutoff_$DATASET_FILE -o shuffled.csv

head -n $train_lines shuffled.csv > train.csv
tail -n $((dev_lines + test_lines)) shuffled.csv | head -n $dev_lines > dev.csv
tail -n $test_lines shuffled.csv > test.csv

# Czyszczenie
echo "------------------ Clean ------------------"
rm cutoff_$DATASET_FILE shuffled.csv

mkdir -p data
mv train.csv dev.csv test.csv data/
Added new jenkinsfile and kuggle download script 2024-03-24 14:39:33 +01:00			`#!/bin/bash`

Added new jenkinsfile and kuggle download script 2024-03-24 17:49:57 +01:00			`# Pobieranie i rozpakowanie`
Added new jenkinsfile and kuggle download script 2024-03-24 14:39:33 +01:00			`pip install kaggle`
Added new jenkinsfile and kuggle download script 2024-03-24 15:22:43 +01:00			`kaggle datasets download -d thedevastator/1-5-million-beer-reviews-from-beer-advocate`
			`unzip -o 1-5-million-beer-reviews-from-beer-advocate.zip`
Added new jenkinsfile and kuggle download script 2024-03-24 17:49:57 +01:00			`DATASET_FILE="beer_reviews.csv"`
Added new jenkinsfile and kuggle download script 2024-03-24 14:39:33 +01:00
Added new jenkinsfile and kuggle download script 2024-03-24 18:21:21 +01:00			`echo "------------------ Cut off top: ${1} rows ------------------"`
Added new jenkinsfile and kuggle download script 2024-03-24 17:49:57 +01:00			`head -n $1 $DATASET_FILE > cutoff_$DATASET_FILE`
Added new jenkinsfile and kuggle download script 2024-03-24 14:39:33 +01:00
Added new jenkinsfile and kuggle download script 2024-03-24 17:49:57 +01:00			`# Mieszanie i podział`
Added new jenkinsfile and kuggle download script 2024-03-24 18:21:21 +01:00			`echo "------------------ Split and shufle ------------------"`
Added new jenkinsfile and kuggle download script 2024-03-24 17:49:57 +01:00			`total_lines=$(tail -n +2 cutoff_$DATASET_FILE \| wc -l)`
Added new jenkinsfile and kuggle download script 2024-03-24 16:10:21 +01:00
Added new jenkinsfile and kuggle download script 2024-03-24 17:49:57 +01:00			`train_lines=$((total_lines * 80 / 100))`
			`dev_lines=$((total_lines * 10 / 100))`
			`test_lines=$((total_lines - train_lines - dev_lines))`
Added new jenkinsfile and kuggle download script 2024-03-24 14:39:33 +01:00
Added new jenkinsfile and kuggle download script 2024-03-24 17:49:57 +01:00			`shuf cutoff_$DATASET_FILE -o shuffled.csv`
Added new jenkinsfile and kuggle download script 2024-03-24 14:39:33 +01:00
Added new jenkinsfile and kuggle download script 2024-03-24 17:49:57 +01:00			`head -n $train_lines shuffled.csv > train.csv`
			`tail -n $((dev_lines + test_lines)) shuffled.csv \| head -n $dev_lines > dev.csv`
			`tail -n $test_lines shuffled.csv > test.csv`
Added new jenkinsfile and kuggle download script 2024-03-24 14:39:33 +01:00
Added new jenkinsfile and kuggle download script 2024-03-24 17:49:57 +01:00			`# Czyszczenie`
Added new jenkinsfile and kuggle download script 2024-03-24 18:21:21 +01:00			`echo "------------------ Clean ------------------"`
Fix archive 2024-03-24 19:02:45 +01:00			`rm cutoff_$DATASET_FILE shuffled.csv`

Fix archive 2024-03-24 19:08:44 +01:00			`mkdir -p data`
Fix archive 2024-03-24 19:02:45 +01:00			`mv train.csv dev.csv test.csv data/`