import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# nastavíme zobrazovanie grafov priamo v odstavcoch zápisníka
%matplotlib inline
# inicializujeme knižnicu seaborn
sns.set()

data = pd.read_csv("data/titanic.csv")  # načítame si dáta zo súboru ../data/titanic.csv
print(data.shape)  # zobrazíme rozmer dátovej tabuľky v tvare (počet riadkov, počet stĺpcov)
print(data.columns)  # zobrazíme názvy stĺpcov

data.head()  # zobrazíme prvých 5 riadkov tabuľky

data.drop(columns="ticket", inplace=True)  # odstránime stĺpec ticket priamo z dátového rámca data

# hodnoty kategorických atribútov môžete premapovať pomocou metódy map objektu typu Series
data["embarked"] = data["embarked"].map({"S": "Southampton", "Q": 'Queenstown', "C": "Cherbourg"})
data["embarked"].value_counts()  # zobrazíme si rôzne hodnoty po nahradení a ich početnosti

# metóda isna vráti tabuľku iba s Boolovskými hodnotami pre každý stĺpec (True - chýbajúca hodnota, False - neprázdna hodnota)
# sum potom spočíta počet hodnôt True (tzn. počet chýbajúcich hodnôt pre každý stĺpec)
data.isna().sum()  # spočítame si počet chýbajúcich hodnôt

data["fare"].hist()  # vykreslíme si histogram hodnôt

# vypočítame si strednú hodnotu a medián
fare_mean = data["fare"].mean()
fare_median = data["fare"].median()
print("fare mean: {0:.4f}, median: {1:.4f}".format(fare_mean, fare_median))

# keďže hodnoty fare sú značne vychýlené, chýbajúce hodnoty nahradíme mediánom, ktorý lepšie charakterizuje
# najčastejšie sa vyskytujúce hodnoty
data["fare"].fillna(fare_median, inplace=True)
data["fare"].isna().sum()  # skontrolujeme počet chýbajúcich hodnôt po nahradení

# vytvoríme si nový atribút family, ktorý bude udávať celkový počet príbuzných (súčet sibsp + parch)
data["family"] = data.eval("sibsp + parch")

p = data["family"].hist()

# vytvoríme si nový binárny atribút has_family, ktorý bude udávať, či pasažier cestoval s rodinou
data["has_family"] = data.eval("family > 0")
data["has_family"].sum()  # spočítame, koľko pasažierov cestovalo s rodinou

# definujeme si funkciu, ktorá z celého reťazca mena vyextrahuje iba časť titulu
def extract_title(name):
    if pd.isna(name):  # pomocou pd.isna otestujeme, či je name prázdna hodnota
        return np.nan  # ak je name prázdna hodnota, vrátime prázdnu hodnotu aj pre titul
                      # (prázdne hodnoty sú v pandas reprezentované číselnou konštantou np.nan - Not A Number)
    start = name.find(",") + 1
    end = name.find(".")
    return name[start:end].strip()  # z mena vrátime podreťazec od , do . (bez prázdnych znakov na začiatku a konci)

# pomocou metódy apply aplikujeme našu funkciu extract_title na všetky hodnoty stĺpca name a vrátené hodnoty uložíme v stĺpci title
data["title"] = data["name"].apply(extract_title)
# stĺpec name už nebudeme potrebovať, tak ho odstránime z dátovej tabuľky
data.drop(columns="name", inplace=True)
# zobrazíme si tituly a koľko krát sa vyskytli
data["title"].value_counts()

# pomocou metódy apply si premapujeme tituly na skrátený zoznam, ktorý priradíme do stĺpca title_short
def map_title(title):
    # všetky hodnostné, alebo šľachtické tituly namapujeme na hodnotu 'rare title'
    if title in {"Master", "Dr", "Rev", "Col", "Major", "Don", "Jonkheer", "Sir", "Dona", "Lady", "Capt", "the Countess"}:
        return "rare title"
    elif title in {"Mlle", "Ms"}:  # tituly z francúzštiny
        return "Miss"
    elif title in {"Mme"}:
        return "Mrs"
    return title

data["title_short"] = data["title"].apply(map_title)
data["title_short"].value_counts()

# v kontingenčnej tabuľke si zoskupíme dáta podľa pohlavia a titulu pasažierov a vypočítame základné štatistiky o veku
# parameter margins=True pridáva do kontingenčnej tabuľky celkové štatistiky pre každý riadok a stĺpec
pd.pivot_table(data, index=["sex", "title_short"], values="age", aggfunc=["median", "mean", "min", "max", "count"], margins=True)

# zaujímavý je nízky vek mužov so šľachtickým titulom, zobrazíme si histogram hodnôt v tejto skupine pasažierov
l = data.query("sex == 'male' and title_short == 'rare title'")["age"].hist()

# najprv si vypočítame medián pre jednotlivé skupiny pomocou kontingenčnej tabuľky
ptable = pd.pivot_table(data, index=["sex", "title_short"], values="age", aggfunc="median")
ptable

# ak chceme napr. vypísať konkrétnu hodnotu na riadku pre kombináciu (female, Miss), musíme zadať index ako n-ticu
# (podobne by sme museli zadať n-ticu hodnôt aj pre stĺpce, ak by sme mali hierarchické označenia stĺpcov)
ptable["age"][("female", "Miss")]

# do premennej age1 si uložíme iba neprázdne hodnoty age (pôvodné dáta sa nezmenia)
age1 = data["age"].dropna()  # metóda dropna vráti iba záznamy s neprázdnymi hodnotami

# definujeme si funkciu, s ktorou nahradíme chýbajúce hodnoty veku podľa pohlavia a titulu
# row bude objekt reprezentujúci jeden riadok v tabuľke
def replace_missing_age(row):
    age = row["age"]  # zistíme si vek, pohlavie a titul pasažiera
    sex = row["sex"]
    title = row["title_short"]
    # ak je vek chýbajúca hodnota, nahradíme ho mediánom v danej skupine určenej podľa pohlavia a titulu
    if pd.isna(age):
        return ptable["age"][(sex, title)]
    else:
        return age  # inak vrátime známu hodnotu

# aplikujeme funkciu replace_missing_age na každý riadok tabuľky (axis=1, prednastavená hodnota axis=0 by aplikovala funkciu po stĺpcoch)
# výsledok sú hodnoty age s nahradenými chýbajúcimi hodnotami, ktoré si uložíme do premennej age2
age2 = data.apply(replace_missing_age, axis=1)

# pre porovnanie si naraz vykreslíme histogram bez nahradenia a po nahradení chýbajúcich hodnôt
p = plt.hist([age1, age2])

data["age"] = age2  # nahradíme stĺpec age s vyplnenými chýbajúcimi hodnotami v pôvodných dátach

data["fare"].describe()  # zobrazíme si základné štatistiky pre atribút fare

data["fare_ordinal"] = pd.cut(data["fare"], 3)  # pomocou metódy cut rozdelíme hodnoty do 3 rovnako veľkých intervalov
data["fare_ordinal"].value_counts()  # zobrazíme si označenia intervalov a ich početnosti

# väčšina hodnôt patrí približne do intervalu od 0-170, pre lepšie pochopenie distribúcie hodnôt si zobrazíme histogram
p = data["fare"].hist(bins=20)  # parameter bins udáva počet intervalov pre výpočet histogramu

# namiesto rozdelenia na rovnako veľké intervaly môžeme dáta rozdeliť pomocou metódy qcut na intervaly
# s približne rovnakým počtom hodnôt
data["fare_ordinal"] = pd.qcut(data["fare"], 3)
data["fare_ordinal"].value_counts()  # zobrazíme si označenia intervalov a ich početnosti

# pri metóde cut môžeme priamo zadať hraničné hodnoty intervalov, napr. rozdelíme fare na intervaly [0-25], (25-100]
# a (100, 520]
# štandardne prvý interval nezahŕňa najmenšiu hodnotu, takže ak chceme zahrnúť aj 0 hodnoty, nastavíme include_lowest na True
data["fare_ordinal"] = pd.cut(data["fare"], bins=[0, 25, 100, 520], include_lowest=True)
data["fare_ordinal"].value_counts()

# označenia intervalov môžeme priamo pomenovať zadaním parametra labels
data["fare_ordinal"] = pd.cut(
    data["fare"], bins=[0, 25, 100, 520], include_lowest=True,
    labels=["normal", "more expensive", "most expensive"]
)
data["fare_ordinal"].value_counts()

# vypočítame tabuľku početností pre všetky kombinácie hodnôt medzi atribútmi pclass a sex
# všimnite si, že do metódy crosstab musíte, na rozdiel od pivot_table, zadať ako index a columns
# priamo dátové atribúty (objekty typu Series)
pd.crosstab(index=data["pclass"], columns=data["sex"])

# podobne ako pri kontingenčnej tabuľke, ako riadky alebo stĺpce môžeme zadať viacero atribútov
# napr. v nasledujúcej tabuľke vypočítame pre každú kombináciu triedy a výšky cestovného,
# koľko žien a koľko mužov si kúpilo daný lístok
pd.crosstab(index=[data["pclass"], data["fare_ordinal"]], columns=data["sex"])

# Najfrekventovanejšiu hodnotu zisťujeme napr. cez value_counts().idxmax()
most_frequent_embarked = data["embarked"].value_counts().idxmax()
print(f"Najfrekventovanejšia hodnota pre 'embarked': {most_frequent_embarked}")

# Nahradíme chýbajúce hodnoty touto najfrekventovanejšou hodnotou
data["embarked"].fillna(most_frequent_embarked, inplace=True)

# skontrolujeme počet chýbajúcich hodnôt po nahradení
print("Počet chýbajúcich hodnôt v 'embarked':", data["embarked"].isna().sum())

data["age_ordinal"] = pd.cut(
    data["age"],
    bins=[0, 13, 19, 65, data["age"].max()],
    include_lowest=True,
    labels=["child", "young", "adult", "old"]
)
data["age_ordinal"].value_counts()

pd.crosstab(index=data["title_short"], columns=data["sex"])

pd.pivot_table(
    data,
    index=["age_ordinal", "pclass"],
    columns="sex",
    values="survived",
    aggfunc="mean",
    margins=True
)

pd.pivot_table(
    data,
    index="fare_ordinal",
    columns="embarked",
    values="survived",
    aggfunc="mean",
    margins=True
)

def extract_deck(cabin):
    """
    Funkcia, ktorá z označenia kajuty vyextrahuje prvé písmeno (palubu).
    Ak cabin nie je k dispozícii (nan), vráti nan.
    """
    if pd.isna(cabin):
        return np.nan
    return cabin[0]  # prvý znak reťazca

data["deck"] = data["cabin"].apply(extract_deck)
data[["cabin", "deck"]].head(10)

# Teraz sa môžeme pozrieť na priemerné prežitie (survived) podľa paluby.
pd.pivot_table(data, index="deck", values="survived", aggfunc="mean")

Obsah¶

Prednáška 5: Spracovanie dát na príklade Titanic¶

Základné nastavenia¶

Dátová množina - Titanic¶

Úprava hodnôt¶

Nahradenie chýbajúcich hodnôt (prvý prístup)¶

Odvodenie nových atribútov¶

Nahradenie chýbajúcich hodnôt (druhý, sofistikovanejší prístup)¶

Diskretizácia (číselné atribúty na ordinálne)¶

Krížové a kontingenčné tabuľky¶

Príklady¶

Príklad - Nahradenie chýbajúcich hodnôt pre atribút `embarked`¶

Príklad - Diskretizácia veku do `age_ordinal`¶

Príklad - Kombinácie pohlavia a titulov¶

Príklad - Kontingenčná tabuľka prežitia podľa veku (`age_ordinal`), triedy a pohlavia¶

Príklad - Vplyv výšky cestovného a miesta nalodenia na prežitie¶

Príklad (bonus) - Označenie paluby (`deck`)¶

Záver¶

Obsah¶

Prednáška 5: Spracovanie dát na príklade Titanic¶

Základné nastavenia¶

Dátová množina - Titanic¶

Úprava hodnôt¶

Nahradenie chýbajúcich hodnôt (prvý prístup)¶

Odvodenie nových atribútov¶

Nahradenie chýbajúcich hodnôt (druhý, sofistikovanejší prístup)¶

Diskretizácia (číselné atribúty na ordinálne)¶

Krížové a kontingenčné tabuľky¶

Príklady¶

Príklad - Nahradenie chýbajúcich hodnôt pre atribút embarked¶

Príklad - Diskretizácia veku do age_ordinal¶

Príklad - Kombinácie pohlavia a titulov¶

Príklad - Kontingenčná tabuľka prežitia podľa veku (age_ordinal), triedy a pohlavia¶

Príklad - Vplyv výšky cestovného a miesta nalodenia na prežitie¶

Príklad (bonus) - Označenie paluby (deck)¶

Záver¶

Príklad - Nahradenie chýbajúcich hodnôt pre atribút `embarked`¶

Príklad - Diskretizácia veku do `age_ordinal`¶

Príklad - Kontingenčná tabuľka prežitia podľa veku (`age_ordinal`), triedy a pohlavia¶

Príklad (bonus) - Označenie paluby (`deck`)¶