import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Načítanie Titanic datasetu z CSV súboru
# Predpokladáme, že súbor 'titanic.csv' je v pracovnom adresári
titanic = pd.read_csv('data/titanic.csv')

# Prehľad základných informácií o datasete
titanic.info()

# Kontrola chýbajúcich hodnôt
titanic.isnull().sum()

# Predspracovanie: Vyplnenie chýbajúcich hodnôt veku strednou hodnotou
titanic['age'].fillna(titanic['age'].median(), inplace=True)

# Odstránenie riadkov s chýbajúcimi hodnotami v stĺpci 'Embarked'
titanic.dropna(subset=['embarked'], inplace=True)

# Vytvorenie nového stĺpca 'FamilySize'
titanic['FamilySize'] = titanic['sibsp'] + titanic['parch'] + 1

# Zobrazenie prvých riadkov po predspracovaní
titanic.head()

# Agregácia dát: Priemerná cena lístka podľa veku
avg_fare_by_age = titanic.groupby('age')['fare'].mean()

# Vytvorenie čiarového grafu
plt.figure(figsize=(12, 6))
plt.plot(avg_fare_by_age.index, avg_fare_by_age.values, color='blue', linewidth=2)
plt.title('Priemerná cena lístka podľa veku', fontsize=16)
plt.xlabel('Vek', fontsize=14)
plt.ylabel('Priemerná cena lístka (£)', fontsize=14)
plt.grid(True, linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

# Agregácia dát: Počet preživších a nepreživších podľa triedy
survival_by_pclass = titanic.groupby(['pclass', 'survived']).size().unstack()

# Vytvorenie stĺpcového grafu
survival_by_pclass.plot(kind='bar', stacked=True, figsize=(10, 7), color=['salmon', 'seagreen'])
plt.title('Počet preživších a nepreživších podľa triedy', fontsize=16)
plt.xlabel('Trieda (Pclass)', fontsize=14)
plt.ylabel('Počet pasažierov', fontsize=14)
plt.legend(title='Stav', labels=['Neprežil', 'Prežil'])
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()

# Vytvorenie histogramu veku
plt.figure(figsize=(12, 6))
plt.hist(titanic['age'], bins=30, color='teal', edgecolor='black', alpha=0.7)
plt.title('Distribúcia veku pasažierov', fontsize=16)
plt.xlabel('Vek', fontsize=14)
plt.ylabel('Počet pasažierov', fontsize=14)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

# Vytvorenie prispôsobeného rozptýleného grafu
plt.figure(figsize=(12, 8))
colors = {'male': 'blue', 'female': 'pink'}

for sex in titanic['sex'].unique():
    subset = titanic[titanic['sex'] == sex]
    plt.scatter(subset['fare'], subset['age'], label=sex.capitalize(),
                color=colors[sex], edgecolor='k', alpha=0.6, s=80)

plt.title('Vzťah medzi cenou lístka a vekom podľa pohlavia', fontsize=16)
plt.xlabel('Cena lístka (£)', fontsize=14)
plt.ylabel('Vek', fontsize=14)
plt.legend(title='Pohlavie')
plt.grid(True, linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

# Počet mužov a žien
sex_counts = titanic['sex'].value_counts()

# Vytvorenie koláčového grafu
plt.figure(figsize=(8, 8))
colors = ['lightblue', 'lightcoral']
explode = (0.05, 0)  # Výstup prvého segmentu

plt.pie(sex_counts, explode=explode, labels=sex_counts.index, colors=colors,
        autopct='%1.1f%%', shadow=True, startangle=140)
plt.title('Podiel pohlavia pasažierov', fontsize=16)
plt.axis('equal')  # Zabezpečí kruhový tvar
plt.tight_layout()
plt.show()

# Vytvorenie subplots
fig, axs = plt.subplots(2, 1, figsize=(12, 14))

# Prvý graf: Priemerná Cena Lístka podľa Triedy
mean_fare = titanic.groupby('pclass')['fare'].mean()
axs[0].bar(mean_fare.index, mean_fare.values, color='skyblue', edgecolor='k')
axs[0].set_title('Priemerná cena lístka podľa triedy', fontsize=16)
axs[0].set_xlabel('Trieda (pclass)', fontsize=14)
axs[0].set_ylabel('Priemerná cena lístka (£)', fontsize=14)
axs[0].grid(axis='y', linestyle='--', alpha=0.7)

# Druhý graf: Priemerný Vek podľa Triedy
mean_age = titanic.groupby('pclass')['age'].mean()
axs[1].bar(mean_age.index, mean_age.values, color='salmon', edgecolor='k')
axs[1].set_title('Priemerný vek podľa triedy', fontsize=16)
axs[1].set_xlabel('Trieda (pclass)', fontsize=14)
axs[1].set_ylabel('Priemerný vek', fontsize=14)
axs[1].grid(axis='y', linestyle='--', alpha=0.7)

plt.tight_layout()
plt.show()

# Nastavenie vlastného štýlu
plt.style.use('ggplot')

# Vytvorenie prispôsobeného rozptýleného grafu
plt.figure(figsize=(14, 10))
colors = {'male': 'blue', 'female': 'pink'}

for sex in titanic['sex'].unique():
    subset = titanic[titanic['sex'] == sex]
    plt.scatter(subset['fare'], subset['age'], label=sex.capitalize(),
                color=colors[sex], edgecolor='k', alpha=0.7, s=100)

plt.title('Vzťah medzi cenou lístka a vekom podľa pohlavia', fontsize=18, fontweight='bold')
plt.xlabel('Cena lístka (£)', fontsize=14)
plt.ylabel('Vek', fontsize=14)
plt.legend(title='Pohlavie', fontsize=12, title_fontsize=14)
plt.grid(True, linestyle='--', alpha=0.7)
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.tight_layout()
plt.show()

import matplotlib.widgets as widgets

%matplotlib widget

import matplotlib.widgets as widgets

%matplotlib widget

# Funkcia na aktualizáciu histogramu
def update_hist(val):
    bins = int(slider.val)
    axs.cla()  # Vyčistenie aktuálneho grafu
    axs.hist(titanic['age'], bins=bins, color='teal', edgecolor='black', alpha=0.7)
    axs.set_title('Distribúcia veku pasažierov', fontsize=16)
    axs.set_xlabel('Vek', fontsize=14)
    axs.set_ylabel('Počet pasažierov', fontsize=14)
    axs.grid(axis='y', linestyle='--', alpha=0.7)
    plt.draw()

# Vytvorenie grafu
fig, axs = plt.subplots(1, 1, figsize=(12, 6))
initial_bins = 30
axs.hist(titanic['age'], bins=initial_bins, color='teal', edgecolor='black', alpha=0.7)
axs.set_title('Distribúcia veku pasažierov', fontsize=16)
axs.set_xlabel('Vek', fontsize=14)
axs.set_ylabel('Počet pasažierov', fontsize=14)

# Pridanie posuvníka pre výber počtu binov
ax_slider = plt.axes([0.25, 0.02, 0.5, 0.03])
slider = widgets.Slider(ax_slider, 'Bins', 10, 50, valinit=initial_bins, valstep=1)
slider.on_changed(update_hist)

plt.tight_layout(rect=[0, 0.05, 1, 1])
plt.show()

Prednáška: pokročilé použitie matplotlib na konkrétnom datasete (Titanic)¶

Obsah¶

1. Úvod do dátovej vizualizácie a matplotlib¶

2. Načítanie a predspracovanie dát¶

Vysvetlenie:¶

3. Čiarové grafy a trendové analýzy¶

Ukážka: priemerná cena lístka podľa veku¶

Vysvetlenie:¶

4. Stĺpcové grafy a kategorizácia¶

Ukážka: počet preživších a nepreživších podľa triedy¶

Vysvetlenie:¶

5. Histogramy a distribučné analýzy¶

Ukážka: Distribúcia veku pasažierov¶

Vysvetlenie:¶

6. Rozptýlené grafy a korelačné vzťahy¶

Ukážka: vzťah medzi cenou lístka a vekom podľa pohlavia¶

Vysvetlenie:¶

7. Koláčové grafy a proporčné zobrazenia¶

Ukážka: podiel pohlavia pasažierov¶

Vysvetlenie:¶

8. Subplots a kombinované vizualizácie¶

Ukážka: priemerná cena lístka a priemerný vek podľa triedy¶

Vysvetlenie:¶

9. Prispôsobenie vzhľadu grafov (styling a témy)¶

Ukážka: Prispôsobený rozptýlený graf s vlastným štýlom¶

Vysvetlenie:¶

10. Pokročilé techniky a interaktívne grafy¶

Ukážka: Interaktívny histogram s posuvníkom pre výber binov¶

Vysvetlenie:¶

11. Záver a Diskusia¶

Zhrnutie:¶

Reference¶