import numpy as np

# Vytvorenie NumPy poľa z Python zoznamu
python_zoznam = [1, 2, 3, 4, 5]
np_pole = np.array(python_zoznam)
print("NumPy pole:", np_pole)

# Základné operácie s poľom
print("Tvar poľa:", np_pole.shape)
print("Dátový typ poľa:", np_pole.dtype)

# Vytvorenie viacrozmerného poľa
viacrozmerne = np.array([[1, 2, 3], [4, 5, 6]])
print("Viacrozmerné pole:\n", viacrozmerne)

# Indexovanie a rezanie poľa
print("Prvý prvok:", np_pole[0])
print("Rez [1:4]:", np_pole[1:4])

# Zmena tvaru viacrozmerného poľa
zmenene_tvar = viacrozmerne.reshape(3, 2)
print("Zmenené tvar poľa:\n", zmenene_tvar)

# Agregačné funkcie
print("Priemer:", np_pole.mean())
print("Súčet:", np_pole.sum())
print("Štandardná odchýlka:", np_pole.std())

# Operácie na prvkoch
pole_na_druhou = np_pole ** 2
print("Pole na druhú:", pole_na_druhou)

import pandas as pd

# Vytvorenie Pandas Series
data = [10, 20, 30, 40, 50]
series = pd.Series(data, index=['a', 'b', 'c', 'd', 'e'])
print("Pandas Series:\n", series)

# Vytvorenie Pandas DataFrame z slovníka
data = {
    'Meno': ['Alice', 'Bob', 'Charlie'],
    'Vek': [25, 30, 35],
    'Mesto': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print("Pandas DataFrame:\n", df)

import pandas as pd

# Vytvorenie DataFrame
data = {
    'Produkt': ['Notebook', 'Tablet', 'Smartfón', 'Monitor'],
    'Cena': [1200, 300, 800, 200],
    'Množstvo': [10, 50, 100, 75]
}
df = pd.DataFrame(data)
df

# Zobrazenie informácií o DataFrame
df.info()

# Výber jedného stĺpca
ceny = df['Cena']
ceny

# Výber viacerých stĺpcov
podmnozina = df[['Produkt', 'Množstvo']]
podmnozina

# Filtrovanie riadkov na základe podmienky
drahé_produkty = df[df['Cena'] > 500]
drahé_produkty

# Pridanie nového stĺpca
df['Celková hodnota'] = df['Cena'] * df['Množstvo']
df

# Spracovanie chýbajúcich dát
df_s_nan = df.copy()
df_s_nan.loc[2, 'Cena'] = None
print("\nDataFrame s chýbajúcou hodnotou:\n", df_s_nan)
print("\nSpracovanie chýbajúcich hodnôt nahradením priemerom:")
df_s_nan['Cena'].fillna(df_s_nan['Cena'].mean(), inplace=True)
df_s_nan

# Skupinovanie a agregácia
skupina = df.groupby('Produkt').sum()
skupina

# Spájanie DataFrame
dodatocne_data = {
    'Produkt': ['Notebook', 'Tablet', 'Smartfón', 'Monitor'],
    'Záruka': ['2 roky', '1 rok', '1 rok', '3 roky']
}
záruka_df = pd.DataFrame(dodatocne_data)
spojeny_df = pd.merge(df, záruka_df, on='Produkt')
spojeny_df

# importujeme potrebné knižnice, tento odstavec by mal byť spustený ako prvý predtým ako sa budú používať
import pandas as pd
import numpy as np

# načítame dáta za rok 2015 zo súboru 2015.csv
data_2015 = pd.read_csv("data/2015.csv")

# zobrazíme si názvy stĺpcov (vlasnosť columns je objekt typu pandas.Index, ktorý reprezentuje postupnosť indexov pre
# riadky, alebo stĺpce tabuľky, pristupuje sa k nemu podobne ako ku zoznamu)
data_2015.columns

# rozmer dátovej tabuľky zistíme z vlastnosti shape
print(data_2015.shape[0]) # prvý rozmer - počet riadkov
print(data_2015.shape[1]) # druhý rozmer - počet stĺpcov

# k dátam pristupujeme indexovaním, napr. vypíšeme hodnotu stĺpca 'Country' na prvom riadku tabuľky (index 0)
print(data_2015['Country'][0])

scores = data_2015['Score'] # scores je objekt typu pandas.Series, ktorý reprezentuje jeden stĺpec tabuľky

# pre číselné stĺpce môžeme vypočítať priamo základné štatistiky
score_count = scores.count()      # počet neprázdnych hodnôt
score_mean = scores.mean()        # priemerná hodnota
score_std = scores.std()          # štandardná odchýlka výberu
score_min = scores.min()          # minimálna hodnota
score_max = scores.max()          # maximálna hodnota
score_q25 = scores.quantile(0.25) # 25% kvartil
score_q50 = scores.quantile(0.5)  # 50% kvartil - medián
score_q75 = scores.quantile(0.75) # 75% kvartil

# štatistiky pre všetky číselné atribúty tabuľky môžeme vypočítať aj naraz pomocou metódy describe()
data_2015.describe()

# pre kategorické atribúty môžeme zobraziť zoznam rôznych hodnôt a ich početnosti
# napr. pre 'Region'
data_2015['Region'].value_counts()

# stĺpce sa odstráňujú pomocou metódy drop
# štandardne metóda drop nezmení pôvodný dátový rámec, ale vytvorí nový, takže si zmeníme premennu data_2015
# na novú hodnotu
data_2015 = data_2015.drop(columns="StdError")
# do tabuľky pridáme stĺpec 'Year', ktorého hodnotu nastavíme na 2015 pre všetky riadky
data_2015["Year"] = 2015
# pomocou metódy head si zobrazíme prvé riadky tabuľky (štandardne metóda head vracia nový objekt DataFrame s prvými
# 5 riadkami pôvodnej tabuľky)
data_2015.head()

# načítame dáta za rok 2016
data_2016 = pd.read_csv("data/2016.csv")
# ak v metóde drop nastavíme parameter inplace na True, stĺpec sa odstráni priamo v pôvodnom rámci a nevytvorí sa
# nový, ako parameter columns môžete naraz zadať zoznam viacerých stĺpcov, ktoré sa majú odstrániť
data_2016.drop(columns=["LowerConfidence", "UpperConfidence"], inplace=True)
# pridáme stĺpec Year
data_2016["Year"] = 2016

# pre výpis riadkov môžete pre metódu head zadať počet riadkov, ktoré sa majú zobraziť
data_2016.head(1) # vypíšeme 1 riadok

# pridáme do tabuľky nový stĺpec Score, ktorého hodnotu pre každý riadok vypočítame ako súčet atribútov GDP, Family,
# Health, Freedom, Trust, Generosity a Dystopia
data_2016["Score"] = data_2016.eval("GDP + Family + Health + Freedom + Trust + Generosity + Dystopia")

# stĺpec Rank sa určuje podľa celkového poradia krajín zoradených podľa skóre od najväčšieho po najmenšie
# zoradíme si riadky tabuľky podľa skóre v zostupnom poradí
data_2016.sort_values(by="Score", ascending=False)
# pre kontrolu si zobrazíme 3 prvé a 3 posledné krajiny
data_2016.head(3)

# metóda tail vracia posledné riadky tabuľky
data_2016.tail(3)

# keďže dáta máme zoradené zostupne podľa celkového skóre, hodnoty v stĺpci poradia Rank nastavíme na 
# postupnosť čísel 1, 2, ..., počet krajín (počet riadkov v tabuľke)
data_2016["Rank"] = range(1, data_2016.shape[0] + 1)
data_2016.head()

data_2017 = None

# pomocou metódy concat si spojíme dáta za všetky roky do jednej tabuľky, parameter sort=False a ignore_index=True
# udáva, že sa riadky nemajú preusporiadať podľa ich pôvodných indexov a že sa zachová poradanie v akom sú uvedené
# spájané tabuľky (tzn. najprv všetky riadky 2015, potom 2016 a na koniec 2017)
data = pd.concat([data_2015, data_2016, data_2017], ignore_index=True, sort=False)
data.head(1)

# vyberieme iba stĺpce Contry, Rank, Score a Year
selected = data[["Country", "Rank", "Score", "Year"]]

# vyberieme iba riadky o Slovensku
selected.query("Country == 'Slovakia'")

selected[selected["Country"] == "Slovakia"]

# pri filtrovaní riadkov môžete zadať zložitejšiu podmienku s operátormi <, >, <=, >=, !=, ==, in [zoznam],
# not in [zoznam] a s logickými spojkami and, or a not

# napr. odfitrujeme riadky o našich susedoch za rok 2017 a výsledok usporiadame podľa celkového poradia krajín
q = "Country in ['Slovakia', 'Czech Republic', 'Poland', 'Hungary', 'Ukraine', 'Austria'] and Year == 2017"
selected.query(q).sort_values(by="Rank")

mask = (
    selected["Country"].isin(["Slovakia", "Czech Republic", "Poland", "Hungary", "Ukraine", "Austria"])
) & (selected["Year"] == 2017)

selected.loc[mask].sort_values(by="Rank")

# napr. na výpočet priemerného skóre pre všetky krajiny v danom roku môžeme zadať
pd.pivot_table(data, index="Year", values="Score")

# dáta môžeme zoskupiť podľa viacerých kategorických atribútov naraz,
# napr. podľa regiónu a roku
pd.pivot_table(data, index=["Region", "Year"], values="Score")

# kontingenčnú tabuľku môžeme preusporiadať presunutím niektorých kategorických atribútov z riadkov tabuľky
# (parameter index) na stĺpce (parameter columns)
# napr. predchádzajúcu tabuľku môžeme prehľadnejšie zobraziť nasledovne
table = pd.pivot_table(data, index="Region", columns="Year", values="Score")
table

# hodnoty kontingenčnej tabuľky si môžeme priamo graficky zobraziť napr. ako horizontálny stĺpcový graf
table.plot(kind="barh")

# v jednej tabuľke môžete vypočítať viacero agregačných funkcií nastavením parametra aggfunc na zoznam funkcií,
# napr. pre výpočet priemernej hodnoty a štandardnej odchýlky skóre pre každý región:
pd.pivot_table(data, index="Region", values="Score", aggfunc=["mean", "std"])

# môžete naraz vypočítať aj rôzne agregačné funkcie pre rôzne číselné atribúty
# napr. v nasledujúcej tabuľke vypočítame priemernú hodnotu pre skóre (Score) a minimálnu a maximálnu hodnotu
# pre poradie (Rank) pre každý región
pd.pivot_table(data, index="Region", values=["Score", "Rank"], aggfunc={"Score": "mean", "Rank": ["min", "max"]})

# vyberieme si iba číselné atribúty ukazovateľov
factors = data[["GDP", "Family", "Health", "Freedom", "Trust",  "Generosity"]]
# pomocou metódy corr vypočítame korelačnú tabuľku
corr_table = factors.corr()
corr_table

# Jednoduche vykreslenie histogramu stlpca GDP v dataset 2015
factors['GDP'].plot(kind='hist', title='Histogram GDP (rok 2015)')

Prednáška 4: Úvod do Pandas a NumPy¶

Obsah¶

Úvod¶

Prehľad NumPy¶

Čo je NumPy?¶

Kľúčové vlastnosti NumPy¶

Základné operácie s NumPy¶

Príklady kódu¶

Prehľad Pandas¶

Čo je Pandas?¶

Kľúčové vlastnosti Pandas¶

Dátové štruktúry v Pandas¶

1. Series¶

2. DataFrame¶

Základné operácie s Pandas¶

Príklady kódu¶

Praktická ukážka¶

Základné nastavenia¶

Dátová množina - Správa o šťastí sveta¶

Načítanie dát a základné štatistiky¶

Príprava dát¶

Úloha¶

Výber dát¶

Závislosti medzi atribútmi¶

Závislosti medzi kategorickými a číselnými atribútmi¶

Závislosti medzi číselnými atribútmi - korelácia¶

Záver¶

Referencie¶