install.packages("dplyr")


library(dplyr)


#__________________ variables __________________________________________
df1 = data.frame(ID = c(1, 2, 3, 4, 5),
                 w = c('a', 'b', 'c', 'd', 'e'),
                 x = c(1, 1, 0, 0, 1),
                 y = rnorm(5),
                 z = letters[1:5])
df2 = data.frame(ID = c(1, 7, 3, 6, 8),
                 a = c('z', 'b', 'k', 'd', 'l'),
                 b = c(1, 2, 3, 0, 4),
                 c = rnorm(5),
                 d = letters[2:6])


inner_join(df1, df2, by = "ID")


left_join(df1, df2, by = "ID")


right_join(df1, df2, by = "ID")


#___________________________ cases __________________________________________
x=c(1,2)
y=c(2,3)

intersect(x, y)
union(x, y)
setdiff(x, y)


#__________________ bind cols/rows __________________________________________
df1=data.frame(ID = 1:6,  x=letters[1:6])
df1
df2=data.frame(ID = 7:12, x=letters[7:12])
df2


bind_rows(df1,df2)  # ekvivalent xy = rbind(df1,df2)


bind_cols(df1,df2)  # ekvivalent xy = cbind(df1,df2)


dataset = read.csv("https://raw.githubusercontent.com/deepanshu88/data/master/sampledata.csv")


sample_n(dataset, 3)


sample_frac(dataset, 0.1)


distinct(dataset)


distinct(dataset, Index, .keep_all= TRUE)


distinct(dataset, Index, .keep_all= FALSE)


filter(dataset, Index == "A")


filter(dataset, Index  %in% c("A", "C"))


filter(dataset, !Index %in% c("A", "C"))


filter(dataset, Index  %in% c("A", "C") & Y2002 >= 1300000 )


filter(dataset, Index  %in% c("A", "C") | Y2002 >= 1300000)


slice(dataset,3:10)


arrange(dataset,Y2011)


arrange(dataset, desc(Y2011))


select(dataset, Index, State:Y2008)


select(dataset, -Index, -State)


select(dataset, starts_with("Y"))


select(dataset, -starts_with ("Y"))


select(dataset, contains("St"))


select(dataset, State, everything())


select_if(dataset, is.numeric)


select_if(dataset, is.factor)


mutate(dataset, new=Y2015/Y2014)


mutate_all(dataset, funs("new" = .* 1000))


mutate_if(dataset, is.numeric, funs("new" = .* 1000))


mutate_at(dataset, vars(Y2008:Y2010), funs(Rank=min_rank(.)))


mutate_at(dataset, vars(Y2008:Y2010), funs(Rank=min_rank(desc(.))))


rename(dataset, Zac.pismeno=Index)


summarise(dataset, mean(Y2015), median(Y2015))


summarise_at(dataset, vars(Y2005, Y2006), funs(n(), mean, median))


summarise_at(dataset, vars(Y2005, Y2006), list(~n(), ~mean(.), ~median(.)))


summarise_if(dataset, is.numeric, funs(n(),mean,median))


summarise_all(dataset["Index"], funs(nlevels(.), nmiss=sum(is.na(.))))


sample_n(select(dataset, Index, State),10)

# or 

dataset %>% 
    select(Index, State) %>% 
    sample_n(10)


summarise_at(group_by(dataset, Index), vars(Y2011, Y2012), funs(n()))

# or

dataset %>%
    group_by(Index) %>% 
    summarise_at(vars(Y2011:Y2012), funs(n()))


# function do()
dataset %>% 
    filter(Index %in% c("A", "C","I"))%>% 
    group_by(Index) %>% 
    do(head( . , 2))


dataset %>%
    select(Index, Y2015) %>%  
    filter(Index %in% c("A", "C","I")) %>%  
    group_by(Index) %>% 
    do(arrange(.,desc(Y2015)))


dataset %>% 
    select(Index, Y2015) %>%  
    filter(Index %in% c("A", "C","I")) %>%  
    group_by(Index) %>% 
    do(arrange(.,desc(Y2015))) %>%  
    slice(3)


dataset %>% 
    group_by(Index) %>% 
    filter(min_rank(desc(Y2015)) == 1) %>% 
    select(Index, State, Y2015)

Operátor	Popis
`==`	Rovná sa
`%in%`	Výber viacerých položiek
`&`	logický operátor AND
`\|`	logický operátor OR
`!`	negácia NOT

Funkcia	Popis
`select_n(dataframe,n)`	Náhodný výber `n` riadkov
`select_frac(dataframe,n)`	Náhodný výber `n %` riadkov, `n` zadávame ako desatinné číslo
`distict(daframe, variables , .keep_all)`	Odstránenie duplikátov: `variables` podmieňuje odstránenie podľa atribútov `.keep_all` môže nadobúdať hodnotu `TRUE` alebo `FALSE` a používa sana zachovanie všetkých ostatných premenných vo výstupnom dátovom rámci.
`filter(dataframe, logical conditions)`	Výber podmnožiny údajov (riadkov) so zodpovedajúcimi logickými podmienkami
`slice()`	Výber riadkov podľa polohy
`arrange(dataframe, variable(s)_to_sort)`	Zoradenie údajov

Funkcia	Popis
`select(dataframe, variables)`	Výber požadovaných atribútov: `var1:var2`: výber atribútu `var1` až `var2` `-var`: odstránenie atribútu `var` `starts_with(" ")`: výber atribútu začínajúci písmenom/písmenami `end_with(" ")`: odtránenie atribútu s posledným písmenom/písmenami `contains(" ")`: obsahuje doslovný reťazec `everything()`: zmena poradia stĺpcov
`select_if(dataframe, condition)`	Podmienený výber atribútov
`mutate(dataframe, expression(s))`	Vytvorenie nového atribútu
`mutate_all(dataframe, expression(s))`	Vytvorenie nových `n` atribútov z pôvodných `n` atribútov, aplikovaním vybraného výrazu
`mutate_if(dataframe, condition, expression(s))`	Podmienené vytvorenie nových atribútov
`mutate_at(dataframe, variables, expression(s))`	Vytvorenie nových atribútov, aplikovaním výrazu na povodné atribúty
`rename()`	Premenovanie atribútu

Funkcia	Popis
`group_by(dataframe, variables`	Zoskupi dáta avšak nezmení spôsob zobrazenia údajov
`summarize(dataframe, summary function)`	Sumarizácia, agregácia údajov
`summarize_at(dataframe, variables, summary function)`	Sumarizácia viacrých premenných, výber podľa ich názvu
`summarize_if(dataframe, condition, summary function)`	Podmienená sumarizácia, summarizuje premenné vybrané pomocou zadanej podmienky
`summarize_all(dataframe, summary function)`	Sumarizuje všetky atribúty

Cvičenie 3 - Práca s knižnicou `dplyr`

Základné kombinácie dvoch tabuliek¶

1. Manipulate Cases¶

Príklady:¶

2. Manipulate Variables¶

Príklady:¶

3. Summarise Cases¶

4. Pipe Operator `%>%` syntax¶

Úlohy

Úloha 3.1

Úloha 3.2

Úlohy na precvičenie

Úloha 3.3

Úloha 3.4

Cvičenie 3 - Práca s knižnicou dplyr

Základné kombinácie dvoch tabuliek¶

1. Manipulate Cases¶

Príklady:¶

2. Manipulate Variables¶

Príklady:¶

3. Summarise Cases¶

4. Pipe Operator %>% syntax¶

Úlohy

Úloha 3.1

Úloha 3.2

Úlohy na precvičenie

Úloha 3.3

Úloha 3.4

Cvičenie 3 - Práca s knižnicou `dplyr`

4. Pipe Operator `%>%` syntax¶