diff --git a/lessons/pydata/eda-univariate-timeseries/info.yml b/lessons/pydata/eda-univariate-timeseries/info.yml
index efd2e4114b..5f69919974 100644
--- a/lessons/pydata/eda-univariate-timeseries/info.yml
+++ b/lessons/pydata/eda-univariate-timeseries/info.yml
@@ -1,4 +1,4 @@
-title: EDA 3 - Analýza jedné proměnné a časových řad
+title: Analýza jedné proměnné a časových řad
style: ipynb
attribution: Pro PyDataCZ napsal Jakub Urban, 2019.
license: cc-by-sa-40
diff --git a/lessons/pydata/pandas_types/index.ipynb b/lessons/pydata/pandas_types/index.ipynb
new file mode 100644
index 0000000000..556743a1f6
--- /dev/null
+++ b/lessons/pydata/pandas_types/index.ipynb
@@ -0,0 +1,7310 @@
+{
+ "cells": [
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "# Pandas - datové typy a manipulace se sloupci\n",
+ "\n",
+ "V minulé lekci jsme si představili knihovnu pandas a její základní třídy: `Series`, `DataFrame` a `Index`. Brali jsme je ovšem jako statické objekty, které jsme si pouze prohlíželi.\n",
+ "\n",
+ "V této lekci začneme upravovat existující tabulky. Ukážeme si:\n",
+ "\n",
+ "* jak přidat či ubrat sloupce a řádky\n",
+ "* jak změnit hodnotu konkrétní buňky\n",
+ "* jaké datové typy se hodí pro který účel\n",
+ "* aritmetické a logické operace, které lze se sloupci provádět\n",
+ "* filtrování a řazení řádků\n",
+ "\n",
+ "A jelikož o výsledky práce určitě nechceš přijít, přijde nakonec vhod i ukládání výsledků do externích souborů."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 1,
+ "metadata": {},
+ "outputs": [],
+ "source": [
+ "# Obligátní import\n",
+ "import pandas as pd"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Manipulace s DataFrames\n",
+ "\n",
+ "Pro rozehřátí budeme pracovat s malou tabulkou obsahující několik základních informací o planetách, které snadno najdeš např. na [wikipedii](https://en.wikipedia.org/wiki/Planet)."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 2,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/html": [
+ "
\n",
+ "\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
\n",
+ "
symbol
\n",
+ "
obezna_poloosa
\n",
+ "
obezna_doba
\n",
+ "
\n",
+ "
\n",
+ "
jmeno
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ " \n",
+ " \n",
+ "
\n",
+ "
Merkur
\n",
+ "
☿
\n",
+ "
0.39
\n",
+ "
0.24
\n",
+ "
\n",
+ "
\n",
+ "
Venuše
\n",
+ "
♀
\n",
+ "
0.72
\n",
+ "
0.62
\n",
+ "
\n",
+ "
\n",
+ "
Země
\n",
+ "
⊕
\n",
+ "
1.00
\n",
+ "
1.00
\n",
+ "
\n",
+ "
\n",
+ "
Mars
\n",
+ "
♂
\n",
+ "
1.52
\n",
+ "
1.88
\n",
+ "
\n",
+ "
\n",
+ "
Jupiter
\n",
+ "
♃
\n",
+ "
5.20
\n",
+ "
11.86
\n",
+ "
\n",
+ "
\n",
+ "
Saturn
\n",
+ "
♄
\n",
+ "
9.54
\n",
+ "
29.46
\n",
+ "
\n",
+ "
\n",
+ "
Uran
\n",
+ "
♅
\n",
+ "
19.22
\n",
+ "
84.01
\n",
+ "
\n",
+ "
\n",
+ "
Neptun
\n",
+ "
♆
\n",
+ "
30.06
\n",
+ "
164.80
\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
"
+ ],
+ "text/plain": [
+ " symbol obezna_poloosa obezna_doba\n",
+ "jmeno \n",
+ "Merkur ☿ 0.39 0.24\n",
+ "Venuše ♀ 0.72 0.62\n",
+ "Země ⊕ 1.00 1.00\n",
+ "Mars ♂ 1.52 1.88\n",
+ "Jupiter ♃ 5.20 11.86\n",
+ "Saturn ♄ 9.54 29.46\n",
+ "Uran ♅ 19.22 84.01\n",
+ "Neptun ♆ 30.06 164.80"
+ ]
+ },
+ "execution_count": 2,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "planety = pd.DataFrame({\n",
+ " \"jmeno\": [\"Merkur\", \"Venuše\", \"Země\", \"Mars\", \"Jupiter\", \"Saturn\", \"Uran\", \"Neptun\"],\n",
+ " \"symbol\": [\"☿\", \"♀\", \"⊕\", \"♂\", \"♃\", \"♄\", \"♅\", \"♆\"],\n",
+ " \"obezna_poloosa\": [0.39, 0.72, 1.00, 1.52, 5.20, 9.54, 19.22, 30.06],\n",
+ " \"obezna_doba\": [0.24, 0.62, 1, 1.88, 11.86, 29.46, 84.01, 164.8],\n",
+ "})\n",
+ "planety = planety.set_index(\"jmeno\") # S jmenným indexem se ti bude snáze pracovat\n",
+ "planety"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Přidání nového sloupce\n",
+ "\n",
+ "Když chceme přidat nový sloupec (`Series`), přiřadíme ho do `DataFrame` jako hodnotu do slovníku - tedy v hranatých závorkách s názvem sloupce. Dobrá zpráva je, že stejně jako v konstruktoru si `pandas` \"poradí\" jak se `Series`, tak s obyčejným seznamem.\n",
+ "\n",
+ "V našem konkrétním případě si najdeme a přidáme počet známých měsíců (velkých i malých)."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 3,
+ "metadata": {
+ "scrolled": true
+ },
+ "outputs": [
+ {
+ "data": {
+ "text/html": [
+ "
\n",
+ "\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
\n",
+ "
symbol
\n",
+ "
obezna_poloosa
\n",
+ "
obezna_doba
\n",
+ "
mesice
\n",
+ "
\n",
+ "
\n",
+ "
jmeno
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ " \n",
+ " \n",
+ "
\n",
+ "
Merkur
\n",
+ "
☿
\n",
+ "
0.39
\n",
+ "
0.24
\n",
+ "
0
\n",
+ "
\n",
+ "
\n",
+ "
Venuše
\n",
+ "
♀
\n",
+ "
0.72
\n",
+ "
0.62
\n",
+ "
0
\n",
+ "
\n",
+ "
\n",
+ "
Země
\n",
+ "
⊕
\n",
+ "
1.00
\n",
+ "
1.00
\n",
+ "
1
\n",
+ "
\n",
+ "
\n",
+ "
Mars
\n",
+ "
♂
\n",
+ "
1.52
\n",
+ "
1.88
\n",
+ "
2
\n",
+ "
\n",
+ "
\n",
+ "
Jupiter
\n",
+ "
♃
\n",
+ "
5.20
\n",
+ "
11.86
\n",
+ "
79
\n",
+ "
\n",
+ "
\n",
+ "
Saturn
\n",
+ "
♄
\n",
+ "
9.54
\n",
+ "
29.46
\n",
+ "
82
\n",
+ "
\n",
+ "
\n",
+ "
Uran
\n",
+ "
♅
\n",
+ "
19.22
\n",
+ "
84.01
\n",
+ "
27
\n",
+ "
\n",
+ "
\n",
+ "
Neptun
\n",
+ "
♆
\n",
+ "
30.06
\n",
+ "
164.80
\n",
+ "
14
\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
"
+ ],
+ "text/plain": [
+ " symbol obezna_poloosa obezna_doba mesice\n",
+ "jmeno \n",
+ "Merkur ☿ 0.39 0.24 0\n",
+ "Venuše ♀ 0.72 0.62 0\n",
+ "Země ⊕ 1.00 1.00 1\n",
+ "Mars ♂ 1.52 1.88 2\n",
+ "Jupiter ♃ 5.20 11.86 79\n",
+ "Saturn ♄ 9.54 29.46 82\n",
+ "Uran ♅ 19.22 84.01 27\n",
+ "Neptun ♆ 30.06 164.80 14"
+ ]
+ },
+ "execution_count": 3,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "mesice = [0, 0, 1, 2, 79, 82, 27, 14] # Alternativně mesice = pd.Series([...])\n",
+ "planety[\"mesice\"] = mesice\n",
+ "planety"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "💡 V tomto případě jsme přímo upravili existující `DataFrame`. Většina metod / operací v `pandas` (už znáš např. `set_index`) ve výchozím nastavení vždy vrací nový objekt - je to dobrým zvykem, který budeme dodržovat. Přiřazování sloupců je jednou z akceptovaných výjimek tohoto jinak uznávaného pravidla, zejména když se tabulka upravuje jen v úzkém rozsahu řádků kódů.\n",
+ " \n",
+ "`DataFrame` však nabízí ještě metodu `assign`, která nemění tabulku, ale vytváří její kopii s přidanými (nebo nahrazenými) sloupci. Pokud se chceš vyhnout nepříjemnému sledování, kterou tabulku jsi změnil/a či nikoliv, `assign` ti můžeme jen doporučit.\n",
+ "\n",
+ "Mimochodem, kopii tabulky můžeš kdykoliv vytvořit metodou [`copy`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.copy.html) - to se hodí třeba při psaní funkcí, kde se vstupní tabulka z různých důvodů upravuje."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 4,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/html": [
+ "
"
+ ],
+ "text/plain": [
+ " symbol obezna_poloosa obezna_doba mesice je_obr\n",
+ "jmeno \n",
+ "Merkur ☿ 0.39 0.24 0 False\n",
+ "Venuše ♀ 0.72 0.62 0 False\n",
+ "Země ⊕ 1.00 1.00 1 False\n",
+ "Mars ♂ 1.52 1.88 2 False\n",
+ "Jupiter ♃ 5.20 11.86 79 True\n",
+ "Saturn ♄ 9.54 29.46 82 True\n",
+ "Uran ♅ 19.22 84.01 27 True\n",
+ "Neptun ♆ 30.06 164.80 14 True"
+ ]
+ },
+ "execution_count": 12,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "planety = planety.drop(\"je_planeta\", axis=\"columns\") \n",
+ "planety"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "⛧ Metoda `drop`, v souladu s výše zmíněnou konvencí, vrací nový `DataFrame` (a proto výsledek operace musíme přiřadit do `planety`). Pokud chceš operovat rovnou na tabulce, můžeš použít příkaz `del` (funguje stejně jako u slovníku) nebo poprosit pandí bohy (a autory těchto materiálů) o odpuštění a přidat argument `inplace=True` (tento argument lze, bohužel, použít i mnoha dalších operací):"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 13,
+ "metadata": {},
+ "outputs": [],
+ "source": [
+ "# Jen na vlastní nebezpečí\n",
+ "\n",
+ "# Alternativa 1)\n",
+ "# del planety[\"je_planeta\"]\n",
+ "\n",
+ "# Alternativa 2)\n",
+ "# planety.drop(\"je_planeta\", axis=1, inplace=True)"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "#### Datové typy\n",
+ "\n",
+ "Jak už jsme předeslali, datové typy v pandas se trochu liší od typů v Pythonu a nejsou to v pravém slova smyslu třídy, ale naštěstí konverze mezi nimi je často automatická a \"chovající se dle očekávání\"."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "#### Příprava dat\n",
+ "\n",
+ "V datovém kurzu budeme využívat různých datových sad (obvykle větších - takových, kde není praktické je celé zapsat v konstruktoru). Nyní opustíme planety a podíváme se na některé zajímavé charakteristiky zemí kolem světa (ježto definice toho, co je to země, je poněkud vágní, bereme v potaz členy OSN), zachycené k jednomu konkrétnímu roku uplynulé dekády (protože ne vždy jsou všechny údaje k dispozici, bereme poslední rok, kde je známo dost ukazatelů). Data pocházejí povětšinou z projektu [Gapminder](https://www.gapminder.org/), doplnili jsme je jen o několik dalších informací z wikipedie.\n",
+ "\n",
+ "Následující kód (nemusíš mu rozumět) stáhne potřebný soubor a uloží ho v místním adresáři. Alternativně ho můžeš stáhnout manuálně z [https://raw.githubusercontent.com/janpipek/data-pro-pyladies/master/data/countries.csv](https://raw.githubusercontent.com/janpipek/data-pro-pyladies/master/data/countries.csv)."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 14,
+ "metadata": {},
+ "outputs": [
+ {
+ "name": "stdout",
+ "output_type": "stream",
+ "text": [
+ "Soubor countries.csv už byl stažen, použijeme místní kopii.\n"
+ ]
+ }
+ ],
+ "source": [
+ "# Nutné importy ze standardní knihovny\n",
+ "import os\n",
+ "from urllib.request import urlretrieve\n",
+ "\n",
+ "# Seznam souborů (viz níže)\n",
+ "zdroj = \"https://raw.githubusercontent.com/janpipek/data-pro-pyladies/master/data/countries.csv\"\n",
+ "jmeno = zdroj.rsplit(\"/\")[-1]\n",
+ "\n",
+ "if not os.path.exists(jmeno):\n",
+ " print(f\"Soubor {jmeno} ještě není stažen, jdeme na to...\")\n",
+ " urlretrieve(url=zdroj, filename=jmeno)\n",
+ " print(f\"Soubor {jmeno} úspěšně stažen.\")\n",
+ "else:\n",
+ " print(f\"Soubor {jmeno} už byl stažen, použijeme místní kopii.\")"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "A otevřeme ho pomocí již známé funkce `read_csv` (Poznámka: `pandas` umí otevřít soubor i přímo z internetu, ale raději použijeme místní kopii, aby ses mohl/a k práci vrátit i off-line)."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 15,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/html": [
+ "
\n",
+ "\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
\n",
+ "
iso
\n",
+ "
world_6region
\n",
+ "
world_4region
\n",
+ "
income_groups
\n",
+ "
is_eu
\n",
+ "
is_oecd
\n",
+ "
eu_accession
\n",
+ "
year
\n",
+ "
area
\n",
+ "
population
\n",
+ "
alcohol_adults
\n",
+ "
bmi_men
\n",
+ "
bmi_women
\n",
+ "
car_deaths_per_100000_people
\n",
+ "
calories_per_day
\n",
+ "
infant_mortality
\n",
+ "
life_expectancy
\n",
+ "
life_expectancy_female
\n",
+ "
life_expectancy_male
\n",
+ "
un_accession
\n",
+ "
\n",
+ "
\n",
+ "
name
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ " \n",
+ " \n",
+ "
\n",
+ "
Afghanistan
\n",
+ "
AFG
\n",
+ "
south_asia
\n",
+ "
asia
\n",
+ "
low_income
\n",
+ "
False
\n",
+ "
False
\n",
+ "
NaN
\n",
+ "
2018
\n",
+ "
652860.0
\n",
+ "
34500000.0
\n",
+ "
0.03
\n",
+ "
20.62
\n",
+ "
21.07
\n",
+ "
NaN
\n",
+ "
2090.0
\n",
+ "
66.3
\n",
+ "
58.69
\n",
+ "
65.812
\n",
+ "
63.101
\n",
+ "
1946-11-19
\n",
+ "
\n",
+ "
\n",
+ "
Albania
\n",
+ "
ALB
\n",
+ "
europe_central_asia
\n",
+ "
europe
\n",
+ "
upper_middle_income
\n",
+ "
False
\n",
+ "
False
\n",
+ "
NaN
\n",
+ "
2018
\n",
+ "
28750.0
\n",
+ "
3238000.0
\n",
+ "
7.29
\n",
+ "
26.45
\n",
+ "
25.66
\n",
+ "
5.978
\n",
+ "
3193.0
\n",
+ "
12.5
\n",
+ "
78.01
\n",
+ "
80.737
\n",
+ "
76.693
\n",
+ "
1955-12-14
\n",
+ "
\n",
+ "
\n",
+ "
Algeria
\n",
+ "
DZA
\n",
+ "
middle_east_north_africa
\n",
+ "
africa
\n",
+ "
upper_middle_income
\n",
+ "
False
\n",
+ "
False
\n",
+ "
NaN
\n",
+ "
2018
\n",
+ "
2381740.0
\n",
+ "
36980000.0
\n",
+ "
0.69
\n",
+ "
24.60
\n",
+ "
26.37
\n",
+ "
NaN
\n",
+ "
3296.0
\n",
+ "
21.9
\n",
+ "
77.86
\n",
+ "
77.784
\n",
+ "
75.279
\n",
+ "
1962-10-08
\n",
+ "
\n",
+ "
\n",
+ "
Andorra
\n",
+ "
AND
\n",
+ "
europe_central_asia
\n",
+ "
europe
\n",
+ "
high_income
\n",
+ "
False
\n",
+ "
False
\n",
+ "
NaN
\n",
+ "
2017
\n",
+ "
470.0
\n",
+ "
88910.0
\n",
+ "
10.17
\n",
+ "
27.63
\n",
+ "
26.43
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
2.1
\n",
+ "
82.55
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
1993-07-28
\n",
+ "
\n",
+ "
\n",
+ "
Angola
\n",
+ "
AGO
\n",
+ "
sub_saharan_africa
\n",
+ "
africa
\n",
+ "
upper_middle_income
\n",
+ "
False
\n",
+ "
False
\n",
+ "
NaN
\n",
+ "
2018
\n",
+ "
1246700.0
\n",
+ "
20710000.0
\n",
+ "
5.57
\n",
+ "
22.25
\n",
+ "
23.48
\n",
+ "
NaN
\n",
+ "
2473.0
\n",
+ "
96.0
\n",
+ "
65.19
\n",
+ "
64.939
\n",
+ "
59.213
\n",
+ "
1976-12-01
\n",
+ "
\n",
+ "
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
\n",
+ "
\n",
+ "
Venezuela
\n",
+ "
VEN
\n",
+ "
america
\n",
+ "
americas
\n",
+ "
upper_middle_income
\n",
+ "
False
\n",
+ "
False
\n",
+ "
NaN
\n",
+ "
2018
\n",
+ "
912050.0
\n",
+ "
30340000.0
\n",
+ "
7.60
\n",
+ "
27.45
\n",
+ "
28.13
\n",
+ "
7.332
\n",
+ "
2631.0
\n",
+ "
12.9
\n",
+ "
75.91
\n",
+ "
79.079
\n",
+ "
70.950
\n",
+ "
1945-11-15
\n",
+ "
\n",
+ "
\n",
+ "
Vietnam
\n",
+ "
VNM
\n",
+ "
east_asia_pacific
\n",
+ "
asia
\n",
+ "
lower_middle_income
\n",
+ "
False
\n",
+ "
False
\n",
+ "
NaN
\n",
+ "
2018
\n",
+ "
330967.0
\n",
+ "
90660000.0
\n",
+ "
3.91
\n",
+ "
20.92
\n",
+ "
21.07
\n",
+ "
NaN
\n",
+ "
2745.0
\n",
+ "
17.3
\n",
+ "
74.88
\n",
+ "
81.203
\n",
+ "
72.003
\n",
+ "
1977-09-20
\n",
+ "
\n",
+ "
\n",
+ "
Yemen
\n",
+ "
YEM
\n",
+ "
middle_east_north_africa
\n",
+ "
asia
\n",
+ "
lower_middle_income
\n",
+ "
False
\n",
+ "
False
\n",
+ "
NaN
\n",
+ "
2018
\n",
+ "
527970.0
\n",
+ "
26360000.0
\n",
+ "
0.20
\n",
+ "
24.44
\n",
+ "
26.11
\n",
+ "
NaN
\n",
+ "
2223.0
\n",
+ "
33.8
\n",
+ "
67.14
\n",
+ "
66.871
\n",
+ "
63.875
\n",
+ "
1947-09-30
\n",
+ "
\n",
+ "
\n",
+ "
Zambia
\n",
+ "
ZMB
\n",
+ "
sub_saharan_africa
\n",
+ "
africa
\n",
+ "
lower_middle_income
\n",
+ "
False
\n",
+ "
False
\n",
+ "
NaN
\n",
+ "
2018
\n",
+ "
752610.0
\n",
+ "
14310000.0
\n",
+ "
3.56
\n",
+ "
20.68
\n",
+ "
23.05
\n",
+ "
11.260
\n",
+ "
1930.0
\n",
+ "
43.3
\n",
+ "
59.45
\n",
+ "
65.362
\n",
+ "
59.845
\n",
+ "
1964-12-01
\n",
+ "
\n",
+ "
\n",
+ "
Zimbabwe
\n",
+ "
ZWE
\n",
+ "
sub_saharan_africa
\n",
+ "
africa
\n",
+ "
low_income
\n",
+ "
False
\n",
+ "
False
\n",
+ "
NaN
\n",
+ "
2018
\n",
+ "
390760.0
\n",
+ "
13330000.0
\n",
+ "
4.96
\n",
+ "
22.03
\n",
+ "
24.65
\n",
+ "
20.850
\n",
+ "
2110.0
\n",
+ "
46.6
\n",
+ "
60.18
\n",
+ "
63.944
\n",
+ "
60.120
\n",
+ "
1980-08-25
\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
193 rows × 20 columns
\n",
+ "
"
+ ],
+ "text/plain": [
+ " iso world_6region world_4region income_groups \\\n",
+ "name \n",
+ "Afghanistan AFG south_asia asia low_income \n",
+ "Albania ALB europe_central_asia europe upper_middle_income \n",
+ "Algeria DZA middle_east_north_africa africa upper_middle_income \n",
+ "Andorra AND europe_central_asia europe high_income \n",
+ "Angola AGO sub_saharan_africa africa upper_middle_income \n",
+ "... ... ... ... ... \n",
+ "Venezuela VEN america americas upper_middle_income \n",
+ "Vietnam VNM east_asia_pacific asia lower_middle_income \n",
+ "Yemen YEM middle_east_north_africa asia lower_middle_income \n",
+ "Zambia ZMB sub_saharan_africa africa lower_middle_income \n",
+ "Zimbabwe ZWE sub_saharan_africa africa low_income \n",
+ "\n",
+ " is_eu is_oecd eu_accession year area population \\\n",
+ "name \n",
+ "Afghanistan False False NaN 2018 652860.0 34500000.0 \n",
+ "Albania False False NaN 2018 28750.0 3238000.0 \n",
+ "Algeria False False NaN 2018 2381740.0 36980000.0 \n",
+ "Andorra False False NaN 2017 470.0 88910.0 \n",
+ "Angola False False NaN 2018 1246700.0 20710000.0 \n",
+ "... ... ... ... ... ... ... \n",
+ "Venezuela False False NaN 2018 912050.0 30340000.0 \n",
+ "Vietnam False False NaN 2018 330967.0 90660000.0 \n",
+ "Yemen False False NaN 2018 527970.0 26360000.0 \n",
+ "Zambia False False NaN 2018 752610.0 14310000.0 \n",
+ "Zimbabwe False False NaN 2018 390760.0 13330000.0 \n",
+ "\n",
+ " alcohol_adults bmi_men bmi_women car_deaths_per_100000_people \\\n",
+ "name \n",
+ "Afghanistan 0.03 20.62 21.07 NaN \n",
+ "Albania 7.29 26.45 25.66 5.978 \n",
+ "Algeria 0.69 24.60 26.37 NaN \n",
+ "Andorra 10.17 27.63 26.43 NaN \n",
+ "Angola 5.57 22.25 23.48 NaN \n",
+ "... ... ... ... ... \n",
+ "Venezuela 7.60 27.45 28.13 7.332 \n",
+ "Vietnam 3.91 20.92 21.07 NaN \n",
+ "Yemen 0.20 24.44 26.11 NaN \n",
+ "Zambia 3.56 20.68 23.05 11.260 \n",
+ "Zimbabwe 4.96 22.03 24.65 20.850 \n",
+ "\n",
+ " calories_per_day infant_mortality life_expectancy \\\n",
+ "name \n",
+ "Afghanistan 2090.0 66.3 58.69 \n",
+ "Albania 3193.0 12.5 78.01 \n",
+ "Algeria 3296.0 21.9 77.86 \n",
+ "Andorra NaN 2.1 82.55 \n",
+ "Angola 2473.0 96.0 65.19 \n",
+ "... ... ... ... \n",
+ "Venezuela 2631.0 12.9 75.91 \n",
+ "Vietnam 2745.0 17.3 74.88 \n",
+ "Yemen 2223.0 33.8 67.14 \n",
+ "Zambia 1930.0 43.3 59.45 \n",
+ "Zimbabwe 2110.0 46.6 60.18 \n",
+ "\n",
+ " life_expectancy_female life_expectancy_male un_accession \n",
+ "name \n",
+ "Afghanistan 65.812 63.101 1946-11-19 \n",
+ "Albania 80.737 76.693 1955-12-14 \n",
+ "Algeria 77.784 75.279 1962-10-08 \n",
+ "Andorra NaN NaN 1993-07-28 \n",
+ "Angola 64.939 59.213 1976-12-01 \n",
+ "... ... ... ... \n",
+ "Venezuela 79.079 70.950 1945-11-15 \n",
+ "Vietnam 81.203 72.003 1977-09-20 \n",
+ "Yemen 66.871 63.875 1947-09-30 \n",
+ "Zambia 65.362 59.845 1964-12-01 \n",
+ "Zimbabwe 63.944 60.120 1980-08-25 \n",
+ "\n",
+ "[193 rows x 20 columns]"
+ ]
+ },
+ "execution_count": 15,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "# Místo `set_index` vybereme index rovnou při načítání\n",
+ "countries = pd.read_csv(\"countries.csv\", index_col=\"name\")\n",
+ "\n",
+ "countries = countries.sort_index()\n",
+ "countries"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Namátkou si vybereme nějakou zemi a podíváme se, jaké údaje o ní v tabulce máme."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 16,
+ "metadata": {
+ "scrolled": true
+ },
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "iso CZE\n",
+ "world_6region europe_central_asia\n",
+ "world_4region europe\n",
+ "income_groups high_income\n",
+ "is_eu True\n",
+ "is_oecd True\n",
+ "eu_accession 2004-05-01\n",
+ "year 2018\n",
+ "area 78870\n",
+ "population 1.059e+07\n",
+ "alcohol_adults 16.47\n",
+ "bmi_men 27.91\n",
+ "bmi_women 26.51\n",
+ "car_deaths_per_100000_people 5.72\n",
+ "calories_per_day 3256\n",
+ "infant_mortality 2.8\n",
+ "life_expectancy 79.37\n",
+ "life_expectancy_female 81.858\n",
+ "life_expectancy_male 76.148\n",
+ "un_accession 1993-01-19\n",
+ "Name: Czechia, dtype: object"
+ ]
+ },
+ "execution_count": 16,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "countries.loc[\"Czechia\"]"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Už na první pohled je každé pole jiného typu. Ale jakého? Na to nám odpoví vlastnost `dtypes` naší tabulky (u `Series` použiješ `dtype`, resp. raději `dtype.name`, pokud chceš stejně pěknou řetězcovou reprezentaci)."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 17,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "iso object\n",
+ "world_6region object\n",
+ "world_4region object\n",
+ "income_groups object\n",
+ "is_eu bool\n",
+ "is_oecd bool\n",
+ "eu_accession object\n",
+ "year int64\n",
+ "area float64\n",
+ "population float64\n",
+ "alcohol_adults float64\n",
+ "bmi_men float64\n",
+ "bmi_women float64\n",
+ "car_deaths_per_100000_people float64\n",
+ "calories_per_day float64\n",
+ "infant_mortality float64\n",
+ "life_expectancy float64\n",
+ "life_expectancy_female float64\n",
+ "life_expectancy_male float64\n",
+ "un_accession object\n",
+ "dtype: object"
+ ]
+ },
+ "execution_count": 17,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "countries.dtypes"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Typy v pandas vycházejí z toho, jak je definuje knihovna `numpy` (obecně užitečná pro práci s numerickými poli a poskytující vektorové operace s rychlostí řádově vyšší než v Pythonu jako takovém). Ta potřebuje především vědět, jak alokovat pole pro prvky daného typu - na to, aby mohly být seřazeny efektivně jeden za druhým, a tedy i kolik bajtů paměti každý zabírá. Kopíruje přitom \"nativní\" datové typy, které už můžeš znát z jiných jazyků, např. [C](https://cs.wikipedia.org/wiki/C_(programovac%C3%AD_jazyk)). Umístění paměti je něco, co v Pythonu obvykle neřešíme, ale rychlé počítání se bez toho neobejde. My nepůjdeme do detailů, ale požadavek na rychlost se nám tu a tam vynoří a my budeme klást důraz na to, aby se operace dělaly \"vektorově\", řešily \"na úrovni numpy\".\n",
+ "\n",
+ "Poněkud tajuplný systém typů v `numpy` (popsaný v [dokumentaci](https://docs.scipy.org/doc/numpy/user/basics.types.html)) je naštěstí v `pandas` (mírně) zjednodušen a nabízí jen několik užitečných základních (rodin) typů, které si teď představíme."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Celá čísla (integers)\n",
+ "\n",
+ "V Pythonu je pro celá čísla vyhrazen přesně jeden typ: `int`, který možňuje pracovat s libovolně velkými celými čísly (0, -58 nebo třeba 123456789012345678901234567890). V `pandas` se můžeš setkat s `int8`, `int16`, `int32`, `int64`, `uint8`, `uint16`, `uint32` a `uint64` - všechny mají stejné základní vlastnosti a každý z nich má jen určitý rozsah čísel, která do něj lze uložit. Liší se velikostí paměti, kterou jedno číslo zabere (číslovka v názvu vyjadřuje počet bitů), a tím, zda jsou podporována i záporná čísla (předpona `u` znamená, že počítáme pouze s nulou a kladnými čísly). \n",
+ "\n",
+ "Rozsahy:\n",
+ "\n",
+ "- `int8`: -128 až 127 \n",
+ "- `uint8`: 0 až 255\n",
+ "- `int16`: -32 768 až 32 767\n",
+ "- `uint16`: 0 až 65 535\n",
+ "- `int32`: -2 147 483 647 až 2 147 483 647 (tedy +/- ~2 miliardy)\n",
+ "- `uint32`: 0 až 4 294 967 295 (tedy až ~4 miliardy)\n",
+ "- `int64`: -9 223 372 036 854 775 808 až 9 223 372 036 854 775 807 (tedy +/- ~9 trilionů)\n",
+ "- `uint64`: 0 až 18 446 744 073 709 551 615 (tedy až ~18 trilionů)\n",
+ "\n",
+ "💡 Aby toho nebylo málo, ke každému `int?` / `uint?` typu existuje ještě jeho alternativa, která umožňuje ve sloupci použít chybějící hodnoty, t.j. `NaN`. Místo malého `i`, případně `u` v názvu se použije písmeno velké. Tato vlastnost (tzv. \"nullable integer types\") je relativně užitečná, ale je dosud poněkud experimentální. My ji nebudeme v kurzu využívat.\n",
+ "\n",
+ "Detailní vysvětlení toho, jak jsou celá čísla v paměti počítače reprezentována, najdeš třeba ve [wikipedii](https://cs.wikipedia.org/wiki/Integer)."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "V `pandas` je výchozí celočíselný typ `int64`, a pokud neřekneš jinak, automaticky se pro celá čísla použije (ve většině případů to bude vhodná volba):"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 18,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "name\n",
+ "Afghanistan 2018\n",
+ "Albania 2018\n",
+ "Algeria 2018\n",
+ "Andorra 2017\n",
+ "Angola 2018\n",
+ " ... \n",
+ "Venezuela 2018\n",
+ "Vietnam 2018\n",
+ "Yemen 2018\n",
+ "Zambia 2018\n",
+ "Zimbabwe 2018\n",
+ "Name: year, Length: 193, dtype: int64"
+ ]
+ },
+ "execution_count": 18,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "countries[\"year\"]"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 19,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "0 0\n",
+ "1 123\n",
+ "2 12345\n",
+ "dtype: int64"
+ ]
+ },
+ "execution_count": 19,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "pd.Series([0, 123, 12345])\n",
+ "\n",
+ "# pd.Series([0, 123, 12345], dtype=\"int64\") # totéž"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Pomocí argumentu `dtype` můžeš ovšem přesně specifikovat, který typ celých čísel chceš:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 20,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "0 0\n",
+ "1 123\n",
+ "2 12345\n",
+ "dtype: int16"
+ ]
+ },
+ "execution_count": 20,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "pd.Series([0, 123, 12345], dtype=\"int16\")"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "**⚠ Pozor:** Když vybíráš konkrétní celočíselný typ, musíš si dát pozor na rozsahy, protože `pandas` tě nebude varovat, pokud se nějaká z tvých hodnot do rozsahu \"nevleze\" a vesele zahodí tu část binární reprezentace, která je navíc (a dostaneš mnohem menší číslo, než jsi čekal/a):"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 21,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "0 0\n",
+ "1 123\n",
+ "2 57\n",
+ "dtype: int8"
+ ]
+ },
+ "execution_count": 21,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "pd.Series([0, 123, 12345], dtype=\"int8\")"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Toto naštěstí neplatí pro typ s nejširším rozsahem (`int64`). Zkusme do něj vložit veliké číslo (třeba 123456789012345678901234567890) a uvidíme, co se stane:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 22,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "0 0\n",
+ "1 123\n",
+ "2 123456789012345678901234567890\n",
+ "dtype: object"
+ ]
+ },
+ "execution_count": 22,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "# Toto vyhodí výjimku:\n",
+ "# pd.Series([0, 123, 123456789012345678901234567890], dtype=\"int64\")\n",
+ "\n",
+ "# Toto projde, ale už to není int64:\n",
+ "pd.Series([0, 123, 123456789012345678901234567890])"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "- Když ho budeme explicitně požadovat, vyhodí se výjimka.\n",
+ "- Když `pandas` necháme dělat jeho práci, použije se obecný typ `object` a přijdeme o jistou část výhod: sloupec nám zabere násobně více paměti a aritmetické operace s ním jsou o řád až dva pomalejší. Dokud naší prioritou, není to zase takový problém.\n",
+ "\n",
+ "Obecně proto doporučujeme držet se `int64`, resp. nechat `pandas`, aby jej za nás automaticky použil. Teprve v případě, že si to budou žádat přísné paměťové nároky, se ti vyplatí hledat ten \"nejvíce růžový\" typ."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "**Úkol:** Zkus vytvořit `Series` s datovým typem `uint8`, obsahující (alespoň) jedno malé záporné číslo. Co se stane?"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Čísla s plovoucí desetinnou čárkou (floats)\n",
+ "\n",
+ "Podobně jako u celočíselných hodnot, i jednomu typu v Python (`float`) odpovídá několik typů v `pandas`: `float16`, `float32`, `float64`. Součástí názvu je opět počet bitů, které jedno číslo potřebuje ke svému uložení. Naštěstí v tomto případě `float64` přesně odpovídá svým chováním `float` z Pythonu, zbylé dva typy nejsou tak přesné a mají menší rozsah - kromě optimalizace paměťových nároků u specifického druhu dat je nejspíš nepoužiješ.\n",
+ "\n",
+ "Více teoretického čtení o reprezentaci čísel s desetinnou čárkou najdeš na [wiki](https://cs.wikipedia.org/wiki/Pohybliv%C3%A1_%C5%99%C3%A1dov%C3%A1_%C4%8D%C3%A1rka)."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 23,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "name\n",
+ "Afghanistan 20.62\n",
+ "Albania 26.45\n",
+ "Algeria 24.60\n",
+ "Andorra 27.63\n",
+ "Angola 22.25\n",
+ " ... \n",
+ "Venezuela 27.45\n",
+ "Vietnam 20.92\n",
+ "Yemen 24.44\n",
+ "Zambia 20.68\n",
+ "Zimbabwe 22.03\n",
+ "Name: bmi_men, Length: 193, dtype: float64"
+ ]
+ },
+ "execution_count": 23,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "countries[\"bmi_men\"]"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 24,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "0 3.141593\n",
+ "dtype: float64"
+ ]
+ },
+ "execution_count": 24,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "# Docela přesné pí\n",
+ "pd.Series([3.14159265])"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 25,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "0 3.140625\n",
+ "dtype: float16"
+ ]
+ },
+ "execution_count": 25,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "# Ne už tak přesné pí\n",
+ "pd.Series([3.14159265], dtype=\"float16\")"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "**Úkol**: Vytvoř pole typu `float64` jen ze samých celých čísel. Co se stane?"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Logické hodnoty (booleans)\n",
+ "\n",
+ "Toto je asi nejméně překvapivý datový typ. Chová se v zásadě stejně jako typ `bool` v Pythonu. Nabírá hodnot `True` a `False` (které lze též pokládat za 1 a 0 v některých operacích). Má ještě jednu skvělou vlastnost - objekty `Series` i `DataFrame` jde filtrovat právě pomocí sloupce logického typu (o tom viz níže)."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 26,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "name\n",
+ "Afghanistan False\n",
+ "Albania False\n",
+ "Algeria False\n",
+ "Andorra False\n",
+ "Angola False\n",
+ "Antigua and Barbuda False\n",
+ "Argentina False\n",
+ "Armenia False\n",
+ "Australia True\n",
+ "Austria True\n",
+ "Azerbaijan False\n",
+ "Bahamas False\n",
+ "Bahrain False\n",
+ "Bangladesh False\n",
+ "Barbados False\n",
+ "Belarus False\n",
+ "Belgium True\n",
+ "Belize False\n",
+ "Benin False\n",
+ "Bhutan False\n",
+ "Name: is_oecd, dtype: bool"
+ ]
+ },
+ "execution_count": 26,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "countries[\"is_oecd\"].iloc[:20]"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 27,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "0 True\n",
+ "1 False\n",
+ "2 False\n",
+ "dtype: bool"
+ ]
+ },
+ "execution_count": 27,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "# Vytvoření nového sloupce\n",
+ "pd.Series([True, False, False])"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Jde to ovšem i takto:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 28,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "0 True\n",
+ "1 False\n",
+ "2 False\n",
+ "dtype: bool"
+ ]
+ },
+ "execution_count": 28,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "pd.Series([1, 0, 0], dtype=\"bool\")"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "**Úkol:** Co se stane, když vytvoříš `Series` typu `bool` z řetězců `\"True\"` a `\"False\"` (nezapomeň na uvozovky)?"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Objekty a řetězce (objects)\n",
+ "\n",
+ "Toto tě pravděpodobně překvapí: `pandas` nemá zvláštní datový typ pro řetězce! Spadá společně s dalšími neurčenými nebo nerozpoznanými hodnotami do kategorie `object`, která umožňuje v daném sloupci mít cokoliv, co znáš z Pythonu, a chová se tak do značné míry jako obyčejný seznam s výhodami (žádné podivné konverze, sledování rozsahů, ...) i nevýhodami (je to pomalejší, než by mohlo; nikdo ti nezaručí, že ve sloupci budou jen řetězce).\n",
+ "\n",
+ "*Poznámka: V době psaní těchto materiálů se připravuje `pandas` verze 1.0, která speciální typ pro řetězce zavádí.*"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 29,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "name\n",
+ "Afghanistan AFG\n",
+ "Albania ALB\n",
+ "Algeria DZA\n",
+ "Andorra AND\n",
+ "Angola AGO\n",
+ " ... \n",
+ "Venezuela VEN\n",
+ "Vietnam VNM\n",
+ "Yemen YEM\n",
+ "Zambia ZMB\n",
+ "Zimbabwe ZWE\n",
+ "Name: iso, Length: 193, dtype: object"
+ ]
+ },
+ "execution_count": 29,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "countries[\"iso\"]"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 30,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "0 pes\n",
+ "1 kočka\n",
+ "2 křeček\n",
+ "3 tarantule\n",
+ "4 hroznýš\n",
+ "dtype: object"
+ ]
+ },
+ "execution_count": 30,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "# Domácí mazlíčci\n",
+ "pd.Series([\"pes\", \"kočka\", \"křeček\", \"tarantule\", \"hroznýš\"])"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 31,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "0 1\n",
+ "1 dvě\n",
+ "2 3\n",
+ "dtype: object"
+ ]
+ },
+ "execution_count": 31,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "pd.Series([1, \"dvě\", 3.0]) # Řetězec a další \"smetí\""
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Pozor, třeba i takový seznam může být hodnotou v sloupci typu `object`:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 32,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "Eva [řízek, brambory, cola]\n",
+ "Evelína [smažák, hranolky]\n",
+ "Evženie [sodovka]\n",
+ "dtype: object"
+ ]
+ },
+ "execution_count": 32,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "# Objednávky\n",
+ "pd.Series(\n",
+ " [[\"řízek\", \"brambory\", \"cola\"], [\"smažák\", \"hranolky\"], [\"sodovka\"]],\n",
+ " index=[\"Eva\", \"Evelína\", \"Evženie\"])"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "**Úkol:** Co za druh objektu (a jaký `dtype`) dostaneme, když se pokusíme získat jeden řádek z tabulky `planety`?"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Datum / čas (datetime)\n",
+ "\n",
+ "Časovými daty se blíže zabývá jedna z následujících lekcí, nicméně nějaká v tabulce zemí už máme, a tak alespoň pro úplnost uvedeme, co v tomto směru `pandas` nabízí:\n",
+ "\n",
+ "- Časové či datumové údaje (*datetime*) jakožto body na časové ose.\n",
+ "\n",
+ "- Časové údaje s označením časové zóny (*datetimes with time zone*).\n",
+ "\n",
+ "- Časové úseky (*timedeltas*) jakožto určení délky nějakého úseku (počítáno v nanosekundách)\n",
+ "\n",
+ "- Období (*periods*) udávají nějak určená časová období (třeba \"únor 2020\")"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "💡 Pro převod z nejrůznějších formátů na datum / čas slouží funkce `to_datetime`, kterou použijeme pro následující ukázku:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 33,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "name\n",
+ "Afghanistan 1946-11-19\n",
+ "Albania 1955-12-14\n",
+ "Algeria 1962-10-08\n",
+ "Andorra 1993-07-28\n",
+ "Angola 1976-12-01\n",
+ " ... \n",
+ "Venezuela 1945-11-15\n",
+ "Vietnam 1977-09-20\n",
+ "Yemen 1947-09-30\n",
+ "Zambia 1964-12-01\n",
+ "Zimbabwe 1980-08-25\n",
+ "Name: un_accession, Length: 193, dtype: datetime64[ns]"
+ ]
+ },
+ "execution_count": 33,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "pd.to_datetime(countries[\"un_accession\"])"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "### Kategorické (category)\n",
+ "\n",
+ "Pokud chceme být efektivní při práci se sloupci, kde se často opakují hodnoty (zejména řetězcové), můžeme je zakódovat do kategorií. Tím mnohdy ušetříme zabrané místo a urychlíme některé operace. Při takové konverzi `pandas` najde všechny unikátní hodnoty v daném sloupci, uloží si je do zvláštního seznamu a do sloupce uloží jenom indexy z tohoto seznamu. Vše se chová transparentně a při používání tak většinou ani nepoznáte, jestli máte sloupec typu `object` nebo `category`."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "💡 Pro převod mezi různými datovými typy slouží metoda [`astype`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.astype.html), která jako svůj argument akceptuje jméno dtype, na který chceme převést:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 34,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "name\n",
+ "Afghanistan low_income\n",
+ "Albania upper_middle_income\n",
+ "Algeria upper_middle_income\n",
+ "Andorra high_income\n",
+ "Angola upper_middle_income\n",
+ " ... \n",
+ "Venezuela upper_middle_income\n",
+ "Vietnam lower_middle_income\n",
+ "Yemen lower_middle_income\n",
+ "Zambia lower_middle_income\n",
+ "Zimbabwe low_income\n",
+ "Name: income_groups, Length: 193, dtype: category\n",
+ "Categories (4, object): [high_income, low_income, lower_middle_income, upper_middle_income]"
+ ]
+ },
+ "execution_count": 34,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "countries[\"income_groups\"].astype(\"category\")"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "**Úkol:** Napadne tě, které sloupce z tabulky `countries` bychom měli překonvertovat na nějaký jiný typ?"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Matematika\n",
+ "\n",
+ "Počítání se `Series` v `pandas` je navrženo tak, aby co nejméně překvapilo. Jednotlivé sloupce se tak můžou stát součástí aritmetických výrazů společně se skalárními hodnotami, s jinými sloupci, `numpy` poli příslušného tvaru, a dokonce i seznamy."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 35,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "name\n",
+ "Afghanistan 21421.85\n",
+ "Albania 28473.65\n",
+ "Algeria 28418.90\n",
+ "Andorra 30130.75\n",
+ "Angola 23794.35\n",
+ " ... \n",
+ "Venezuela 27707.15\n",
+ "Vietnam 27331.20\n",
+ "Yemen 24506.10\n",
+ "Zambia 21699.25\n",
+ "Zimbabwe 21965.70\n",
+ "Name: life_expectancy, Length: 193, dtype: float64"
+ ]
+ },
+ "execution_count": 35,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "# Očekávaná doba života ve dnech\n",
+ "countries[\"life_expectancy\"] * 365"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 36,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "name\n",
+ "Afghanistan 52.844408\n",
+ "Albania 112.626087\n",
+ "Algeria 15.526464\n",
+ "Andorra 189.170213\n",
+ "Angola 16.611855\n",
+ " ... \n",
+ "Venezuela 33.265720\n",
+ "Vietnam 273.924591\n",
+ "Yemen 49.927079\n",
+ "Zambia 19.013832\n",
+ "Zimbabwe 34.113011\n",
+ "Length: 193, dtype: float64"
+ ]
+ },
+ "execution_count": 36,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "# Hustota obyvatelstva\n",
+ "countries[\"population\"] / countries[\"area\"]"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 37,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "řízek 129.9\n",
+ "smažák 109.9\n",
+ "dtype: float64"
+ ]
+ },
+ "execution_count": 37,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "# Jak nám podražily obědy\n",
+ "pd.Series([109, 99], index=[\"řízek\", \"smažák\"]) + [20.9, 10.9] # sčítání se seznamem"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "**Úkol**: Spočti celkový počet mrtvých v automobilových haváriích v jednotlivých zemích (použij sloupce \"population\" a \"car_deaths_per_100000_people\" a jednoduchou aritmetiku). Sedí výsledek pro ČR?"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 38,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "name\n",
+ "Afghanistan 26723 days 11:24:22.989293\n",
+ "Albania 23411 days 11:24:22.989293\n",
+ "Algeria 20921 days 11:24:22.989293\n",
+ "Andorra 9670 days 11:24:22.989293\n",
+ "Angola 15753 days 11:24:22.989293\n",
+ " ... \n",
+ "Venezuela 27092 days 11:24:22.989293\n",
+ "Vietnam 15460 days 11:24:22.989293\n",
+ "Yemen 26408 days 11:24:22.989293\n",
+ "Zambia 20136 days 11:24:22.989293\n",
+ "Zimbabwe 14390 days 11:24:22.989293\n",
+ "Name: un_accession, Length: 193, dtype: timedelta64[ns]"
+ ]
+ },
+ "execution_count": 38,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "# Jak dlouho jsou v OSN?\n",
+ "from datetime import datetime\n",
+ "datetime.now() - pd.to_datetime(countries[\"un_accession\"])"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "💡 Čísla s plouvoucí desetinnou čárkou mohou obsahovat i speciální hodnoty \"not a number\" a plus nebo mínus nekonečno. Vzniknou např. při nevhodném dělení nulou:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 39,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "0 NaN\n",
+ "1 -inf\n",
+ "2 inf\n",
+ "dtype: float64"
+ ]
+ },
+ "execution_count": 39,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "pd.Series([0, -1, 1]) / pd.Series([0, 0, 0])"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "**Varování:** Nabádáme tě k opatrnosti při práci s omezenými celočíselnými typy. Podobně jako při jejich nevhodné konverzi, i tady může výsledek \"přetéct\" a ukazovat pochybné výsledky. O důvod víc, proč se držet `int64`."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 40,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "0 14\n",
+ "1 28\n",
+ "2 42\n",
+ "dtype: int8"
+ ]
+ },
+ "execution_count": 40,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "pd.Series([7, 14, 149], dtype=\"int8\") * 2"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Porovnávání"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Pro `Series` lze použít nejen operátory početní, ale také logické. Výsledkem pak není jedna logická hodnota, ale sloupec logických hodnot."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 41,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "name\n",
+ "Afghanistan False\n",
+ "Albania False\n",
+ "Algeria False\n",
+ "Andorra False\n",
+ "Angola False\n",
+ " ... \n",
+ "Venezuela False\n",
+ "Vietnam False\n",
+ "Yemen False\n",
+ "Zambia False\n",
+ "Zimbabwe False\n",
+ "Name: alcohol_adults, Length: 193, dtype: bool"
+ ]
+ },
+ "execution_count": 41,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "# 15 litrů čistého alkoholu na osobu na rok budeme považovat za hranici nadměrného pití\n",
+ "# (nekonzultováno s adiktology!)\n",
+ "\n",
+ "# Kde se hodně pije?\n",
+ "countries[\"alcohol_adults\"] > 15"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 42,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "True"
+ ]
+ },
+ "execution_count": 42,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "# Skoro nikde. A jak jsme na tom u nás?\n",
+ "countries.loc[\"Czechia\", \"alcohol_adults\"] > 15"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 43,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "name\n",
+ "Afghanistan False\n",
+ "Albania True\n",
+ "Algeria False\n",
+ "Andorra True\n",
+ "Angola False\n",
+ " ... \n",
+ "Venezuela False\n",
+ "Vietnam False\n",
+ "Yemen False\n",
+ "Zambia False\n",
+ "Zimbabwe False\n",
+ "Length: 193, dtype: bool"
+ ]
+ },
+ "execution_count": 43,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "# Jsou muži v jednotlivých zemích tlustší než ženy?\n",
+ "countries[\"bmi_men\"] > countries[\"bmi_women\"]"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "**Úkol**: Zjistěte, jestli se v jednotlivých zemích dožívají více muži nebo ženy."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 44,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "name\n",
+ "Afghanistan False\n",
+ "Albania False\n",
+ "Algeria True\n",
+ "Andorra False\n",
+ "Angola True\n",
+ " ... \n",
+ "Venezuela False\n",
+ "Vietnam False\n",
+ "Yemen False\n",
+ "Zambia True\n",
+ "Zimbabwe True\n",
+ "Name: world_4region, Length: 193, dtype: bool"
+ ]
+ },
+ "execution_count": 44,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "# Leží země v Africe?\n",
+ "countries[\"world_4region\"] == \"africa\""
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Podobně jako v Pythonu lze podmínky kombinovat pomocí operátorů. Vzhledem k jistým syntaktickým požadavkům Pythonu je ale potřeba použít místo vám známých logických operátorů jejich alternativy: `&` (místo `and`), `|` (místo `or`) a `~` (místo `not`). Protože mají jiné priority než jejich klasičtí bratříčci, bude lepší, když při kombinaci s jinými operátory vždycky použiješ závorky."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 45,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ "name\n",
+ "Afghanistan False\n",
+ "Albania True\n",
+ "Algeria True\n",
+ "Andorra False\n",
+ "Angola False\n",
+ " ... \n",
+ "Venezuela False\n",
+ "Vietnam False\n",
+ "Yemen False\n",
+ "Zambia False\n",
+ "Zimbabwe False\n",
+ "Length: 193, dtype: bool"
+ ]
+ },
+ "execution_count": 45,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "# Kde se ženy i muži dožívají přes 75 let?\n",
+ "(countries[\"life_expectancy_male\"] > 75) & (countries[\"life_expectancy_female\"] > 75)"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Filtrování\n",
+ "\n",
+ "Pokud chceš z tabulky vybrat řádky, které splňují nějaké kritérium, musíš (není to vždy těžké :-)) toto kritérium převést do podoby sloupce logických hodnot. Potom tento sloupec (sloupec samotný, nikoliv jeho název!) vložíš do hranatých závorek jako index `DataFrame`.\n",
+ "\n",
+ "Když budeš například chtít informace jen o členech EU, můžeš k tomu přímo použít sloupec \"is_eu\", který logické hodnoty obsahuje:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 46,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/html": [
+ "
"
+ ],
+ "text/plain": [
+ " iso world_6region world_4region income_groups \\\n",
+ "name \n",
+ "Moldova MDA europe_central_asia europe lower_middle_income \n",
+ "South Korea KOR east_asia_pacific asia high_income \n",
+ "Belarus BLR europe_central_asia europe upper_middle_income \n",
+ "North Korea PRK east_asia_pacific asia low_income \n",
+ "Ukraine UKR europe_central_asia europe lower_middle_income \n",
+ "Estonia EST europe_central_asia europe high_income \n",
+ "Czechia CZE europe_central_asia europe high_income \n",
+ "Uganda UGA sub_saharan_africa africa low_income \n",
+ "Lithuania LTU europe_central_asia europe high_income \n",
+ "Russia RUS europe_central_asia europe high_income \n",
+ "\n",
+ " is_eu is_oecd eu_accession year area population \\\n",
+ "name \n",
+ "Moldova False False NaN 2018 33850.0 3496000.0 \n",
+ "South Korea False True NaN 2018 100280.0 48770000.0 \n",
+ "Belarus False False NaN 2018 207600.0 9498000.0 \n",
+ "North Korea False False NaN 2018 120540.0 24650000.0 \n",
+ "Ukraine False False NaN 2018 603550.0 44700000.0 \n",
+ "Estonia True True 2004-05-01 2018 45230.0 1339000.0 \n",
+ "Czechia True True 2004-05-01 2018 78870.0 10590000.0 \n",
+ "Uganda False False NaN 2018 241550.0 36760000.0 \n",
+ "Lithuania True True 2004-05-01 2018 65286.0 3278000.0 \n",
+ "Russia False False NaN 2018 17098250.0 142600000.0 \n",
+ "\n",
+ " alcohol_adults bmi_men bmi_women car_deaths_per_100000_people \\\n",
+ "name \n",
+ "Moldova 23.01 24.24 27.06 5.529 \n",
+ "South Korea 19.15 23.99 23.33 4.319 \n",
+ "Belarus 18.85 26.16 26.64 8.454 \n",
+ "North Korea 18.28 22.02 21.25 NaN \n",
+ "Ukraine 17.47 25.42 26.23 8.771 \n",
+ "Estonia 17.24 26.26 25.19 5.896 \n",
+ "Czechia 16.47 27.91 26.51 5.720 \n",
+ "Uganda 16.40 22.36 22.48 13.690 \n",
+ "Lithuania 16.30 26.86 26.01 8.090 \n",
+ "Russia 16.23 26.01 27.21 14.380 \n",
+ "\n",
+ " calories_per_day infant_mortality life_expectancy \\\n",
+ "name \n",
+ "Moldova 2714.0 13.6 72.41 \n",
+ "South Korea 3334.0 2.9 81.35 \n",
+ "Belarus 3250.0 3.4 73.76 \n",
+ "North Korea 2094.0 19.7 71.13 \n",
+ "Ukraine 3138.0 7.7 72.29 \n",
+ "Estonia 3253.0 2.3 77.66 \n",
+ "Czechia 3256.0 2.8 79.37 \n",
+ "Uganda 2130.0 37.7 62.86 \n",
+ "Lithuania 3417.0 3.3 75.31 \n",
+ "Russia 3361.0 8.2 71.07 \n",
+ "\n",
+ " life_expectancy_female life_expectancy_male un_accession \n",
+ "name \n",
+ "Moldova 76.090 67.544 1992-03-02 \n",
+ "South Korea 85.467 79.456 1991-09-17 \n",
+ "Belarus 78.583 67.693 1945-10-24 \n",
+ "North Korea 75.512 68.450 1991-09-17 \n",
+ "Ukraine 77.067 67.246 1945-10-24 \n",
+ "Estonia 82.111 73.201 1991-09-17 \n",
+ "Czechia 81.858 76.148 1993-01-19 \n",
+ "Uganda 62.667 58.252 1962-10-25 \n",
+ "Lithuania 80.060 69.554 1991-09-17 \n",
+ "Russia 76.882 65.771 1945-10-24 "
+ ]
+ },
+ "execution_count": 55,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "# 10 zemí s největší spotřebou alkoholu na jednoho obyvatele\n",
+ "countries.sort_values(\"alcohol_adults\", ascending=False).head(10)"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "💡 V následující buňce je celý kód uzavřen do závorky. Umožnili jsme si tím roztáhnout jeden výraz na více řádků, abychom jeho části mohli náležitě okomentovat."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 56,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/html": [
+ "
\n",
+ "\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
\n",
+ "
eu_accession
\n",
+ "
un_accession
\n",
+ "
\n",
+ "
\n",
+ "
name
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ " \n",
+ " \n",
+ "
\n",
+ "
France
\n",
+ "
1952-07-23
\n",
+ "
1945-10-24
\n",
+ "
\n",
+ "
\n",
+ "
Luxembourg
\n",
+ "
1952-07-23
\n",
+ "
1945-10-24
\n",
+ "
\n",
+ "
\n",
+ "
Netherlands
\n",
+ "
1952-07-23
\n",
+ "
1945-12-10
\n",
+ "
\n",
+ "
\n",
+ "
Belgium
\n",
+ "
1952-07-23
\n",
+ "
1945-12-27
\n",
+ "
\n",
+ "
\n",
+ "
Italy
\n",
+ "
1952-07-23
\n",
+ "
1955-12-14
\n",
+ "
\n",
+ "
\n",
+ "
Germany
\n",
+ "
1952-07-23
\n",
+ "
1973-09-18
\n",
+ "
\n",
+ "
\n",
+ "
Denmark
\n",
+ "
1973-01-01
\n",
+ "
1945-10-24
\n",
+ "
\n",
+ "
\n",
+ "
United Kingdom
\n",
+ "
1973-01-01
\n",
+ "
1945-10-24
\n",
+ "
\n",
+ "
\n",
+ "
Ireland
\n",
+ "
1973-01-01
\n",
+ "
1955-12-14
\n",
+ "
\n",
+ "
\n",
+ "
Greece
\n",
+ "
1981-01-01
\n",
+ "
1945-10-25
\n",
+ "
\n",
+ "
\n",
+ "
Portugal
\n",
+ "
1986-01-01
\n",
+ "
1955-12-14
\n",
+ "
\n",
+ "
\n",
+ "
Spain
\n",
+ "
1986-01-01
\n",
+ "
1955-12-14
\n",
+ "
\n",
+ "
\n",
+ "
Sweden
\n",
+ "
1995-01-01
\n",
+ "
1946-11-19
\n",
+ "
\n",
+ "
\n",
+ "
Austria
\n",
+ "
1995-01-01
\n",
+ "
1955-12-14
\n",
+ "
\n",
+ "
\n",
+ "
Finland
\n",
+ "
1995-01-01
\n",
+ "
1955-12-14
\n",
+ "
\n",
+ "
\n",
+ "
Poland
\n",
+ "
2004-05-01
\n",
+ "
1945-10-24
\n",
+ "
\n",
+ "
\n",
+ "
Hungary
\n",
+ "
2004-05-01
\n",
+ "
1955-12-14
\n",
+ "
\n",
+ "
\n",
+ "
Cyprus
\n",
+ "
2004-05-01
\n",
+ "
1960-09-20
\n",
+ "
\n",
+ "
\n",
+ "
Malta
\n",
+ "
2004-05-01
\n",
+ "
1964-12-01
\n",
+ "
\n",
+ "
\n",
+ "
Estonia
\n",
+ "
2004-05-01
\n",
+ "
1991-09-17
\n",
+ "
\n",
+ "
\n",
+ "
Latvia
\n",
+ "
2004-05-01
\n",
+ "
1991-09-17
\n",
+ "
\n",
+ "
\n",
+ "
Lithuania
\n",
+ "
2004-05-01
\n",
+ "
1991-09-17
\n",
+ "
\n",
+ "
\n",
+ "
Slovenia
\n",
+ "
2004-05-01
\n",
+ "
1992-05-22
\n",
+ "
\n",
+ "
\n",
+ "
Czechia
\n",
+ "
2004-05-01
\n",
+ "
1993-01-19
\n",
+ "
\n",
+ "
\n",
+ "
Slovakia
\n",
+ "
2004-05-01
\n",
+ "
1993-01-19
\n",
+ "
\n",
+ "
\n",
+ "
Bulgaria
\n",
+ "
2007-01-01
\n",
+ "
1955-12-14
\n",
+ "
\n",
+ "
\n",
+ "
Romania
\n",
+ "
2007-01-01
\n",
+ "
1955-12-14
\n",
+ "
\n",
+ "
\n",
+ "
Croatia
\n",
+ "
2013-01-01
\n",
+ "
1992-05-22
\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
"
+ ],
+ "text/plain": [
+ " eu_accession un_accession\n",
+ "name \n",
+ "France 1952-07-23 1945-10-24\n",
+ "Luxembourg 1952-07-23 1945-10-24\n",
+ "Netherlands 1952-07-23 1945-12-10\n",
+ "Belgium 1952-07-23 1945-12-27\n",
+ "Italy 1952-07-23 1955-12-14\n",
+ "Germany 1952-07-23 1973-09-18\n",
+ "Denmark 1973-01-01 1945-10-24\n",
+ "United Kingdom 1973-01-01 1945-10-24\n",
+ "Ireland 1973-01-01 1955-12-14\n",
+ "Greece 1981-01-01 1945-10-25\n",
+ "Portugal 1986-01-01 1955-12-14\n",
+ "Spain 1986-01-01 1955-12-14\n",
+ "Sweden 1995-01-01 1946-11-19\n",
+ "Austria 1995-01-01 1955-12-14\n",
+ "Finland 1995-01-01 1955-12-14\n",
+ "Poland 2004-05-01 1945-10-24\n",
+ "Hungary 2004-05-01 1955-12-14\n",
+ "Cyprus 2004-05-01 1960-09-20\n",
+ "Malta 2004-05-01 1964-12-01\n",
+ "Estonia 2004-05-01 1991-09-17\n",
+ "Latvia 2004-05-01 1991-09-17\n",
+ "Lithuania 2004-05-01 1991-09-17\n",
+ "Slovenia 2004-05-01 1992-05-22\n",
+ "Czechia 2004-05-01 1993-01-19\n",
+ "Slovakia 2004-05-01 1993-01-19\n",
+ "Bulgaria 2007-01-01 1955-12-14\n",
+ "Romania 2007-01-01 1955-12-14\n",
+ "Croatia 2013-01-01 1992-05-22"
+ ]
+ },
+ "execution_count": 56,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "(\n",
+ " # Uvažuj jenom EU\n",
+ " countries[countries[\"is_eu\"]]\n",
+ " \n",
+ " # Seřaď nejdřív podle data vstupu do EU, pak podle vstupu do OSN\n",
+ " .sort_values([\"eu_accession\", \"un_accession\"])\n",
+ "\n",
+ " # Zobraz si jen ty dva sloupce\n",
+ " [[\"eu_accession\", \"un_accession\"]]\n",
+ ")"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "💡 Ostatně je možné řadit nejen řádky, ale i sloupce. Následující příklad rovná sloupce podle jejich názvu (indexu). Poslouží k tomu (podobně jako v jiných podobných případech) argument `axis`."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 57,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/html": [
+ "
\n",
+ "\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
\n",
+ "
alcohol_adults
\n",
+ "
area
\n",
+ "
bmi_men
\n",
+ "
bmi_women
\n",
+ "
calories_per_day
\n",
+ "
car_deaths_per_100000_people
\n",
+ "
eu_accession
\n",
+ "
income_groups
\n",
+ "
infant_mortality
\n",
+ "
is_eu
\n",
+ "
is_oecd
\n",
+ "
iso
\n",
+ "
life_expectancy
\n",
+ "
life_expectancy_female
\n",
+ "
life_expectancy_male
\n",
+ "
population
\n",
+ "
un_accession
\n",
+ "
world_4region
\n",
+ "
world_6region
\n",
+ "
year
\n",
+ "
\n",
+ "
\n",
+ "
name
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ "
\n",
+ " \n",
+ " \n",
+ "
\n",
+ "
Afghanistan
\n",
+ "
0.03
\n",
+ "
652860.0
\n",
+ "
20.62
\n",
+ "
21.07
\n",
+ "
2090.0
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
low_income
\n",
+ "
66.3
\n",
+ "
False
\n",
+ "
False
\n",
+ "
AFG
\n",
+ "
58.69
\n",
+ "
65.812
\n",
+ "
63.101
\n",
+ "
34500000.0
\n",
+ "
1946-11-19
\n",
+ "
asia
\n",
+ "
south_asia
\n",
+ "
2018
\n",
+ "
\n",
+ "
\n",
+ "
Albania
\n",
+ "
7.29
\n",
+ "
28750.0
\n",
+ "
26.45
\n",
+ "
25.66
\n",
+ "
3193.0
\n",
+ "
5.978
\n",
+ "
NaN
\n",
+ "
upper_middle_income
\n",
+ "
12.5
\n",
+ "
False
\n",
+ "
False
\n",
+ "
ALB
\n",
+ "
78.01
\n",
+ "
80.737
\n",
+ "
76.693
\n",
+ "
3238000.0
\n",
+ "
1955-12-14
\n",
+ "
europe
\n",
+ "
europe_central_asia
\n",
+ "
2018
\n",
+ "
\n",
+ "
\n",
+ "
Algeria
\n",
+ "
0.69
\n",
+ "
2381740.0
\n",
+ "
24.60
\n",
+ "
26.37
\n",
+ "
3296.0
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
upper_middle_income
\n",
+ "
21.9
\n",
+ "
False
\n",
+ "
False
\n",
+ "
DZA
\n",
+ "
77.86
\n",
+ "
77.784
\n",
+ "
75.279
\n",
+ "
36980000.0
\n",
+ "
1962-10-08
\n",
+ "
africa
\n",
+ "
middle_east_north_africa
\n",
+ "
2018
\n",
+ "
\n",
+ "
\n",
+ "
Andorra
\n",
+ "
10.17
\n",
+ "
470.0
\n",
+ "
27.63
\n",
+ "
26.43
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
high_income
\n",
+ "
2.1
\n",
+ "
False
\n",
+ "
False
\n",
+ "
AND
\n",
+ "
82.55
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
88910.0
\n",
+ "
1993-07-28
\n",
+ "
europe
\n",
+ "
europe_central_asia
\n",
+ "
2017
\n",
+ "
\n",
+ "
\n",
+ "
Angola
\n",
+ "
5.57
\n",
+ "
1246700.0
\n",
+ "
22.25
\n",
+ "
23.48
\n",
+ "
2473.0
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
upper_middle_income
\n",
+ "
96.0
\n",
+ "
False
\n",
+ "
False
\n",
+ "
AGO
\n",
+ "
65.19
\n",
+ "
64.939
\n",
+ "
59.213
\n",
+ "
20710000.0
\n",
+ "
1976-12-01
\n",
+ "
africa
\n",
+ "
sub_saharan_africa
\n",
+ "
2018
\n",
+ "
\n",
+ "
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
...
\n",
+ "
\n",
+ "
\n",
+ "
Venezuela
\n",
+ "
7.60
\n",
+ "
912050.0
\n",
+ "
27.45
\n",
+ "
28.13
\n",
+ "
2631.0
\n",
+ "
7.332
\n",
+ "
NaN
\n",
+ "
upper_middle_income
\n",
+ "
12.9
\n",
+ "
False
\n",
+ "
False
\n",
+ "
VEN
\n",
+ "
75.91
\n",
+ "
79.079
\n",
+ "
70.950
\n",
+ "
30340000.0
\n",
+ "
1945-11-15
\n",
+ "
americas
\n",
+ "
america
\n",
+ "
2018
\n",
+ "
\n",
+ "
\n",
+ "
Vietnam
\n",
+ "
3.91
\n",
+ "
330967.0
\n",
+ "
20.92
\n",
+ "
21.07
\n",
+ "
2745.0
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
lower_middle_income
\n",
+ "
17.3
\n",
+ "
False
\n",
+ "
False
\n",
+ "
VNM
\n",
+ "
74.88
\n",
+ "
81.203
\n",
+ "
72.003
\n",
+ "
90660000.0
\n",
+ "
1977-09-20
\n",
+ "
asia
\n",
+ "
east_asia_pacific
\n",
+ "
2018
\n",
+ "
\n",
+ "
\n",
+ "
Yemen
\n",
+ "
0.20
\n",
+ "
527970.0
\n",
+ "
24.44
\n",
+ "
26.11
\n",
+ "
2223.0
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
lower_middle_income
\n",
+ "
33.8
\n",
+ "
False
\n",
+ "
False
\n",
+ "
YEM
\n",
+ "
67.14
\n",
+ "
66.871
\n",
+ "
63.875
\n",
+ "
26360000.0
\n",
+ "
1947-09-30
\n",
+ "
asia
\n",
+ "
middle_east_north_africa
\n",
+ "
2018
\n",
+ "
\n",
+ "
\n",
+ "
Zambia
\n",
+ "
3.56
\n",
+ "
752610.0
\n",
+ "
20.68
\n",
+ "
23.05
\n",
+ "
1930.0
\n",
+ "
11.260
\n",
+ "
NaN
\n",
+ "
lower_middle_income
\n",
+ "
43.3
\n",
+ "
False
\n",
+ "
False
\n",
+ "
ZMB
\n",
+ "
59.45
\n",
+ "
65.362
\n",
+ "
59.845
\n",
+ "
14310000.0
\n",
+ "
1964-12-01
\n",
+ "
africa
\n",
+ "
sub_saharan_africa
\n",
+ "
2018
\n",
+ "
\n",
+ "
\n",
+ "
Zimbabwe
\n",
+ "
4.96
\n",
+ "
390760.0
\n",
+ "
22.03
\n",
+ "
24.65
\n",
+ "
2110.0
\n",
+ "
20.850
\n",
+ "
NaN
\n",
+ "
low_income
\n",
+ "
46.6
\n",
+ "
False
\n",
+ "
False
\n",
+ "
ZWE
\n",
+ "
60.18
\n",
+ "
63.944
\n",
+ "
60.120
\n",
+ "
13330000.0
\n",
+ "
1980-08-25
\n",
+ "
africa
\n",
+ "
sub_saharan_africa
\n",
+ "
2018
\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
193 rows × 20 columns
\n",
+ "
"
+ ],
+ "text/plain": [
+ " alcohol_adults area bmi_men bmi_women calories_per_day \\\n",
+ "name \n",
+ "Afghanistan 0.03 652860.0 20.62 21.07 2090.0 \n",
+ "Albania 7.29 28750.0 26.45 25.66 3193.0 \n",
+ "Algeria 0.69 2381740.0 24.60 26.37 3296.0 \n",
+ "Andorra 10.17 470.0 27.63 26.43 NaN \n",
+ "Angola 5.57 1246700.0 22.25 23.48 2473.0 \n",
+ "... ... ... ... ... ... \n",
+ "Venezuela 7.60 912050.0 27.45 28.13 2631.0 \n",
+ "Vietnam 3.91 330967.0 20.92 21.07 2745.0 \n",
+ "Yemen 0.20 527970.0 24.44 26.11 2223.0 \n",
+ "Zambia 3.56 752610.0 20.68 23.05 1930.0 \n",
+ "Zimbabwe 4.96 390760.0 22.03 24.65 2110.0 \n",
+ "\n",
+ " car_deaths_per_100000_people eu_accession income_groups \\\n",
+ "name \n",
+ "Afghanistan NaN NaN low_income \n",
+ "Albania 5.978 NaN upper_middle_income \n",
+ "Algeria NaN NaN upper_middle_income \n",
+ "Andorra NaN NaN high_income \n",
+ "Angola NaN NaN upper_middle_income \n",
+ "... ... ... ... \n",
+ "Venezuela 7.332 NaN upper_middle_income \n",
+ "Vietnam NaN NaN lower_middle_income \n",
+ "Yemen NaN NaN lower_middle_income \n",
+ "Zambia 11.260 NaN lower_middle_income \n",
+ "Zimbabwe 20.850 NaN low_income \n",
+ "\n",
+ " infant_mortality is_eu is_oecd iso life_expectancy \\\n",
+ "name \n",
+ "Afghanistan 66.3 False False AFG 58.69 \n",
+ "Albania 12.5 False False ALB 78.01 \n",
+ "Algeria 21.9 False False DZA 77.86 \n",
+ "Andorra 2.1 False False AND 82.55 \n",
+ "Angola 96.0 False False AGO 65.19 \n",
+ "... ... ... ... ... ... \n",
+ "Venezuela 12.9 False False VEN 75.91 \n",
+ "Vietnam 17.3 False False VNM 74.88 \n",
+ "Yemen 33.8 False False YEM 67.14 \n",
+ "Zambia 43.3 False False ZMB 59.45 \n",
+ "Zimbabwe 46.6 False False ZWE 60.18 \n",
+ "\n",
+ " life_expectancy_female life_expectancy_male population \\\n",
+ "name \n",
+ "Afghanistan 65.812 63.101 34500000.0 \n",
+ "Albania 80.737 76.693 3238000.0 \n",
+ "Algeria 77.784 75.279 36980000.0 \n",
+ "Andorra NaN NaN 88910.0 \n",
+ "Angola 64.939 59.213 20710000.0 \n",
+ "... ... ... ... \n",
+ "Venezuela 79.079 70.950 30340000.0 \n",
+ "Vietnam 81.203 72.003 90660000.0 \n",
+ "Yemen 66.871 63.875 26360000.0 \n",
+ "Zambia 65.362 59.845 14310000.0 \n",
+ "Zimbabwe 63.944 60.120 13330000.0 \n",
+ "\n",
+ " un_accession world_4region world_6region year \n",
+ "name \n",
+ "Afghanistan 1946-11-19 asia south_asia 2018 \n",
+ "Albania 1955-12-14 europe europe_central_asia 2018 \n",
+ "Algeria 1962-10-08 africa middle_east_north_africa 2018 \n",
+ "Andorra 1993-07-28 europe europe_central_asia 2017 \n",
+ "Angola 1976-12-01 africa sub_saharan_africa 2018 \n",
+ "... ... ... ... ... \n",
+ "Venezuela 1945-11-15 americas america 2018 \n",
+ "Vietnam 1977-09-20 asia east_asia_pacific 2018 \n",
+ "Yemen 1947-09-30 asia middle_east_north_africa 2018 \n",
+ "Zambia 1964-12-01 africa sub_saharan_africa 2018 \n",
+ "Zimbabwe 1980-08-25 africa sub_saharan_africa 2018 \n",
+ "\n",
+ "[193 rows x 20 columns]"
+ ]
+ },
+ "execution_count": 57,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "countries.sort_index(axis=\"columns\")"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "**Úkol:** Seřaď země světa podle hustoty obyvatel."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "**Úkol:** Které země mají problémy s nadváhou (průměrné BMI mužů a žen je přes 25)?"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "**Úkol:** V kterých 20 zemích umře absolutně nejvíc lidí při automobilových haváriích?"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Ulož výsledky!\n",
+ "\n",
+ "A tím už pomalu končíme. Jenže jsme udělali (skoro) netriviální množství práce a ta bude do příště ztracená. Naštěstí zapsat `DataFrame` do externího souboru v některém z typických formátů není vůbec komplikované. K sadě funkcí `pd.read_XXX` existují jejich protějšky `DataFrame.to_XXX`. Liší se různými parametry, ale základní použití je velmi jednoduché:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 58,
+ "metadata": {},
+ "outputs": [],
+ "source": [
+ "planety.to_csv(\"planety.csv\")"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 59,
+ "metadata": {},
+ "outputs": [],
+ "source": [
+ "planety.to_excel(\"planety.xlsx\")"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Excel ani CSV nejsou formáty pro ukládání velikých dat zcela vhodné (jako alternativy se nabízí třeba [feather](https://github.com/wesm/feather) nebo [parquet](https://en.wikipedia.org/wiki/Apache_Parquet)), pro naše účely (malé soubory, čitelný textový formát) ale budou CSV postačovat."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Jednou z možností je i vytvoření HTML tabulky (které lze dodat i různé formátování, což ovšem nechme raději na jindy nebo na doma, viz [dokumentace \"Styling\"](https://pandas.pydata.org/pandas-docs/stable/user_guide/style.html)). Výchozí [`to_html`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_html.html) si bohužel neporadí s \"nezápadními\" symboly (což je třeba ☿), a tak mu (v našem konkrétním případě) musíme předat korektně otevřený soubor:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 60,
+ "metadata": {},
+ "outputs": [],
+ "source": [
+ "# planety.to_html(\"planety.html\") # To (zatím) nefunguje :-(\n",
+ "\n",
+ "with open(\"planety.html\", \"w\", encoding=\"utf-8\") as out:\n",
+ " planety.to_html(out)"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 61,
+ "metadata": {},
+ "outputs": [],
+ "source": [
+ "countries.to_html(\"countries.html\") # Žádné exotické symboly :-)"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "**Úkol**: Podívej se, co ve výstupních souborech najdeš."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "**Úkol**: Podívej se na seznam možných výstupních formátů a zkus si planety nebo země zapsat do nějakého z nich: https://pandas.pydata.org/pandas-docs/stable/reference/frame.html#serialization-io-conversion"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "A to už je opravdu všechno. 👋"
+ ]
+ }
+ ],
+ "metadata": {
+ "kernelspec": {
+ "display_name": "Python 3",
+ "language": "python",
+ "name": "python3"
+ },
+ "language_info": {
+ "codemirror_mode": {
+ "name": "ipython",
+ "version": 3
+ },
+ "file_extension": ".py",
+ "mimetype": "text/x-python",
+ "name": "python",
+ "nbconvert_exporter": "python",
+ "pygments_lexer": "ipython3",
+ "version": "3.7.3"
+ }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 4
+}
diff --git a/lessons/pydata/pandas_types/info.yml b/lessons/pydata/pandas_types/info.yml
new file mode 100644
index 0000000000..1e138b59b4
--- /dev/null
+++ b/lessons/pydata/pandas_types/info.yml
@@ -0,0 +1,4 @@
+title: Datové typy v pandas
+style: ipynb
+attribution: Pro PyDataCZ napsal Jan Pipek, 2020.
+license: cc-by-sa-40
\ No newline at end of file
diff --git a/lessons/pydata/visualization_basics/index.ipynb b/lessons/pydata/visualization_basics/index.ipynb
new file mode 100644
index 0000000000..b45bde16d6
--- /dev/null
+++ b/lessons/pydata/visualization_basics/index.ipynb
@@ -0,0 +1,4434 @@
+{
+ "cells": [
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "# Základy vizualizace - v pandas a pro pandas\n",
+ "\n",
+ "Jeden obrázek (či graf) někdy dokáže říci více než tisíc slov. U (explorativní) datové analýzy to platí dvojnásob (A jako umí být manipulativní článek o tisíci slovech, o to manipulativnější umí být \"vhodně\" připravený graf).\n",
+ "\n",
+ "V této lekci si ukážeme, jak z dat, která už umíš načíst a se kterými provádíš mnohé aritmetické operace, vykreslíš některé základní typy grafů (sloupcový, spojnicový a bodový)."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Rozmanitý svět vizualizačních knihoven v Pythonu\n",
+ "\n",
+ "Zatímco ohledně knihovny pro běžné zpracování tabulkových dat panuje shoda a při zkoumání malých až středně velkých dat nepříliš exotického typu téměř vždy analytici běžně sahají po `pandas`, knihoven pro vizualizaci dat existuje nepřeberné množství - každá má svoje výhody i nevýhody. My si během lekcí EDA zmíníme tyto tři (a budeme se soustředit především na to, jak je použít společně s pandas):\n",
+ "\n",
+ "- `matplotlib` - Toto je asi nejrozšířenější a v mnoha ohledech nejflexibilnější knihovna. Představuje výchozí volbu, pokud potřebuješ dobře vyhlížející statické grafy, které budou fungovat skoro všude. Značná flexibilita je vyvážena někdy ne zcela intuitivními jmény funkcí a argumentů. Pandas ji využívá interně (proto se s ní nemusíš seznámit tak detailně). Viz https://matplotlib.org/.\n",
+ "\n",
+ "- `seaborn` - Cílem této knihovny je pomoci zejména se statistickými grafy. Staví na matplotlibu, ale překrývá ho \"lidskou\" tváří. My s ním budeme pracovat při vizualizaci složitějších vztahů mezi více proměnnými. Viz https://seaborn.pydata.org/.\n",
+ "\n",
+ "- `plotly` (a zejména její podmnožina `plotly.express`) - Po této knihovně zejména sáhneš, budeš-li chtít do své vizualizace vložit interaktivitu. Ta se samozřejmě obtížně tiskne na papír, ale zejména při práci v Jupyter notebooku umožní vše zkoumat výrazně rychleji. Viz https://plot.ly/python/.\n",
+ "\n",
+ "Pro zájemce o bližší vysvětlení doporučujeme podívat se na (již poněkud starší) video od Jakea Vanderplase: Python Visualizations' Landscape (https://www.youtube.com/watch?v=FytuB8nFHPQ), které shrnuje základní vlastnosti jednotlivých knihoven.\n"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 1,
+ "metadata": {},
+ "outputs": [],
+ "source": [
+ "%matplotlib inline\n",
+ "\n",
+ "# Co to má znamenat!?"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Jestli ses dosud tvářil/a, že nevíš o existenci matplotlibu, teď už nemůžeš :-). Tato mysteriózní řádka (ve skutečnosti \"IPython magic command\") říká, že všechny grafy se automaticky vykreslí přímo do notebooku (to vůbec není samozřejmé a leckdy to ani nechceme - třeba když chceme grafy ukládat rovnou do souboru nebo interaktivně mimo notebook).\n",
+ "\n",
+ "Více viz https://ipython.readthedocs.io/en/stable/interactive/magics.html#magic-matplotlib.\n"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Příprava - zdroj dat\n",
+ "\n",
+ "Nejdříve si načteme data se zeměmi světa, použitá již v lekci o typech. Přidáme k tomu i tabulku s vývojem některých ukazatelů v čase pro Českou republiku (a hned se na ně podíváme).\n",
+ "\n",
+ "Opět kód pro stažení...\n",
+ "\n",
+ "Případně můžeš manuálně stáhnout tyto soubory:\n",
+ "- https://raw.githubusercontent.com/janpipek/data-pro-pyladies/master/data/countries.csv\n",
+ "- https://raw.githubusercontent.com/janpipek/data-pro-pyladies/master/data/cze.csv"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 2,
+ "metadata": {},
+ "outputs": [
+ {
+ "name": "stdout",
+ "output_type": "stream",
+ "text": [
+ "Soubor countries.csv už byl stažen, použijeme místní kopii.\n",
+ "Soubor cze.csv už byl stažen, použijeme místní kopii.\n",
+ "Všechny soubory jsou staženy.\n"
+ ]
+ }
+ ],
+ "source": [
+ "# Nutné importy ze standardní knihovny\n",
+ "import os\n",
+ "from urllib.request import urlretrieve\n",
+ "\n",
+ "# Seznam souborů (viz níže)\n",
+ "zdroje = [\n",
+ " # Země\n",
+ " \"https://raw.githubusercontent.com/janpipek/data-pro-pyladies/master/data/countries.csv\",\n",
+ "\n",
+ " # Česká data\n",
+ " \"https://raw.githubusercontent.com/janpipek/data-pro-pyladies/master/data/cze.csv\"\n",
+ "]\n",
+ "\n",
+ "for zdroj in zdroje:\n",
+ " # Pouze poslední část cesty adresy datového zdroje je jeho jméno\n",
+ " jmeno = zdroj.rsplit(\"/\")[-1]\n",
+ " \n",
+ " if not os.path.exists(jmeno): \n",
+ " print(f\"Soubor {jmeno} ještě není stažen, jdeme na to...\")\n",
+ " urlretrieve(url=zdroj, filename=jmeno)\n",
+ " print(f\"Soubor {jmeno} úspěšně stažen.\")\n",
+ " else:\n",
+ " print(f\"Soubor {jmeno} už byl stažen, použijeme místní kopii.\")\n",
+ "print(\"Všechny soubory jsou staženy.\")"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 3,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "text/html": [
+ "
\n",
+ "\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
\n",
+ "
year
\n",
+ "
population
\n",
+ "
alcohol_adults
\n",
+ "
bmi_men
\n",
+ "
bmi_women
\n",
+ "
car_deaths_per_100000_people
\n",
+ "
calories_per_day
\n",
+ "
infant_mortality
\n",
+ "
life_expectancy
\n",
+ "
life_expectancy_female
\n",
+ "
life_expectancy_male
\n",
+ "
\n",
+ " \n",
+ " \n",
+ "
\n",
+ "
29
\n",
+ "
2009
\n",
+ "
10440000.0
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
3276.0
\n",
+ "
3.6
\n",
+ "
77.24
\n",
+ "
80.450
\n",
+ "
74.234
\n",
+ "
\n",
+ "
\n",
+ "
30
\n",
+ "
2010
\n",
+ "
10490000.0
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
3276.0
\n",
+ "
3.4
\n",
+ "
77.47
\n",
+ "
80.672
\n",
+ "
74.511
\n",
+ "
\n",
+ "
\n",
+ "
31
\n",
+ "
2011
\n",
+ "
10530000.0
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
3251.0
\n",
+ "
3.2
\n",
+ "
77.75
\n",
+ "
80.873
\n",
+ "
74.768
\n",
+ "
\n",
+ "
\n",
+ "
32
\n",
+ "
2012
\n",
+ "
10570000.0
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
3243.0
\n",
+ "
3.2
\n",
+ "
78.00
\n",
+ "
81.055
\n",
+ "
75.006
\n",
+ "
\n",
+ "
\n",
+ "
33
\n",
+ "
2013
\n",
+ "
10590000.0
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
NaN
\n",
+ "
3256.0
\n",
+ "
3.0
\n",
+ "
78.27
\n",
+ "
81.219
\n",
+ "
75.225
\n",
+ "
\n",
+ " \n",
+ "
\n",
+ "
"
+ ],
+ "text/plain": [
+ " year population alcohol_adults bmi_men bmi_women \\\n",
+ "29 2009 10440000.0 NaN NaN NaN \n",
+ "30 2010 10490000.0 NaN NaN NaN \n",
+ "31 2011 10530000.0 NaN NaN NaN \n",
+ "32 2012 10570000.0 NaN NaN NaN \n",
+ "33 2013 10590000.0 NaN NaN NaN \n",
+ "\n",
+ " car_deaths_per_100000_people calories_per_day infant_mortality \\\n",
+ "29 NaN 3276.0 3.6 \n",
+ "30 NaN 3276.0 3.4 \n",
+ "31 NaN 3251.0 3.2 \n",
+ "32 NaN 3243.0 3.2 \n",
+ "33 NaN 3256.0 3.0 \n",
+ "\n",
+ " life_expectancy life_expectancy_female life_expectancy_male \n",
+ "29 77.24 80.450 74.234 \n",
+ "30 77.47 80.672 74.511 \n",
+ "31 77.75 80.873 74.768 \n",
+ "32 78.00 81.055 75.006 \n",
+ "33 78.27 81.219 75.225 "
+ ]
+ },
+ "execution_count": 3,
+ "metadata": {},
+ "output_type": "execute_result"
+ }
+ ],
+ "source": [
+ "import pandas as pd\n",
+ "\n",
+ "countries = pd.read_csv(\"countries.csv\").set_index(\"name\")\n",
+ "czech = pd.read_csv(\"cze.csv\")\n",
+ "czech.tail()"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Sloupcový graf (bar plot)\n",
+ "\n",
+ "Úplně nejjednodušší graf, který můžeš vytvořit, je **sloupcový**. Vedle sebe postupně zobrazíš sloupečky vysoké podle vlastnosti, která tě zajímá. Ukazuje hodnoty jedné proměnné, aniž by je jakýmkoliv způsobem statisticky zpracovával nebo porovnával s proměnnou jinou.\n",
+ "\n",
+ "V `pandas` se k funkcím pro kreslení grafů přistupuje pomocí tzv. **accessoru** `.plot`. To je hybridní objekt, který lze volat jako metodu (`Series.plot()` - použije výchozí typ grafu), anebo lze pomocí další tečky odkazovat na jeho vlastní metody, které kreslí různé typy grafů. Z \"pedagogických důvodů\" (které bývají leckdy nepochopitelné) chceme začít od sloupcového grafu, který výchozí není, a tak voláme [`Series.plot.bar()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.plot.bar.html)."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 4,
+ "metadata": {
+ "scrolled": true
+ },
+ "outputs": [
+ {
+ "data": {
+ "text/plain": [
+ ""
+ ]
+ },
+ "execution_count": 4,
+ "metadata": {},
+ "output_type": "execute_result"
+ },
+ {
+ "data": {
+ "image/png": "\n",
+ "text/plain": [
+ "
"
+ ]
+ },
+ "metadata": {
+ "needs_background": "light"
+ },
+ "output_type": "display_data"
+ }
+ ],
+ "source": [
+ "countries[\"life_expectancy\"].plot.bar()"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Uf, to nevypadá úplně nejpřehledněji. Zkusme totéž, jen pro země Evropské Unie (kterých bylo v době psaní materiálu i zahájení kurzu stále ještě 28). Filtrování v `query` očekává řadu logických hodnot, tou je i samotný sloupec `\"is_eu\"`:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 5,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "image/png": "\n",
+ "text/plain": [
+ "
"
+ ]
+ },
+ "metadata": {
+ "needs_background": "light"
+ },
+ "output_type": "display_data"
+ }
+ ],
+ "source": [
+ "eu_countries = countries.query(\"is_eu\") # nebo countries[countries[\"is_eu\"]]\n",
+ "eu_countries[\"life_expectancy\"].plot.bar();"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "To se neporovnává úplně snadno - dožívají se lidé více ve Spojeném Království, nebo v Německu? Co kdybychom (opakování z minula) hodnoty seřadili a teprve pak zobrazili?"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 6,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "image/png": "\n",
+ "text/plain": [
+ "
"
+ ]
+ },
+ "metadata": {
+ "needs_background": "light"
+ },
+ "output_type": "display_data"
+ }
+ ],
+ "source": [
+ "eu_countries[\"life_expectancy\"].sort_values().plot.barh();"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Funkce pro kreslení grafů nabízejí spoustu parametrů, které nejsou úplně dobře zdokumentované a jsou dost úzce svázány s tím, jak funguje knihovna `matplotlib`. Budeme si je postupně ukazovat, když nám přijdou vhod. Náš graf by se nám hodilo trošku zvětšit na výšku. Také se hodnoty od sebe příliš neliší a nastavení vlastního rozsahu na ose x by pomohlo rozdíly zvýraznit. Plus si přidáme trošku formátování.\n",
+ "\n",
+ "- `figsize` specifikuje velikost grafu jako dvojici (tuple) velikosti v palcích v pořadí (šířka, výška). Pro volbu ideální hodnoty si prostě v notebooku zaexperimentuj.\n",
+ "- `xlim` specifikuje rozsah hodnot na ose x v podobně dvojice (minimum, maximum)\n",
+ "- `color` specifikuje barvu výplně: může jít o název či o hexadecimální RGB zápis\n",
+ "- `edgecolor` říká, jakou barvou mají být sloupce ohraničeny\n",
+ "- `title` nastavuje titulek celého grafu"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 8,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "image/png": "\n",
+ "text/plain": [
+ "
"
+ ]
+ },
+ "metadata": {
+ "needs_background": "light"
+ },
+ "output_type": "display_data"
+ }
+ ],
+ "source": [
+ "eu_countries[\"life_expectancy\"].sort_values().plot.barh(\n",
+ " figsize=(6, 8),\n",
+ " xlim=(75, 85),\n",
+ " color=\"yellow\",\n",
+ " edgecolor=\"#888888\", # střední šeď\n",
+ " title=\"Očekávaná doba dožití (roky)\"\n",
+ ");"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "💡 Začínat sloupcové (ale i mnohé další) grafy jinde než u nuly ti pomůže všimnout si i nepatrných rozdílů, a proto v explorativní fázi je to určitě dobrý nápad. Ovšem při prezentaci výsledků mohou zvýrazněné rozdíly mást publikum a budit dojem, že nějaký efekt je výrazně silnější než ve skutečnosti. Manipulační efekt je tím silnější, čím méně intuitivní jsou prezentovaná data. V tomto případě by asi málokdo uvěřil, že ve Španělsku žijí lidé šedesátkrát déle než v Lotyšsku, protože to neodpovídá běžnému očekávání, ale i tak na první pohled situace vypadá velice dramaticky (necháváme ti na posouzení, jestli rozdíl mezi 75 a 83, neboli cca 10 % je obrovský či nikoliv). Novináři takto matou poměrně často - ať už úmyslně, nebo omylem."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "V grafu ovšem můžeme velice snadno zobrazit více veličin, pokud jej nevytváříme skrze `Series`, ale `DataFrame`. Stačí místo jednoho sloupce dodat sloupců více (například výběrem z `DataFrame`) a pro každý řádek se nám zobrazí více sloupečků pod sebou.\n",
+ "\n",
+ "V našem případě se podíváme na to, kolika let se dožívají muži a ženy. Zvolíme genderově stereotypní barvy (ono je to někdy intuitivnější), ale ty si je samozřejmě můžeš upravit podle libosti."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 9,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "image/png": "\n",
+ "text/plain": [
+ "
"
+ ]
+ },
+ "metadata": {
+ "needs_background": "light"
+ },
+ "output_type": "display_data"
+ }
+ ],
+ "source": [
+ "eu_countries.sort_values(\"life_expectancy\")[[\"life_expectancy_male\", \"life_expectancy_female\"]].plot.barh(\n",
+ " figsize=(8, 10),\n",
+ " xlim=(68, 88), # rozsah osy\n",
+ " color=[\"blue\", \"red\"], # dvě různé barvy pro dva sloupce\n",
+ " edgecolor=\"#888888\", # střední šeď\n",
+ " title=\"Očekávaná doba dožití (roky)\"\n",
+ ");"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "**Úkol:** Zkus si nakreslit sloupcový graf některé z dalších charakteristik (\"sloupců\") zemí (ať už evropských, nebo filtrováním přes nějaký region) a zamysli se nad tím, jakou výpovědní hodnotu takový graf má (někdy prachbídnou)."
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Bodový graf (scatter plot)\n",
+ "\n",
+ "Bodový graf je nejjednodušším způsobem, jak porovnat dvě různé veličiny. V soustavě souřadníc, jak se používá v matematice, každému řádku odpovídá jeden bod (nakreslený jako symbol, nejčastěji kolečko), hodnoty dvou sloupců pak kódují souřadnici `x` a `y`. To se odráží i ve způsobu, jak bodový graf v `pandas` vytváříme.\n",
+ "\n",
+ "Zavoláme metodu [`plot.scatter`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.scatter.html) naší tabulky (poznámka: bodový graf nelze jednoduše vytvořit ze `Series`) a dodáme jí coby argumenty `x` a `y` jména sloupců, která se pro souřadnice mají použít:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 10,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "image/png": "iVBORw0KGgoAAAANSUhEUgAAAX8AAAEHCAYAAABGNUbLAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADh0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uMy4xLjEsIGh0dHA6Ly9tYXRwbG90bGliLm9yZy8QZhcZAAAgAElEQVR4nO2de5wcZZX3v2d6LglJIDHcQi4gBmUTlkScBQVfXm7ugkDU5eIFEW9EX0FY1+Wysmxgs76vgry+ukTfDYiiBBWD3ALiBcJyEaIBk5AEWCKQK0KSTZBA0jPTffaP6p709FR3V3XXravO9/OZz0xXd3Wdqu75PafOOc95RFUxDMMwskVH3AYYhmEY0WPibxiGkUFM/A3DMDKIib9hGEYGMfE3DMPIIJ1xG+CVvffeWw866KC4zTAMw2grnnzyyS2quk/19rYR/4MOOoilS5fGbYZhGEZbISJr3baHHvYRkS+JyCoRWSkiPxaRESLyAxF5UUSWlX5mhm2HYRiGsZtQPX8RmQhcBExT1Z0ichvwkdLTl6jqwjCPbxiGYbgTRcK3ExgpIp3AHsCmCI5pGIZh1CFU8VfVjcA3gHXAy8Brqvqr0tNfFZEVIvJNEelx219EZovIUhFZunnz5jBNNQzDyBShir+IjAM+ALwVOAAYJSIfB/4ROBT4K+AtwGVu+6vqfFXtVdXeffYZlqw2DMMwmiTssM9JwIuqullV+4GfA0er6svqkAe+DxwZsh1GAtm6I8/y9dvZuiMftymGkTnCLvVcB7xbRPYAdgInAktFZIKqviwiAnwQWBmyHYGxdUeeDdt2MmncSMaPdo1WGR64a9lGLrt9BV0dHfQXi1xzxuHMmjkxbrMMIzOEKv6qukREFgJPAQPAH4D5wC9EZB9AgGXA58O0IyhMsIJh6448l92+gl39RXZRBODS21dwzNS9bUA1jIgIfZKXqs4B5lRtPiHs4waNCVZwbNi2k66OjsHrCNDV0cGGbTvtWhpGRFhvH4+UBauSsmAZ/pg0biT9xeKQbf3FIpPGjYzJIsPIHib+HjHBCo7xo3u45ozDGdHVwZieTkZ0dXDNGYe3nddvCWujnWmb3j5xUxasS6ti/u0mWElh1syJHDN177ZNntfK/1hBgNEumPj7oN0FK2mMH93TltewVv7n9V0DzL13tRUEGG2BhX18Mn50DzMmj21L0TKG0mzYxi3/k+sQrr5nFbv6i7yeH2BXf5FLb19hISEjsZjnb2SSVsp2XfM/BaUr10FfoTC4zSqYjCRjnr8ROnEmRt2OvXVHnksXrmjaS3dLWM85fRoF1SGvq1UQYIliIwmY5x8BWU4CNutht3rNtu7Is2DJOuYtfp7uXG7IsRcsWUd+YKjn7tdLd8v/jOnpbFgQYIliIymY+IdMlmcFNzsxrtVrdteyjVy6cMWgwOcHBgaPPW3Cnsxb/PywffoK/st2qxPWjQoCLFFsJAkL+4RI5T97FpOAzUyMa/Walfev9uzLx162fjvdudyw5046dN9APO56BQGuiWIRrl60esj5XrJwBQ//5+bMfE+MeDDxD5GszwpuZmJcq9fMbf8yfYUCMyePHZKULfObZ18NXWwnjRtJX6E6UVykOydDtuUHinz+R09yzNcf5O5lG0O1ycguJv4hEuas4HZIGjYzk7fVa+a2f5miwpIX/4szj5g87LnuXPiD8qNrtlCosK0rJ8w5fToDRR322jf7C5m7UzSixWL+IRLWrOB2yiP4nRjX6jWr3D/XIbyR3+3l9xeUK+5cyaju4WGfsFt1lMNRldGoDoGTD9ufMSOcRHGHCG/2Db0rCaNc1JLLBpj4h07Qs4Kj6C4atDj4ncnb6jUr77/42VeZc/cq3qgS1MrHo7pzFFQbDjCtXhO3TqbduRwbtu0ctHfVptc4/4dLyQ/svhMIelBqJ8ehWWxw84aJfwQE2cYg7HbISRGHVq/Z+NE9HH/ovvzTXbXXCRrVk+Pq06dz/KH7ArB8/XZXwWjlmpSFaFR3rm44a/zoHo59+75ce+aMwbuevkKBC46b6un9vQhdFtqSJ+X72w5YzL/NCDuPkKbqpMqcg1uop1BUjj90Xx5ds4Vjvv4gH79xybAkayvXZMETa3nP1x7knBuf4LTrH+Xs3kkN8x+zZk7ksctO4PxjDwaE+Q+/UDPxe9eyjTXtdqNWtVFaChDS9v0NG/P824wwu4umcZGVyhDSyk2vMXfR0Hp6oK433Ow1WfDEWq6407nr6HOmGXDb0g0suvC9vNFXaOipf+ehNeQHioMlq9UeejNevJvj8EZfgZWbXmPG5LE1bWkX0vj9DRMTfw8kLYYYVnfRdlizYOuOPKs2/RlQph+wl6dzL4eQZkwey8nT9x9y3Zav315XMJq5Jlt35Ln6nlXDtuc6hDf6Cg2F1ouINSN040f3cOWp0wYHpTJzF63m5On7J+K73Qrt8P1NEib+DUhqDDGMdshJX7PgrmUb+fJtywYrZrpywnVnzfD1eVRft0aC0cw12bBt57Amb+BUG3kRIi8i1qzQHTZxL0b35NiRT18DuqR/f5OGiX8dWkmQJe1uwStJXbPAaca2fEipZH9BuWRhawlLL4Lh95pMGjdyWJM3gDmnT/N8p9LIpmaFbtK4kcPmFaTJO07q9zeJmPjXodkYYlLvFrzi5a4i6sFtw7ad5KQDGOpN5zqkZa/Vi2D4udMaMtdAhP5CkTmnT+ecow4M1KZmhC4L3nG7LhIUNaGLv4h8CfgsoMDTwKeACcBPgLcATwHnqmpf2Lb4pdl4r5XTBY/jTQ+fuVsoegulNCJowQjCA/ViUzN2m3dsQMilniIyEbgI6FXVw4Ac8BHg68A3VfUQYBvwmTDtaLYVQjPtCdLezyeucrrxo3u49swZdFZc2q6ccO2ZyfVak7zqW5JtM6IhirBPJzBSRPqBPYCXgROAj5Wevxm4CvhuGAdv1UttJt6b5oqDOMvpds+E9VftYxjGcEL1/FV1I/ANYB2O6L8GPAlsV9VS9TMbAFc1FpHZIrJURJZu3rzZ9/GD8lL9eEl+7xbaoUFbJXEPbs5M2H049u3BtGA2jKwSqucvIuOADwBvBbYDPwNOcXnp8NIIQFXnA/MBent7XV9Tj7i8VK93C3HEzltN1PpNGLZr1ZPhD/uc24+wwz4nAS+q6mYAEfk5cDQwVkQ6S97/JGBTGAeP00ttlIiLIzEc1GCT5MGtGhOl8EnC52z4J+zePuuAd4vIHiIiwInAamAxcGbpNecBd4Vx8GYStlERdWI46ERto1BYEvqs+O19Y/gnCZ+z0Ryhev6qukREFuKUcw4Af8AJ49wL/ERE/rW07Xth2ZDUsrao70qiDoHF3WclCyW3SSDuz9lontCrfVR1DjCnavMLwJFhH7tMEid9RD3Zxm2w6SsUQhts4k4MmyhFQ9yfs9E81tI5Rsrte2/57FE8dtkJocZJy4NNZZ18UeGxNVuafs96lUpxh9xMlKIh7s/ZaB5Rlx4kSaS3t1eXLl0atxltzdYdeY7+2oODbYIBRnR18NhlJ/j+Z/Wa5Isj4Vo+plsLZ0tEhoMl1pOLiDypqr3V2623T4bYsG0n3bmOIeLfTCikUTy9WgiiFIPqQenKU6dx2MS9MilKUQpyEkOrRn1M/KtIswcTVCikXjz90TVbhorvadM47IBoxNdtUJp77+qm7mzaHSu/NBph4s/uBUIe/+MWbnrsRbpzOfoKBS48/hA+dtSU1AhHUEnmWoPIqO7cMPG94o6VQxZJD1OA3AalDhFWbXqNY9++b2jHTRpW6WR4IXPiX+3ZVy8QApAfcDpPXPfr/+T6xWu49sz0eE1BdZt0G0Te6CsME19wlgqE8AXIbVB6s6/A+T9cyrVn+lv0pZ3xUukU1x1umu+s241Mif+wePBp0/iXe1YNEf5q8gPF1HlNQcRn3QaRrTvyw8S3Ei/5BT/i4JZbuOaMw7lk4YoheY38gKbuM6xHo/BeXCEhC0Uli8yUerrNRLz6ntUI0nDfejNv260xW5BUz/KtLPsb1ZMb9vpG+QU/M3JrvXbWzInc8Ile9ugaevw0tdVuRL3yy7hm5NpM4OSRGc/f9VY4J/T1F+rs5VBLtOL2ZJJ4C115R7By42vMvXe1p/yCnzh1o9dOP2BPiqRjqcJmP+Na4b24Jr/ZpLvkkRnxd7sVLhSVq2Ydxpy7Vw5ZFPyv/2I/fvPsq3TnaotW3Em1uAeeepRDMDMmj+Xkw/b3JF5+xKHea8vPX3natGE1/u0mMq1+xm7hvbgmv9mku+SRGfF3S1KWa8Dvv/hYNr22i8oFQhp5XHF6MkEPPH69Sz+v95pf8CMOtV67cuNrfHj+46mo8Q/LuYhrDd+4jmvUJjPiD+4hic4Ooa+gzDl92pAFthuJVpyeTJADj1/vMqw7jnriUCuxe2lV8n7uotWpqfEP07mIq9lhUpssZpVMiT8w+IX78PzH2dW/+x/rijtWgsI57z7Qk2cbpycT1MDj17sMO9TlJg61Bpvq1yYxptxKTiZs5yKuGbk2Ezg5ZE78wfGqOjuGV/lcfc8qgGFJylqebVyeTFADj1/BjEJgK8Wh0WBTLSRJiikHEa+3MIkRJpkU/0njRtJXGN7QrjMnXH3PKvoK6tmzjcuTCWLg8etdJnkNgiSJpdug9Q8LVzBtwp5M3W+M5/exMIkRJpmp869k/Oge5pw+bdj2gSJ05aJbXatVquvsm9nfbzveC46bSk+nRNK+1+9gE2WL7Hq4rdLWN1Dk/d9+xPdqYm6fcZbnlhjBkUnPH3CSu+qEerpyHRRU+fv3vZ1v/PK5Ia9LezlaM+vxgjD72IOb6nvkt1LIrzefhJiy26AF0FdofaZxEkp8kzi/xPBP5vv5D/Z+L1X/AOzqL9KTE6RDElU/Xybqf76tO/Ic8/UHhyTIm1kHoFnhCvp8o7h+dy/byD8sXEFfVe+QMT2d3PLZo5gxeazv9wzqc2iFJAw+hj8y3c+/3j97reofFeHeC9/LuFHdLF+/PTFeThz/fEEkelupFArSm4/q+s2aOZFpE/bk/d9+ZEh+qZU7ybgrmtw+w0sWLs9Mz6S0kfqYv5d+MW4x2p5cB/et/JPnXjNREFd/lCASvW7XOOp8StDXr1Hsfep+Y/jGWTMCW+Iw7lmybp9hfkC57lfPWf6hDUm1+Hv9Z6+1uPm8xWsS1YgqCAFtJlnYTGK4mqCFq5nzCHIA8tqELqgkdPnu9cpTp8W6LnJfYXgvrFt/t56jv/ZA7M6R4Y9Qwz4i8g7gpxWbDgb+GRgLnA9sLm3/iqreF/Txvd4muyUWLzhuKvMffqHlJQ+DpFUBbSXk0WrZYZClmM2eR1yT41oNW7m1Io9qdbRKxo/u4cLjD+G6X//nsOey1jY7DYQq/qr6HDATQERywEbgDuBTwDdV9RthHr/RP3tlLqBa3ADmPbSm5r5h45anGD+6hytPnTakQsmrgAYxO7dVEQuibr3V3EEck+NawXVpykXxta342FFTuH7xmiFOUZm4nSPDH1EmfE8E/qiqa0Ua99APgnr/7LW8x8ovblyThmrZdteyjcy9dzXdnR2D/Yi8eu5xJwvLVA8gfitvWj2POCbHtUJSPrcy40f3cO2ZwxfMgfSXRaeNKMX/I8CPKx5fKCKfAJYCX1bVbdU7iMhsYDbAlClTmjporRWnvHiPccywrGXbtAl7Dm4vM3fRak6evn/gXTOjopnwTRDn0eodTJSziZP4uZX/L25dso7rFz9Pdy5n7SfakEjEX0S6gVnAP5Y2fReYC2jp93XAp6v3U9X5wHxw6vybPX71P7vftgFRfqFr2bZs/faWPMCwBKvZmvlmwzdJaeMQlWOQlPN1s+uLJx7Cx46aYhO+2pSoPP9TgKdU9RWA8m8AEbkBWBSRHUAyvakytWybOXlsyzYHLVitJJBbCWckpeeNF8cgiAllSTlfN5Iwo9pojqhKPT9KRchHRCZUPPchYGVEdgDBlC5GbdvU/ca0ZHO5NBKo2w/IawllqzXzfgfgarta7WsUBX7WJG5EO5yv0V6E7vmLyB7A+4DPVWy+RkRm4oR9Xqp6LhKS7E3Vsq1Zm7166H48+VYTkX7CGe3YUiDuZT4NoxGhi7+qvgmMr9p2btjH9UKSb1lr2ebXZq8i5FesggideRnM2lVEk1alk2as0VxzpHqGr+F9Vqvf2a9Bhc4ahTOS0BaiGZKcV0oTQYbWskYmGrtBY+8grd6DVxGq97pa1yaK0Fm7imhSq3TSRLveFSYFz+IvIrcDNwG/UNXh0/sSTKOYcTvGlL3iVYRqve7RNVvqXptaYaigBtN2FtEk55XSgIXWWsNzP38ROQmnLcO7gZ8BP1DVZ0O0bQjN9vNv1AM9CT3SgyCoO5vK1wFNXZswBtOtO/Ks2vRnQJl+wF5t9dkY4ZCW/92wabmfv6r+BviNiOyFU7r5axFZD9wA3KKq/YFZGyCNvIM0eA9exNZrorjydcubmFgW1q14ozsQI3u0811hEvAV8xeR8cDHgXOBPwALgPcC5wHHBW1cEDSKGbdrTLlMmHHPZq5NGIOpxXaNWlhorXk8V/uIyM+BR4A9gNNVdZaq/lRVvwiMDsvAVqmuSunpFC44bmrN55M04csLYVXDDPaPP81f//gwBtN2rfgxosEmwDWHH8//elV90O0Jt3hSkih7BwuWrGPe4jXMf/gF5j20ZjB00M7eQ62FaFoR22H940+dxmETvfWPD+NWvN3vzlohrVVokO5zC4owr5GfhO8FwAJV3V56PA74qKp+J1CLatDqAu7tlBzy+4HfvWwjf3/bMsoddrtywnVnzWgqJh7UdQr6S3v3so3DBpS0x/zTXIWW5nMLiqCuURALuJ+vqvPKD1R1m4icD0Qi/q3iFovOibD42Vc5/tB9EzMANPOBHzN1b3IdHQyUvOP+wvBVlbyKcVAx+6BnTyfh7ixKTzXNeY40n1tQRHGN/Mzw7ZCKVVhKK3N1B2JFBLiFDt7oK3DVPasSMzOw2WZpG7btpDtXOybuZxZkkkMsUcZ2qxvJRT2TNM15jjSfW1BEcY38iP8vgdtE5EQROQGnS+f9gVkSMpWJ3VHducHtO/KFRCzODs1/4I1m5/oZUPwkwJtZRL0dqBb6BU+sbamDaTMkeRBulTSfW1BEcY38hH0uw+m++b8AAX4F3BiYJRFQDh0sfvZVrrpnFTvyhcHnwlyD1WuooNkP3C3JeuVp09iwbSev7ezzHcbxEmJJa8zW7Xb76ntW0d3pPihnbRGXIEjzuQVFFNfIc8I3blpN+FYSVfK3GYFsJbFZHmhWbnyNufeupqujg75CgaI6eYAyrZ5rOyXP/bJ8/XY+fuMSXs8PDG4b1Z2jv6j0DUR/vmmuiEnzuQVFENeo5YSviBwDXAUcWNpPAFXVg5uyKEaiGFWbTdi0ktgsv/bD8x8fctzODujp7KA7F8y5pmFWdC3c7r4Kqsw5fRpzF62O3FNNctvxVvFzblkdKML8/P2Efb4HfAl4Eig0eG3iCbt6pBWBbOUDdzvuyK5O5p1zBHuN7ArkXNMcs63lGMyaOZGTp++fSQGqRVSCnNYQY9z4Ef/XVPUXoVkSA2GOqnEJZK3jTj9gz8DONcqYbRweXy3HIM1euF+iEmQrCw0PP+K/WESuBX4ODJY5qOpTgVuVAsISyEZiGJUwR1F3H6fHZ0JfmygFOc0hxrjxI/5HlX5XJg4UOCE4c8IhrnhhEAJZabvXzpZux232GtTbL0yBNI8vuUQpyGkOMcaNn5bOx4dpSFjU8x6jGBRaEchK2/sKRQrFIgNFPIlh5XGb9aDj9LzN40suUQqylYWGh9+WzqcC04ER5W2q+i9BGxUU9bzHpPeHd7O9Gi9i2KwHHbfnbR5fcolakJPQ2iON+Cn1/P847ZyPx5ncdSbwuwb7vAP4acWmg4F/Bn5Y2n4Q8BJwtqpu82G3J2p5j6s2/TnxIQU326vxIobNetBxe97m8SWbqAXZcjDB48fzP1pVDxeRFap6tYhch5P8rYmqPgfMhMFeQBuBO4DLgQdU9Wsicnnp8WVNnUEdanmPoE0JW5S5Azfbu3JCh0B3LudZDJv1oJPgeZvHl2xMkNsbP+JfbjDzpogcAGwF3upj/xOBP6rqWhH5ALtX/roZeIgQxL+W9zj9gL18C1vU8e9atvsVw2Y96KR43iYwhhEOfvr5Xwn8G46Iz8Op9LlRVa/0uP9NwFOqer2IbFfVsRXPbVPVcS77zAZmA0yZMuVda9eu9WRrNW4eu582CnG2MwjqbiOMah/DMJJPrfYOfsS/R1Xz5b9xkr67ytsa7NsNbAKmq+orXsW/kiB7+5TxKmxu/V7G9HRyy2ePYsbksTX3ixMTbcMwIJjFXB4HjgAoCX5eRJ4qb2vAKThe/yulx6+IyARVfVlEJgCv+rAjMLyGFIKKf9t0eMMwkkLDfv4isr+IvAsYKSLvFJEjSj/H4VT/eOGjOP3/y9wNnFf6+zzgLh82R46fHve1iGoxkGYXhDEMI1t48fz/BvgkMAm4DqebJ8Cfga802llE9gDeh7MWQJmv4SwM8xlgHXCWd5PjoZXKk6078ly6cDn5AbXp8IZhJIKG4q+qNwM3i8gZqnq73wOo6pvA+KptW3ESx21Fs5UnC5asIz8wNLdST5BbCQ8loUTTMIzk42cZx3eJSGWSdpyI/GsINqWKrTvyzFu8Ztj2vkLBVZBbDQ8FEaIyDCP9+En4nqKqg2EeVd0mIu8H/il4s9JDeXH1/MBQb/zC4w8ZJshBtVSwyVG1sSoow3DwI/65qnLPkYD99zTALQzT09nBx46aMuy1Qcbr0zg5qlXhtioow9iNH/G/BXhARL6PM8Hr0zizcxNNpWAArn+HKZJ+ZsqmIV4flmfdqnDH3ajOMJKGn5bO14jICuAknIqfuar6y9AsC4BKwdg1UEBVGdnVyc7+AUSEEZ25SDxAr2GY6oGir1DkguOmhmZX0ITlWQch3FYFZRhD8ZPwBXgGuF9Vvww8IiJjQrApEKrr3fsLykARXs8PMFCE/oJGWgc/fnQPMyaPbSg0s2ZO5LHLTuD8Yw8GlPkPvxDqvICgCHN+QVm4KykLt1fScFdlGEHiWfxF5HxgIfDvpU0TgTvDMCoI3ASjFn6FJAq+89Aa8gPRDlCtEIRA1yII4bYqKMMYip+Y/wXAkcASAFV9XkT2DcWqAHATjFokzQOstw7BXiO7ElmpEqZn7bfDaK28g1VBGcZu/Ih/XlX7RJwJviLSiZP4TSTVgrGzfwBVGNGVIz9QGBbzj6NjZi3chHRn/wDn/3Ap3blkVqqE3QLaq3A3yjuksQrKMJrBT1fPa4DtwCeALwJfAFar6hXhmbebZrt6bt2RZ8GSdcxbvIaunNBXUOacPo2Tp+8fiGCHleSsbDndVyhQVCdPUSaqltJ+ibOOPs7W24aRVGp19fST8L0c2Aw8jdOn5z7aZIKXEz8vsiNfoG+gyNxFqwHHw96wbWfTsfQwk5zlxO8tnz2KGz7Ry4jO3JDnk5iniJsw8w6GkTb8lHoWReRmnJi/As+p19uGGKkVP1+wZB3feWhNSx57UOWDtbzlcohi6458W1SqxD2Jyip6DMM7fqp9TgX+CHwbuB5YIyKnhGVYULgJQl+hyLzFz7fssQchNl56+bhVqlx52rSW7lqCJgmtpK2ixzC84yfhex1wvKquARCRtwH3Ar8Iw7CgcEtEXnDcVOY//AL5gd0rczXjsbea5PQzeaky4bly42vMXbQ6UW0KkjKJyip6DMMbfsT/1bLwl3iBmFbg8ku1IADMe2hop81mwwOtiI1fwSxv+/D8xyNtU+AliZukkEs7VfRYozkjLvyI/yoRuQ+4DSfmfxbwexH5WwBV/XkI9gVGtSAEWZbYrNg0I5hRe9he4/hhl3qmkbhzJEa28SP+I4BXgP9ZerwZeAtwOs5gkGjxryYJ4YFmBDMID9urt+m3p04Srmm7YI3mjLjxU+3zqeptItKtqn3BmhQdcYQHqoXXr2C26mH78Tabuctop5BLFNQaaJOSIzGyi2fxF5GHgE+q6kulx38F3AjMCMWyFFJLeP0KZrMe9ppXXueShSvoG/DmbUYRx09zzLveQJukHImRTfxM8vo/wP0i8gUR+SowHxh2N2C4E3QppNcuoWXuWraR93/7EfqqVhSrNwkq7NLJVpesTDKNPm8rSzXixk/Y55ci8nng18AW4J2q+qfQLEsZcd7ml4WorzB8Tl5/scio7hzL12939b7DiuOnPebt5fO2HIkRJ37CPlcCZwPHAocDD4nIl1X13gb7jcUJDx3G7hXA/gY4HydpDPAVVb3Pv/nJol4II87bfDchAuju7ODs3kmcdv2jdXMAYcTx0x7z9vp5W47EiAs/YZ+9gSNV9XFV/XccAf87D/t9C2cBmENx8gPPlLZ/U1Vnln7aXvgbhTDivM13E6LunHDrZ47ktqUbYpmVm/aYt4V1jKTjJ+xzMYCIjFLVN1R1LfC+evuIyJ44dwqfLL1HHzDYFjoteA1hxHWbX6tCqKszF5v3nYV5ARbWMZKMn7DPe4DvAaOBKSIyA/icqn6hzm4H44R2vl96/ZPAxaXnLhSRTwBLgS+r6jaXY84GZgNMmTLFq6mhUx3e8RPCiOs2302I6jWMi6IKJwviaGEdI6n46ee/BDgTuFtV31natlJVD6uzTy/wBHCMqi4RkW8Bf8ZpDLcFJwcwF5igqp+ud/xm+/n7pZHouZXvHTN177btI1+5bkD5fBRs5qlhpIRa/fz9zPBFVddXhWwKDXbZAGxQ1SWlxwuBy1X1lQrDbgAW+bEjLBpNgKoV3nnsshPaNoTh1veoPJClsQrHMAwHP+K/XkSOBlREuoGL2J28dUVV/yQi60XkHar6HHAisFpEJqjqy6WXfQhY2YzxQeIlbl8vvNPOIYzK0MTy9dtTXYVjGIaDH/H/PE7lzkQcj/5XOIu6N+KLwILSgPECzsSwb4vITJywz0s4K4PFipe4faMKlTTEd9NehWMYhoPnUk9V3aKq56jqfqq6r6p+XFW3lp8XkX+ssd8yVe1V1cNV9YOquk1Vz1XVvyxtm1VxF4HeYhgAAA7cSURBVBAbXkQvC+V7WThHwzB8JHwbvpHIU6p6RCBv5kIUCV+35Gc55l+ZCAbaMrzjhzT33IH0n59hlAkk4dvoGAG+VyzUitsveGItVy9aTXdOGChqJqpf0hDCqoX10TcMfzN8G5H4xdy9UN0wbcETa7nizpX0DRTZkS+4zoLduiPP8vXbE7OerlGbJKw1bBhJwDx/F8ohgVHdOa6+Z9Ww53MdMpgINi+yvUh7TyHD8EqQ4v+zAN8rNirFPF8ogktOpL+gg7Ng09yZMo1YNVPwWP6kPfEc9hGRt4vIAyKysvT4cBH5p/Lzqvq/wzAwSqpDAn0DRfqKw1835/RpQ9o6VFKvP74RP1bNFCxpXpMh7fjx/G8ALgH+HUBVV4jIrcC/hmFYWNTzUtxCAiO6OigWla5cB/2FInNOn845Rx0IhOdFmicVLu08IS9J2J1ve+NH/PdQ1d9VtXcYCNieUGkUn3cTc4D7LvofvNFXGCYUYXSmtBxCNKS5mikqLH/S3vgR/y0i8jZKVT0iciYQ++Qsr3jxUmqJ+dT9xtR8X79eZD2v3jwpo52w/El740f8L8BZt/dQEdkIvAicE4pVIeDVS2kmJODVi2zk1ZsnZbQTWViTIc00FH8RuVhVv4XTdvkkERkFdKjq6+GbFxyNvJRqjzzoL7AXr948KaPdsPxJ++Kl2udTpd//BlBaxauthB/qV3lEUbHgpTIorZUoNgku3VRPjDTaAy9hn2dE5CVgHxFZUbFdAFXVw0OxLARqrWYVRZzdq1efNk/KEtiGkUwair+qflRE9gd+CcwK36RwqQ7pRBVn9xMfTUsliiWwDSO5eEr4quqfgBkh2xILUdbqN+PVJ7Hm36tNXgbWsM8vidfPMJKAl4Tvbap6tog8zdDmbW0X9nHDj0fuVUjqhTr8ePVJDJn4sanRwBr2+SXx+hlGUmjYz7+85KKIHOj2vKquDcWyKsLu59/Mwu1uQrJ1Rz6QxdyDep8gacamWmskhH1+Sbx+hhEHTffzL6+yFZXIx0U9j9xP7DqoHEISa/6bsalWqCvs80vi9TOMJOEl7PM67r36y2GfPQO3KmH4EZKgcgh+3yeK2Haz5+Y2sIY9p8HmTBhGfRrW+avqGFXd0+VnTBaEH/wJSVC1+n7eJ6rOikHOQwh7TkNa50wYRlAEtoZv2ESxhm896q3v60ZQnnij9/ES2w76riDI97NqH8MIlyjW8K114LHAjcBhOOGjTwPPAT8FDgJeAs5W1W1h29IKfss0g6rVb/Q+jUJSYVS8BDkPIaxWGmG26jCMNBDkGr61+BZwv6oeijNX4BngcuABVT0EeKD0OPEkcRp7vZBUFtertcVFDMMboYq/iOwJHAt8D0BV+1R1O/AB4ObSy24GPhimHWnBrUdOvdh21lYay+JgZxjNEnbY52BgM/B9EZkBPAlcDOxXUUL6sojs67aziMwGZgNMmTIlZFOTR2X44tE1W2qGb2qFpLJW8WLlnYbhnbDFvxM4Aviiqi4RkW/hI8SjqvNx1hCgt7e3PTLTAVEZq+8rFCkUiwwUqbsQTbXAZa3fetYGO8NohbDFfwOwQVWXlB4vxBH/VypmDk8AXg3ZjrbCbVJZNV492rR1Ca1H1gY7w2iFUMVfVf8kIutF5B2q+hxwIrC69HMe8LXS77vCtKPdcAtfVOPHo81SxUuWBjvDaIXQSz2BLwILRKQbeAFncZgO4DYR+QywDjgrAjvaBrfwRVdO6BDozuXMo21AlgY7w2iW0MVfVZcBwyYY4NwFhE47TvKpFb5o1aNtx2thGEY4ROH5x0Y7t/StFb5oVrTb+VoYhhE8UUzyioU01HwHNaksDdfCMIxgSa34Z22CUz3sWhiGUU1qxb9RzbfbbNm0YvXvhmFUk1rxr9f2IGv9X6y9sWEY1aS+pXN1hUuWl/ezah/DyB6xtXSOm+qa7yz3f7H6d8MwyqQ27FMLi38bhmFkUPwt/m0YhpGBsI8b1v/FMIysk0nxB4t/G4aRbTIX9jEMwzBM/A3DMDKJib9hGEYGMfE3DMPIICb+hmEYGcTE3zAMI4OY+BuGYWQQE3/DMIwMYuJvGIaRQUz8DcMwMkjo4i8iL4nI0yKyTESWlrZdJSIbS9uWicj7w7bDMAzD2E1UvX2OV9UtVdu+qarfiOj4hmEYRgUW9jEMw8ggUYi/Ar8SkSdFZHbF9gtFZIWI3CQi49x2FJHZIrJURJZu3rw5AlMNwzCyQRTif4yqHgGcAlwgIscC3wXeBswEXgauc9tRVeeraq+q9u6zzz4RmGoYhpENQhd/Vd1U+v0qcAdwpKq+oqoFVS0CNwBHhm2HYRiGsZtQxV9ERonImPLfwF8DK0VkQsXLPgSsDNMOwzAMYyhhV/vsB9whIuVj3aqq94vIj0RkJk4+4CXgcyHbYRiGYVQQqvir6gvADJft54Z5XMMwDKM+VuppGIaRQUz8DcMwMoiJv2EYRgYx8TcMw8ggJv6GYRgZxMTfMAwjg5j4G4ZhZBATf8MwjAxi4m8YhpFBTPwNwzAyiIm/YRhGBjHxTwhbd+RZvn47W3fk4zbFMIwMENUavkYd7lq2kctuX0FXRwf9xSLXnHE4s2ZOjNsswzBSjHn+MbN1R57Lbl/Brv4ir+cH2NVf5NLbV9gdgGEYoWLiHzMbtu2kq2Pox9DV0cGGbTsjs8FCToaRPSzsEzOTxo2kv1gcsq2/WGTSuJGRHN9CToaRTczzj5nxo3u45ozDGdHVwZieTkZ0dXDNGYczfnRP6Me2kJNhZBfz/BPArJkTOWbq3mzYtpNJ40ZGIvywO+S0i913HuWQU1Q2GIYRDyb+CWH86J7IBTfukJNhGPFhYZ8ME2fIyTCMeAnd8xeRl4DXgQIwoKq9IvIW4KfAQcBLwNmqui1sW4zhxBVyMgwjXqLy/I9X1Zmq2lt6fDnwgKoeAjxQemzExPjRPcyYPNaE3zAyRFxhnw8AN5f+vhn4YEx2GIZhZJIoxF+BX4nIkyIyu7RtP1V9GaD0e98I7DAMwzBKRFHtc4yqbhKRfYFfi8izXncsDRazAaZMmRKWfYZhGJkjdM9fVTeVfr8K3AEcCbwiIhMASr9frbHvfFXtVdXeffbZJ2xTDcMwMkOo4i8io0RkTPlv4K+BlcDdwHmll50H3BWmHYZhGMZQRFXDe3ORg3G8fXBCTLeq6ldFZDxwGzAFWAecpar/1eC9NgNrmzRlb2BLk/umCbsODnYdHOw67CbN1+JAVR0WOglV/JOCiCytKDPNLHYdHOw6ONh12E0Wr4XN8DUMw8ggJv6GYRgZJCviPz9uAxKCXQcHuw4Odh12k7lrkYmYv2EYhjGUrHj+hmEYRgUm/oZhGBkk1eIvIieLyHMiskZEMt05VEReEpGnRWSZiCyN256oEJGbRORVEVlZse0tIvJrEXm+9HtcnDZGQY3rcJWIbCx9J5aJyPvjtDEKRGSyiCwWkWdEZJWIXFzanrnvRGrFX0RywDzgFGAa8FERmRavVbFT3Vo7C/wAOLlqWxZbiv+A4dcB4Jul78RMVb0vYpviYAD4sqr+BfBu4IKSLmTuO5Fa8cfpIbRGVV9Q1T7gJzitpI0MoaoPA9WzxzPXUrzGdcgcqvqyqj5V+vt14BlgIhn8TqRZ/CcC6ysebyhtyypurbWzirUU382FIrKiFBZKfaijEhE5CHgnsIQMfifSLP7isi3Lda3HqOoROGGwC0Tk2LgNMmLnu8DbgJnAy8B18ZoTHSIyGrgd+DtV/XPc9sRBmsV/AzC54vEkYFNMtsROjdbaWcVTS/G0o6qvqGpBVYvADWTkOyEiXTjCv0BVf17anLnvRJrF//fAISLyVhHpBj6C00o6c9RprZ1VrKU4gyJX5kNk4DshIgJ8D3hGVf9vxVOZ+06keoZvqXTt/wE54CZV/WrMJsVCrdbaMZoUGSLyY+A4nJa9rwBzgDvx2VK83alxHY7DCfko8BLwuXLcO62IyHuBR4CngWJp81dw4v7Z+k6kWfwNwzAMd9Ic9jEMwzBqYOJvGIaRQUz8DcMwMoiJv2EYRgYx8TcMw8ggJv6GYRgZxMTfSBWl1tV7N7HfD0TkTB+vP6iyPXKzeDmuiHxSRK4v/f1B605rBIGJv2G0Fx/EaVFuGC1h4m+0LSJyZ6lL6Sq3TqUi8olSx8rlIvKj0rYDReSB0vYHRGRKxS7HishvReSFsjcuDteKyMrSYjgf9mjbQSLyiIg8Vfo5uuL9rheR1SJyLxXdIyvvWkSkV0QeqnrPo4FZwLWlxVfeJiIXld5rhYj8xNcFNDJNZ9wGGEYLfFpV/0tERgK/F5Hby0+IyHTgCpxupltE5C2lp64HfqiqN4vIp4Fvs7t3+wTgvcChOL1eFgJ/i9MCYQZOa4Tfi8jDHmx7FXifqu4SkUOAHwO9OD103gH8JbAfsBq4ycvJqupvReRuYJGqLiyd5+XAW1U1LyJjvbyPYYB5/kZ7c5GILAeewOngekjFcycAC1V1C0BFn5b3ALeW/v4RjtiXuVNVi6q6GkeYKT3/41L3y1eA/wD+yoNtXcANIvI08DN2h2qOrXi/TcCD3k/XlRXAAhH5OM4qVYbhCRN/oy0RkeOAk4D3qOoM4A/AiMqX4G39hsrX5Kv2r/ztly/hNFCbgePxd9c4ZiUD7P6fHFHjNdWcirNc6buAJ0XE7uYNT5j4G+3KXsA2VX1TRA7FWY+1kgeAs0VkPDgLdJe2/xanvTfAOcCjDY7zMPBhEcmJyD44nvvvPNr3cqlX/rk4nWXL7/eR0vtNAI6v2OclHBEHOKPG+74OlNtzdwCTVXUxcCkwFhjtwTbDMPE32pb7gU4RWQHMxQn9DKKqq4CvAv9RCg2Ve7dfBHyqtN+5wMUNjnMHTmhlOU6I5lJV/ZMH+74DnCciTwBvB96oeL/ncVoKfxcnjFTmauBbIvIIUKjxvj8BLhGRP+CEuW4phZb+gLMY+3YPthmGtXQ2DMPIIub5G4ZhZBBLDhlGC4jI3wBfr9r8oqp+KA57DMMrFvYxDMPIIBb2MQzDyCAm/oZhGBnExN8wDCODmPgbhmFkkP8GHvKU+QmOUQgAAAAASUVORK5CYII=\n",
+ "text/plain": [
+ "
"
+ ]
+ },
+ "metadata": {
+ "needs_background": "light"
+ },
+ "output_type": "display_data"
+ }
+ ],
+ "source": [
+ "# Souvislost mezi pitím a střední dobou života\n",
+ "countries.plot.scatter(\n",
+ " x=\"alcohol_adults\",\n",
+ " y=\"life_expectancy\",\n",
+ ");"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "💡 O kauzalitách, korelacích a souvislostech mezi veličinami si budeme povídat jindy, ale taky se nemůžeš ubránit dojmu, že čím více se někde pije, tím déle se tam žije?\n",
+ "\n",
+ "I bez matematické rigoróznosti ovšem asi poznáme, kde bude zakopaný pes. Zkusme si obarvit jednotlivé regiony světa různými (stereotypními?) barvami. Naučíme se u toho šikovnou funkci `map`, která hodnoty v `Series` nahradí podle slovníku z->do (a vrátí novou instanci `Series`). Sloupec `world_4region` obsahuje přesně 4 různé oblasti (\"kontinenty\"), tak nám bude stačit velice jednoduchý slovník.\n",
+ "\n",
+ "Ukážeme si několik dalších argumentů (jež jsou vlastně spíše argumenty použité v knihovně `matplotlib`, a tak nemůžeme jednoduše použít jméno sloupce :-( ):\n",
+ "- `s` vyjadřuje velikost (resp. přibližně plochu) symbolu v bodech (může být jedna hodnota nebo sloupec/pole hodnot)\n",
+ "- `marker` značí tvar symbolu, většinou pomocí jednoho písmene, viz [seznam možností](https://matplotlib.org/3.1.1/api/markers_api.html)\n",
+ "- `alpha` vyjadřuje neprůhlednost symbolu (0 = naprosto průhledný a není vidět, 1 = neprůhledný, intenzivní, schovává vše \"za sebou\"). Hodí se, když máme velké množství symbolů v grafu a chceme jim dovolit, aby se překrývaly."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 11,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "image/png": "\n",
+ "text/plain": [
+ "
"
+ ]
+ },
+ "metadata": {
+ "needs_background": "light"
+ },
+ "output_type": "display_data"
+ }
+ ],
+ "source": [
+ "# Souvislost mezi pitím a střední dobou života\n",
+ "import numpy as np\n",
+ "\n",
+ "barvy_kontinentu = {\n",
+ " \"europe\": \"blue\",\n",
+ " \"asia\": \"yellow\",\n",
+ " \"africa\": \"black\",\n",
+ " \"americas\": \"red\"\n",
+ "}\n",
+ "barva = countries[\"world_4region\"].map(barvy_kontinentu) \n",
+ "# barva obsahuje sloupec plný barev\n",
+ "\n",
+ "countries.plot.scatter(\n",
+ " figsize=(7, 7),\n",
+ " x=\"alcohol_adults\",\n",
+ " y=\"life_expectancy\",\n",
+ " marker=\"h\", # Tvar symbolu: šestiúhelník - (h)exagon\n",
+ " color=barva, # Bohužel nejde použít jen jméno sloupce, musíme dát celé \"pole\" hodnot \n",
+ " s=countries[\"population\"] / 1e6, # Velikost symbolu (na druhou) podle populace\n",
+ " edgecolor=\"black\", # Barva okraje\n",
+ " alpha=0.5 # Poloprůhledné symboly\n",
+ ");"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "A tak to vlastně vypadá, že v Asii se obecně pije málo, v Americe tak středně, v Africe se lidé dožívají menšího věku, ale na první pohled v těchto skupinách zemí nevidíme žádný trend. Jediný kontinent, který se vymyká, je Evropa, kde se jak hodně pije, tak dlouho žije, ale obojí je nejspíš důsledkem moderního způsobu života. No a při bližším pohledu se naopak zdá, že v rámci Evropy větší pití znamená kratší život. "
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "Často se stane, že jsou hodnoty obtížně souměřitelné. Například co do rozlohy či počtu obyvatelstva se na světě vyskytují země miniaturní a naopak gigantické, rozdíly jsou řádové:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 12,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "image/png": "\n",
+ "text/plain": [
+ "
"
+ ]
+ },
+ "metadata": {
+ "needs_background": "light"
+ },
+ "output_type": "display_data"
+ }
+ ],
+ "source": [
+ "countries.plot.scatter(\n",
+ " x=\"area\",\n",
+ " y=\"population\",\n",
+ " figsize=(6,6)\n",
+ ");"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "No nic moc - odděleně vidíme cca 7 až 20 bodů a zbytek splývá v jednu velikou \"kaňku\". V takovém případě se hodí opustit běžné, **lineární měřítko**. Místo něj použijeme **logaritmické měřítko**. K tomu slouží argumenty `logx` a `logy` (podle příslušné osy)."
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 13,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "image/png": "\n",
+ "text/plain": [
+ "
"
+ ]
+ },
+ "metadata": {
+ "needs_background": "light"
+ },
+ "output_type": "display_data"
+ }
+ ],
+ "source": [
+ "ax = countries.plot.scatter(\n",
+ " x=\"area\",\n",
+ " y=\"population\",\n",
+ " color=\"black\",\n",
+ " figsize=(6, 6),\n",
+ " logx=True,\n",
+ " logy=True,\n",
+ ");"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "**Úkol:** Vyzkoušej si zobrazení některých dalších dvojic veličin. Které z nich ukazují zajímavé výsledky?"
+ ]
+ },
+ {
+ "cell_type": "markdown",
+ "metadata": {},
+ "source": [
+ "## Spojnicový graf (line plot)\n",
+ "\n",
+ "Tento druh grafu má smysl zejména tehdy, pokud se nějaká proměnná vyvíjí spojitě v závislosti na proměnné jiné. Časové řady jsou pro to skvělým příkladem (ať už pro vztah mezi časem a veličinou, anebo dvěma veličinami, které se obě vyvíjí ve stejném čase).\n",
+ "\n",
+ "Spojnicový graf vytvoříš pomocí funkce [`plot.line`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.line.html). Shodou okolností je to také výchozí typ grafů pro `pandas`, a tak vlastně postačí `plot` zavolat jako metodu. Parametry má podobné jako `scatter` (bodový graf).\n",
+ "\n",
+ "Pojďme se například podívat na vývoj očekávané doby života v Česku, jak se vyvíjela s časem od začátku 80. let:"
+ ]
+ },
+ {
+ "cell_type": "code",
+ "execution_count": 14,
+ "metadata": {},
+ "outputs": [
+ {
+ "data": {
+ "image/png": "\n",
+ "text/plain": [
+ "