Zapracování komentářů z #23

janpipek · janpipek · commit ed322540d01c · 2020-01-10T19:31:40.000+01:00
diff --git a/lessons/pydata/pandas_types/index.ipynb b/lessons/pydata/pandas_types/index.ipynb
@@ -295,12 +295,9 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "💡 V tomto případě jsme přímo upravili existující `DataFrame`. Většina metod / operací v `pandas` (už znáš např. `set_index`) ve výchozím nastavení vždy vrací nový objekt - je to dobrým zvykem, který budeme dodržovat. Přiřazování sloupců je jednou z výjimek tohoto jinak uznávaného pravidla (tou druhou je pohodlnost).\n",
-    "\n",
-    "<div style=\"background-color: yellow; color: red\"><b>TODO</b>: \n",
-    "   Jak to píšu, tak mi to zase tak samozřejmé nepřijde. Nějak bych tohle chtěl zformulovat líp.</div>\n",
+    "💡 V tomto případě jsme přímo upravili existující `DataFrame`. Většina metod / operací v `pandas` (už znáš např. `set_index`) ve výchozím nastavení vždy vrací nový objekt - je to dobrým zvykem, který budeme dodržovat. Přiřazování sloupců je jednou z akceptovaných výjimek tohoto jinak uznávaného pravidla, zejména když se tabulka upravuje jen v úzkém rozsahu řádků kódů.\n",
     "   \n",
-    "`DataFrame` nabízí ještě metodu `assign`, která nemění tabulku, ale vytváří její kopii s přidanými (nebo nahrazenými) sloupci:"
+    "`DataFrame` však nabízí ještě metodu `assign`, která nemění tabulku, ale vytváří její kopii s přidanými (nebo nahrazenými) sloupci. Pokud se chceš vyhnout nepříjemnému sledování, kterou tabulku jsi změnil/a či nikoliv, `assign` ti můžeme jen doporučit."
    ]
   },
   {
@@ -473,7 +470,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "Není to zase tak často praktické, ale pro hodnoty nového sloupce lze použít i jednu skalární hodnotu:"
+    "Pro hodnoty nového sloupce lze použít i jednu skalární hodnotu (v praxi se ale s touto potřebou nepotkáme tak často):"
    ]
   },
   {
@@ -1146,12 +1143,13 @@
    "source": [
     "### Odstranění řádku\n",
     "\n",
-    "Pro odebrání sloupce či řádku z DataFrame slouží metoda `drop`. Její první argument očekává označení (index) jednoho nebo více řádků či sloupců, které chceš odebrat. Argument axis označuje, ve které dimenzi se operace má aplikovat (0 či 1). Číslo je intuitivní a odpovídá pořadí, ve kterém se uvádějí klíče při odkazování na buňky.\n",
+    "Pro odebrání sloupce či řádku z DataFrame slouží metoda `drop`. Její první argument očekává označení (index) jednoho nebo více řádků či sloupců, které chceš odebrat. Argument axis označuje, ve které dimenzi se operace má aplikovat - můžeš použít buď číslo 0 či 1 (odpovídá pořadí od nuly, ve kterém se uvádějí klíče při odkazování na buňky), anebo pojmenování dané dimenze:\n",
     "\n",
     "Osa (axis):\n",
     "\n",
-    "- 0 = řádky\n",
-    "- 1 = sloupce\n",
+    "- 0 nebo \"rows\" nebo \"index\" = řádky\n",
+    "- 1 nebo \"columns\" = sloupce\n",
+    "\n",
     "(Tento argument používají i četné další metody a funkce, proto se ujisti, že mu rozumíš).\n",
     "\n",
     "Když už jsme se vrátili do budoucnosti (resp. současnosti), vypořádejme se nemilosrdně s Plutem (pro metodu `drop` je výchozí hodnotou argumentu `axis` 0, a tedy to nemusíme psát):"
@@ -1296,7 +1294,7 @@
     }
    ],
    "source": [
-    "planety = planety.drop(\"Pluto\")   # Přidej axis=0, chceš-li být explicitní\n",
+    "planety = planety.drop(\"Pluto\")   # Přidej axis=\"rows\", chceš-li být explicitní\n",
     "planety"
    ]
   },
@@ -1440,7 +1438,7 @@
     }
    ],
    "source": [
-    "planety = planety.drop(\"je_planeta\", axis=1)   \n",
+    "planety = planety.drop(\"je_planeta\", axis=\"columns\")   \n",
     "planety"
    ]
   },
@@ -1464,6 +1462,13 @@
     "# planety.drop(\"je_planeta\", axis=1, inplace=True)"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Ale opravdu to nedělej!"
+   ]
+  },
   {
    "cell_type": "markdown",
    "metadata": {},
@@ -1895,7 +1900,10 @@
    ],
    "source": [
     "url = \"https://raw.githubusercontent.com/janpipek/data-pro-pyladies/master/data/countries.csv\"\n",
-    "countries = pd.read_csv(url, index_col=\"name\")   # Místo `set_index`\n",
+    "\n",
+    "# Místo `set_index` vybereme index rovnou při načítání\n",
+    "countries = pd.read_csv(url, index_col=\"name\")\n",
+    "\n",
     "countries = countries.sort_index()\n",
     "countries"
    ]
@@ -1998,7 +2006,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "Typy v pandas vycházejí z toho, jak je definuje knihovna `numpy` (obecně užitečná pro práci s numerickými poli a poskytující vektorové operace s rychlostí řádově rychlejší než v Pythonu jako takovém). Ta potřebuje především vědět, jak alokovat pole pro prvky daného typu - na to, aby mohly být seřazeny efektivně jeden za druhým, a tedy i kolik bajtů paměti každý zabírá. Kopíruje přitom \"nativní\" datové typy, jako je můžeš znát, pokud už máš takovou zkušenost, např. z jazyka C. Umístění paměti je něco, co v Pythonu obvykle neřešíme, ale rychlé počítání se bez toho neobejde. My nepůjdeme do detailů, ale požadavek na rychlost se nám tu a tam vynoří a my budeme klást důraz na to, aby se operace dělaly \"vektorově\", řešily \"na úrovni numpy\".\n",
+    "Typy v pandas vycházejí z toho, jak je definuje knihovna `numpy` (obecně užitečná pro práci s numerickými poli a poskytující vektorové operace s rychlostí řádově vyšší než v Pythonu jako takovém). Ta potřebuje především vědět, jak alokovat pole pro prvky daného typu - na to, aby mohly být seřazeny efektivně jeden za druhým, a tedy i kolik bajtů paměti každý zabírá. Kopíruje přitom \"nativní\" datové typy, jako je můžeš znát, pokud už máš takovou zkušenost, např. z jazyka C. Umístění paměti je něco, co v Pythonu obvykle neřešíme, ale rychlé počítání se bez toho neobejde. My nepůjdeme do detailů, ale požadavek na rychlost se nám tu a tam vynoří a my budeme klást důraz na to, aby se operace dělaly \"vektorově\", řešily \"na úrovni numpy\".\n",
     "\n",
     "Poněkud kryptický systém typů v `numpy` (popsaný v [dokumentaci](https://docs.scipy.org/doc/numpy/user/basics.types.html)) je naštěstí v `pandas` (mírně) zjednodušen a nabízí jen několik užitečných základních (rodin) typů, které si teď představíme."
    ]
@@ -2729,17 +2737,17 @@
      "data": {
       "text/plain": [
        "name\n",
-       "Afghanistan   26700 days 00:54:33.011664\n",
-       "Albania       23388 days 00:54:33.011664\n",
-       "Algeria       20898 days 00:54:33.011664\n",
-       "Andorra        9647 days 00:54:33.011664\n",
-       "Angola        15730 days 00:54:33.011664\n",
+       "Afghanistan   26715 days 19:30:33.070854\n",
+       "Albania       23403 days 19:30:33.070854\n",
+       "Algeria       20913 days 19:30:33.070854\n",
+       "Andorra        9662 days 19:30:33.070854\n",
+       "Angola        15745 days 19:30:33.070854\n",
        "                         ...            \n",
-       "Venezuela     27069 days 00:54:33.011664\n",
-       "Vietnam       15437 days 00:54:33.011664\n",
-       "Yemen         26385 days 00:54:33.011664\n",
-       "Zambia        20113 days 00:54:33.011664\n",
-       "Zimbabwe      14367 days 00:54:33.011664\n",
+       "Venezuela     27084 days 19:30:33.070854\n",
+       "Vietnam       15452 days 19:30:33.070854\n",
+       "Yemen         26400 days 19:30:33.070854\n",
+       "Zambia        20128 days 19:30:33.070854\n",
+       "Zimbabwe      14382 days 19:30:33.070854\n",
        "Name: un_accession, Length: 193, dtype: timedelta64[ns]"
       ]
      },
@@ -6816,7 +6824,7 @@
     }
    ],
    "source": [
-    "countries.sort_index(axis=1)"
+    "countries.sort_index(axis=\"columns\")"
    ]
   },
   {
@@ -6871,7 +6879,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "Jednou z možností je i vytvoření HTML tabulky (které lze dodat i různé formátování, což ovšem nechme raději na jindy nebo na doma, viz [dokumentace \"Styling\"](https://pandas.pydata.org/pandas-docs/stable/user_guide/style.html)). Výchozí `to_html` si bohužel neporadí s \"nezápadními\" symboly (což je třeba ☿), a tak mu (v našem konkrétním případě) musíme předat korektně otevřený soubor:"
+    "Excel ani CSV nejsou formáty pro ukládání velikých dat zcela vhodné - první je vázaný na jeden konkrétní kancelářský balík, druhý zase v textové reprezentaci ztrácí informace o typech, nemluvě o výkonu a datové náročnosti. Z jiných formátů můžeš vyzkoušet například [feather](https://github.com/wesm/feather) nebo [parquet](https://en.wikipedia.org/wiki/Apache_Parquet)."
    ]
   },
   {
@@ -6880,15 +6888,31 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "# planety.to_html(\"planety.html\")     # To nefunguje :-(\n",
+    "countries.reset_index().to_feather(\"countries.feather\")   # Pozor: feather neukládá index"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Jednou z možností je i vytvoření HTML tabulky (které lze dodat i různé formátování, což ovšem nechme raději na jindy nebo na doma, viz [dokumentace \"Styling\"](https://pandas.pydata.org/pandas-docs/stable/user_guide/style.html)). Výchozí `to_html` si bohužel neporadí s \"nezápadními\" symboly (což je třeba ☿), a tak mu (v našem konkrétním případě) musíme předat korektně otevřený soubor:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 59,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# planety.to_html(\"planety.html\")     # To (zatím) nefunguje :-(\n",
     "\n",
     "with open(\"planety.html\", \"w\", encoding=\"utf-8\") as out:\n",
     "    planety.to_html(out)"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 59,
+   "execution_count": 60,
    "metadata": {},
    "outputs": [],
    "source": [