1.2. About Agenda

8:59 - meeting
9:00 - training day start
10:20-10:30 - coffee break (10 min)
11:50-12:00 - coffee break (10 min)
13:15-14:00 - lunch break (45 min)
15:20-15:30 - coffee break (10 min)
17:00 - training day end

1.2.1. Wstęp

Pandas i jego miejsce w ekosystemie SciPy
Zmiany w Pandas 3.0
Architektura Pandas
Opcje konfiguracyjne
Podstawowe typy w Pandas: Series, DataFrame, Interval, Categorical, Index
Indeksy: numeryczne, znakowe, czasowe (timeseries)

1.2.2. Wczytywanie i eksport danych

CSV, JSON, XML, HTML, SQL
Feather, Parquet, Pickle
Excel, Word, PDF
Konfiguracja formatów, parsowanie dat, zmiana user-agent

1.2.3. Praca z Series

Tworzenie, konwersja, typy danych, atrybuty
Indeksowanie, selekcja, próbkowanie, wybieranie, wycinanie
Praca z wartościami pustymi
Podmiana danych, zmiany struktury, sortowanie
Arytmetyka, operacje zwektoryzowane, broadcasting
Statystyka, grupowania, normalizacja danych
Mapowanie: map vs apply

1.2.4. Praca z DataFrame

Tworzenie, konwersja, atrybuty, typy danych
Praca z kolumnami, indeksem, indeksem wielowymiarowym (multi-index)
Selekcja, próbkowanie, wybieranie (at, iat), wycinanie (loc, iloc), zapytania (query)
Kategoryzacja danych, oczyszczanie i normalizacja, wyrażenia regularne
Praca z datami: formatowanie dat i czasu, strefy czasowe, konwersja, przesunięcia czasu
Praca z szeregami czasowymi: frequency, Timestamp, date range, czas biznesowy
Zmiany struktury, podmiana danych, wypełnianie wartości pustych, sortowanie
Statystyka, grupowanie danych, operacje rolling i resample, agregacje
Mapowanie: map vs apply
Łączenie danych: merge vs join vs concat

1.2.5. Wizualizacja danych

Zasady współpracy Pandas i Matplotlib
Rodzaje wykresów i podstawianie danych
Wykresy: liniowy, słupkowy, pudełkowy, gęstości, inne
Stylowanie wykresów, kolorystyka
Zmiana tytułu wykresu oraz nazw osi, zmiany etykiet osi (obrót, formatowanie, częstość)
Umiejscowienie legendy, siatka, strzałki, etykiety, komentarze
Wykresy, podwykresy, wiele wykresów na jednym diagramie
Export do różnych formatów

1.2.6. Case studies

Case studies
Pobieranie danych z różnych źródeł
Oczyszczanie informacji
Selekcja istotnych informacji
Wykorzystanie metod NumPy, Pandas i Matplotlib
Przygotowanie do analizy
Wizualizacja danych

1.2.7. Podsumowanie

Pandas vs Polars vs DuckDB vs Dask
Alternatywy do Matplotlib (Bokeh, Seaborn)
Techniki pracy z danymi większymi niż ilość RAMu
Triki zwiększające wydajność
Plan rozwoju na przyszłość