1.2. About Agenda
8:59 - meeting
9:00 - training day start
10:20-10:30 - coffee break (10 min)
11:50-12:00 - coffee break (10 min)
13:15-14:00 - lunch break (45 min)
15:20-15:30 - coffee break (10 min)
17:00 - training day end
1.2.1. Wstęp
Pandas i jego miejsce w ekosystemie SciPy
Zmiany w Pandas 3.0
Architektura Pandas
Opcje konfiguracyjne
Podstawowe typy w Pandas: Series, DataFrame, Interval, Categorical, Index
Indeksy: numeryczne, znakowe, czasowe (timeseries)
1.2.2. Wczytywanie i eksport danych
CSV, JSON, XML, HTML, SQL
Feather, Parquet, Pickle
Excel, Word, PDF
Konfiguracja formatów, parsowanie dat, zmiana user-agent
1.2.3. Praca z Series
Tworzenie, konwersja, typy danych, atrybuty
Indeksowanie, selekcja, próbkowanie, wybieranie, wycinanie
Praca z wartościami pustymi
Podmiana danych, zmiany struktury, sortowanie
Arytmetyka, operacje zwektoryzowane, broadcasting
Statystyka, grupowania, normalizacja danych
Mapowanie: map vs apply
1.2.4. Praca z DataFrame
Tworzenie, konwersja, atrybuty, typy danych
Praca z kolumnami, indeksem, indeksem wielowymiarowym (multi-index)
Selekcja, próbkowanie, wybieranie (at, iat), wycinanie (loc, iloc), zapytania (query)
Kategoryzacja danych, oczyszczanie i normalizacja, wyrażenia regularne
Praca z datami: formatowanie dat i czasu, strefy czasowe, konwersja, przesunięcia czasu
Praca z szeregami czasowymi: frequency, Timestamp, date range, czas biznesowy
Zmiany struktury, podmiana danych, wypełnianie wartości pustych, sortowanie
Statystyka, grupowanie danych, operacje rolling i resample, agregacje
Mapowanie: map vs apply
Łączenie danych: merge vs join vs concat
1.2.5. Wizualizacja danych
Zasady współpracy Pandas i Matplotlib
Rodzaje wykresów i podstawianie danych
Wykresy: liniowy, słupkowy, pudełkowy, gęstości, inne
Stylowanie wykresów, kolorystyka
Zmiana tytułu wykresu oraz nazw osi, zmiany etykiet osi (obrót, formatowanie, częstość)
Umiejscowienie legendy, siatka, strzałki, etykiety, komentarze
Wykresy, podwykresy, wiele wykresów na jednym diagramie
Export do różnych formatów
1.2.6. Case studies
Case studies
Pobieranie danych z różnych źródeł
Oczyszczanie informacji
Selekcja istotnych informacji
Wykorzystanie metod NumPy, Pandas i Matplotlib
Przygotowanie do analizy
Wizualizacja danych
1.2.7. Podsumowanie
Pandas vs Polars vs DuckDB vs Dask
Alternatywy do Matplotlib (Bokeh, Seaborn)
Techniki pracy z danymi większymi niż ilość RAMu
Triki zwiększające wydajność
Plan rozwoju na przyszłość