1.2. About Agenda

  • 8:59 - meeting

  • 9:00 - training day start

  • 10:20-10:30 - coffee break (10 min)

  • 11:50-12:00 - coffee break (10 min)

  • 13:15-14:00 - lunch break (45 min)

  • 15:20-15:30 - coffee break (10 min)

  • 17:00 - training day end

1.2.1. Wstęp

  • Pandas i jego miejsce w ekosystemie SciPy

  • Zmiany w Pandas 3.0

  • Architektura Pandas

  • Opcje konfiguracyjne

  • Podstawowe typy w Pandas: Series, DataFrame, Interval, Categorical, Index

  • Indeksy: numeryczne, znakowe, czasowe (timeseries)

1.2.2. Wczytywanie i eksport danych

  • CSV, JSON, XML, HTML, SQL

  • Feather, Parquet, Pickle

  • Excel, Word, PDF

  • Konfiguracja formatów, parsowanie dat, zmiana user-agent

1.2.3. Praca z Series

  • Tworzenie, konwersja, typy danych, atrybuty

  • Indeksowanie, selekcja, próbkowanie, wybieranie, wycinanie

  • Praca z wartościami pustymi

  • Podmiana danych, zmiany struktury, sortowanie

  • Arytmetyka, operacje zwektoryzowane, broadcasting

  • Statystyka, grupowania, normalizacja danych

  • Mapowanie: map vs apply

1.2.4. Praca z DataFrame

  • Tworzenie, konwersja, atrybuty, typy danych

  • Praca z kolumnami, indeksem, indeksem wielowymiarowym (multi-index)

  • Selekcja, próbkowanie, wybieranie (at, iat), wycinanie (loc, iloc), zapytania (query)

  • Kategoryzacja danych, oczyszczanie i normalizacja, wyrażenia regularne

  • Praca z datami: formatowanie dat i czasu, strefy czasowe, konwersja, przesunięcia czasu

  • Praca z szeregami czasowymi: frequency, Timestamp, date range, czas biznesowy

  • Zmiany struktury, podmiana danych, wypełnianie wartości pustych, sortowanie

  • Statystyka, grupowanie danych, operacje rolling i resample, agregacje

  • Mapowanie: map vs apply

  • Łączenie danych: merge vs join vs concat

1.2.5. Wizualizacja danych

  • Zasady współpracy Pandas i Matplotlib

  • Rodzaje wykresów i podstawianie danych

  • Wykresy: liniowy, słupkowy, pudełkowy, gęstości, inne

  • Stylowanie wykresów, kolorystyka

  • Zmiana tytułu wykresu oraz nazw osi, zmiany etykiet osi (obrót, formatowanie, częstość)

  • Umiejscowienie legendy, siatka, strzałki, etykiety, komentarze

  • Wykresy, podwykresy, wiele wykresów na jednym diagramie

  • Export do różnych formatów

1.2.6. Case studies

  • Case studies

  • Pobieranie danych z różnych źródeł

  • Oczyszczanie informacji

  • Selekcja istotnych informacji

  • Wykorzystanie metod NumPy, Pandas i Matplotlib

  • Przygotowanie do analizy

  • Wizualizacja danych

1.2.7. Podsumowanie

  • Pandas vs Polars vs DuckDB vs Dask

  • Alternatywy do Matplotlib (Bokeh, Seaborn)

  • Techniki pracy z danymi większymi niż ilość RAMu

  • Triki zwiększające wydajność

  • Plan rozwoju na przyszłość