Veri Bilimi İçin Python

Model Canlı Ders

Süre 18 saat

Modüller 4 modül

Kurs Açıklaması

Günümüzün dijital çağında veri, şirketler için en stratejik varlık haline gelmiştir. Bu yoğunlaştırılmış eğitim programı katılımcılara ham veriyi anlamlı iş kararlarına dönüştürmek için gerekli yetileri kazandırır.

Program sonunda Python programlama temellerine hakim katılımcılar, modern veri bilimi ekosisteminin en güncel araçları ve kütüphaneleriyle tanışmış olurlar.

Katılımcılar, eğitim süresince gerçek dünya veri problemlerini çözmek için pandas/Polars, scikit-learn ve görselleştirme kütüphanelerinin en son sürümlerini kullanmayı öğrenirler.

Bu eğitimin sonunda katılımcılar, modern veri odaklı kararları yönlendiren temel araç ve tekniklere hakim hale gelirler.

Hedef Kitle

Bu kurs, halihazırda Python diline hakim olan ve veri bilimi alanına geçiş yapmak veya bu alandaki becerilerini geliştirmek isteyen yazılımcılar, analistler ve bu konuyla ilgili profesyoneller için özel olarak hazırlanmıştır.

İşlerinde temel programlamanın ötesine geçerek veri işleme, analiz etme ve makine öğrenmesi ile modellemeyi öğrenmek isteyenler için idealdir.

Ön Koşul

Veri yapıları (lists, dictionaries, tuples), kontrol akışı (loops, conditionals) ve fonksiyonlar dahil olmak üzere Python programlamanın temellerine sağlam bir hakimiyet.
Python script'leri yazma ve çalıştırma konusunda önceden deneyim.
Veri bilimi ve makine öğrenmesi konularında önceden deneyim gerekmemektedir.

Kazanımlar

Bu kursu tamamlayan katılımcılar aşağıdaki konularda yetkin olacaklardır:

Pandas kütüphanesini kullanarak farklı kaynaklardan veri okuyabilir, temizleyebilir ve manipüle edebilir.
Keşifsel Veri Analizi (EDA) yaparak verideki gizli kalmış desenleri, ilişkileri ve aykırı değerleri ortaya çıkarabilir.
Matplotlib ve Seaborn ile etkili ve anlaşılır veri görselleştirmeleri oluşturabilir
. Makine öğrenmesinin temel mantığını ve iş akışını (veri ön işleme, model eğitimi, değerlendirme) anlayabilir.
Scikit-learn kütüphanesini kullanarak regresyon ve sınıflandırma gibi temel makine öğrenmesi modelleri kurabilir.
Model performansını doğru metriklerle (Accuracy, R-squared, Confusion Matrix vb.) ölçebilir ve yorumlayabilir.
Gerçek dünya veri setleri üzerinde uçtan uca bir veri bilimi projesi gerçekleştirebilir.

Konular

Modül 1 - Veri İşleme ve Görselleştirmenin Temelleri

Veri Bilimi Temelleri

Veri Bilimi akışı

Problemi tanımlamak
Veri edinimi ve temizleme
Keşifsel veri analizi
Modelleme
Sonuçları yorumlama ve geliştirme döngüsü

Ortam Kurulumu

İnteraktif veri bilimi için Jupyter Notebook
Temel kütüphanelere genel bakış: NumPy, Pandas, Matplotlib, Seaborn, Scikit-learn

Pandas ile Veri İşleme

Temel Pandas Yapıları

Series ve DataFrame oluşturma ve inceleme
Çeşitli kaynaklardan veri yükleme (CSV, Excel, database)
Hafızaya sığmayan veriler için parçalı okuma teknikleri

Veri Seçimi ve İndeksleme

.loc, .iloc ve boolean indeksleme kullanımı
Query işlemleri
İndeksleri ayarlama, sıfırlama ve kullanma

Veri Temizleme ve Hazırlama

Eksik veri tespiti ve yönetme stratejileri
Duplicate tespiti ve kaldırma
Veri tipi dönüşümleri ve casting
String işlemleri ve metin işleme

Modül 2 - İleri Düzey Veri İşleme ve Görselleştirme

Pandas ile İleri Düzey Veri İşleme (Opsiyonel Olarak Polars)

Gruplama ve Birleştirme (Aggregation)

Split-apply-combine yaklaşımı
Custom aggregation fonksiyonları
Window functions ve rolling işlemler
Zaman bazlı resampling

Verileri Birleştirme ve Yeniden Şekillendirme

Merge ve join işlemleri
Concatenation stratejileri
Pivoting ve unpivoting
Wide to long format dönüşümleri

Performans Optimizasyonu

Vectorized operations ve iterative yaklaşımlar
Memory kullanımını optimize etme teknikleri
Categorical data ile memory düşürme
Query optimizasyonu ve indexing stratejileri

Modern Kütüphaneler ile Veri Görselleştirme

Matplotlib Temelleri

pyplot arayüzü ile hızlı ve etkili grafik çizimi (state-machine yaklaşımı).
Object-Oriented arayüz: Figure ve Axes nesneleri üzerinde tam kontrol.
İki arayüz arasındaki farklar ve ne zaman hangisini kullanmalı.
Özelleştirme ve stil sistemleri
Çoklu grafikler: subplot yapısı
Annotation ve metin yönetimi

Seaborn ile İstatistiksel Görselleştirme

Distribution plots ve kernel density estimation
Kategorik veri görselleştirme desenleri
Regresyon ve korelasyon görselleştirmeleri
Matrix plots ve heatmaps
Color palettes ve estetik ayarlar

Plotly ile İnteraktif Görselleştirme

İnteraktif grafikler ve dashboard’lar oluşturma
3D görselleştirmeler ve yüzey grafikler
Coğrafi veri görselleştirme
Animasyon ve zaman serisi temsili
Web uygulamaları için Dash framework

Modül 3 - Keşifsel Veri Analizi

Veri Profilleme

Veri Ön Değerlendirmesi

Veri setinin özelliklerine bakılması: shape, size, memory footprint.
Veri tipi çıkarımı ve doğrulaması
Sütun kardinalitesi ve özgünlük analizi

Veri Kalitesi İncelemesi

Eksik değer paternleri ve dağılım analizi
Farklı ayrıntı seviyelerinde tekrarlı veri tespiti
İlişkili alanlar arasında tutarlılık kontrolleri
İş kurallarına göre veriyi doğrulama ve anomali belirteçleri

İstatistiksel Keşif

Dağılım ve Pattern Keşfi

Sayısal değişkenler için univariate analysis
Kategorik değişkenler için frekans analizi
Skewness tespiti ve dönüşüm gereklilikleri
Zaman bazlı pattern’ler ve seasonality tespiti

Aykırı Gözlem ve Anomali Tespiti

IQR ve alan bilgisi kullanarak outlier analizi
Aralık ve sınır değer incelemeleri
Veri güncelliği (freshness) ve tamlık (completeness) metrikleri
Harici veri kaynaklarıyla çapraz doğrulama

İlişki Analizi

Özellik İlişkileri ve Korelasyonlar

Correlation matrix oluşturma ve yorumlama
Feature-target ilişki gücünün ölçülmesi
Multicollinearity tespiti ve etkileri
Değişkenler arası etkileşimlerin incelenmesi
Segmentasyon fırsatlarının belirlenmesi

Görsel Keşif Teknikleri

Sürekli değişkenler için dağılım grafikleri
Kategori dengesi görselleştirmeleri
Zaman serisi trend analizleri
Özellik etkileşimleri için pair plot'lar
Coğrafi ve mekansal veri incelemeleri

Modül 4 - Scikit-learn ile Makine Öğrenmesine Giriş

Makine Öğrenmesi Temelleri

Temel Kavramlar

Geleneksel programlamadan farkı ve modern dünyadaki yeri (öneri sistemleri, sahtekarlık tespiti, tıbbi teşhis vb.).
Makine Öğrenmesi Türleri: Supervised, Unsupervised, Reinforcement
Modelleme süreci: eğitim, validasyon ve değerlendirme

Bir Modelin Yaşam Döngüsü: Fikirden Değere

Problemi tanımlama, veri toplama, özellik mühendisliği (feature engineering), model seçimi, eğitim (training), hiperparametre optimizasyonu (hyperparameter tuning) ve dağıtım (deployment).

Scikit-learn ile Makine Öğrenmesi

Veri Ön İşleme

Feature scaling ve normalization
Kategorik değişkenlerin encoding'i
Feature engineering stratejileri
Dengesiz veri kümeleriyle başa çıkma

Supervised Learning Modelleri

Genelleştirilmiş linear modeller ve regularization
Ağaç Bazlı Modeller (Random Forest, Gradient Boosting)
Yapay Sinir Ağları
Model seçimi ve hyperparameter tuning
Cross-validation stratejileri

Unsupervised Learning Teknikleri

Clustering algoritmaları ve değerlendirme metrikleri
Dimensionality reduction (PCA, t-SNE, UMAP)
Anomaly detection yöntemleri

İleri Makine Öğrenmesi Teknikleri

XGBoost, LightGBM ve CatBoost ile Gradient Boosting

İleri boosting teknikleri
Feature importance ve yorumlama
Kategorik değişkenleri doğal olarak işleme
Büyük veri kümeleri için GPU hızlandırma

PyTorch ile Model Kurmak

Tabular data için neural network temelleri
Grafik kartında model çalıştırmak
AutoML araçları ve framework'ler