Süre
Modüller 6 modül
Kursa kayıt ol 950 ₺

Multimodal RAG ile Elinizdeki Tablolar ve Görseller ile Konuşun

Tarih
Kontenjan 25/30

Eğitmen

Günümüz yapay zeka uygulama çağında, kurumlar sadece metin tabanlı değil, aynı zamanda görsel ve tablo verileriyle zenginleştirilmiş kapsamlı bilgilere ulaşmakta ve bunlardan anlam çıkarmakta zorlanıyor. Geleneksel RAG mimarileri metin odaklıyken, gerçek dünya belgeleri (kılavuzlar, raporlar, teknik çizimler) karmaşık görsel ve tablo yapıları içerir. Bu yoğun tempolu 3 saatlik “LangChain ile Multimodal Retrieval-Augmented Generation (RAG) Atölyesi”, katılımcılara çok modlu bir RAG mimarisini sıfırdan hayata geçirmenin teori ve pratiğini bir arada sunuyor.

Atölye; Multimodal RAG’in temel kavramlarını, LangChain ile farklı modalitelerin (metin, görsel, tablo) nasıl orkestre edileceğini ve günün sonunda canlı olarak çalışan, karmaşık dokümanları anlayan bir sohbet botu geliştirmeyi hedefliyor. Katılımcılar; çok modlu veri çıkarma, farklı embedding modelleri, birleştirilmiş vektör arama ve prompt mühendisliği zincirini uçtan uca deneyimleyerek, sadece metinle sınırlı kalmayan zenginleştirilmiş bilgiye erişimin gücünü doğrudan gözlemleyecekler.

Kimler Katılmalı

Kimler Katılmalı

  • Veri bilimciler, MLOps mühendisleri, yazılım geliştiriciler – karmaşık, çok modlu dokümanlardan anlam çıkarabilen LLM tabanlı uygulamalar inşa etmek isteyenler.

  • Multimodal RAG mimarisinin pratik faydasını kurumuna taşımayı hedefleyen teknik liderler.

  • Kısa sürede öğren-uygula-göster döngüsüyle somut çıktı elde etmek isteyen profesyoneller.

Bu atölye, sıkı bir zaman diliminde yoğun öğrenme sağlayarak katılımcıları “çok modlu dokümanlardan akıllı bilgiye” giden RAG yolculuğunda hızla ileri taşıyacak; gerçek veriler üzerinde, canlı demosu yapılmış bir proje ile ayrılmanızı sağlayacaktır.

Konular

Multimodal RAG Giriş

Neden Multimodal RAG?

  • Temel RAG tekrar

  • Belgelerden (kılavuzlar, raporlar, diyagramlı sayfalar) içgörüleri ortaya çıkarmak

  • Atölye hedefi: Metin, görsel ve tabloları anlayan bir chatbot oluşturmak

PDF’i Parçalara Ayırmak: Düz Metnin Ötesinde

  • PDF yapısını anlamak: metin akışları, görsel objeler, vektör grafikler ve gömülü tablo verisi

  • PDF ayrıştırma araçları

  • Her modalite için veri çıkarım zorlukları

Multimodal RAG Akışı

  • Metin, görsel ve tablolar için yapılabilecek farklı işlemler

  • Farklı modaliteler için farklı embedding modelleri vs hepsi için ortak embedding

  • Multimodal bilgiyi depolama ve geri getirme

  • Birleştirilmiş içeriği LLM’e sunma

Görselleri ve Tabloları Çıkarma ve Embedding

Görsel Çıkarma (extraction) ve Embedding

  • Örnek bir PDF’den görselleri çıkarma

  • Görsel embedding modellerine giriş (CLIP, OpenAI modelleri vb.)

  • Uygulama: Çıkarılan görseller için embedding üretimi

  • Görsel embedding’lerini ve ilgili metadata’yı (kaynak sayfa, görsel ID) saklama

Tablo Çıkarma & RAG İçin Temsili

  • Tabloları verilerden çıkarma

  • Tabloları temsil etme stratejileri:

    • Yapılandırılmış metin (Markdown, CSV string) olarak embedding

    • Karmaşık/grafiksel tablolar için görsel olarak embedding

  • Tabloyu kısaca özetlemek için LLM kullanımı üzerine kısa tartışma

  • Uygulama: Çıkarılan tabloyu Markdown’a dönüştürüp embedding oluşturmak

  • Metin Çıkarma & Embedding

  • Metin parçalama ve embedding kısa tekrarı

  • Modaliteler arasında (sayfa numarası gibi) metadata tutarlılığını sağlama

Multimodal Vector Store & Retrieval Stratejisi

Vector Store Tasarımı

  • Seçenek 1: Modaliteleri ayırt eden metadata ile tek bir vector store

  • Seçenek 2: Her modalite için ayrı vector store’lar

  • Artılar/eksiler (sadelik vs. uzmanlaşmış arama)

  • Uygulama: Metin, görsel embedding’leri ve tablo temsillerini metadata ile saklayan bir Vector Database kurma

Multimodal Retrieval: Doğru Parçaları Bulmak

  • Modaliteler arası sorgulama:

    • Basit yaklaşım: İlgili tüm vector store/index’lerine sorgu gönderip sonuçları birleştirme

    • LangChain’in MultiVectorRetriever konsepti

  • İlgili metin parçalarını, görsel referans/açıklamalarını ve tablo snippet’lerini getirme

  • Sonuçları birleştirme ve  sıralama: farklı kaynaklardan gelen skorları ağırlıklandırma veya her modaliteden top-k’yı basitçe birleştirme

  • Uygulama: Kullanıcı sorgusuna göre top-k metin, top-k görsel referansı ve top-k tablo snippet’ini getiren retrieval fonksiyonu implementasyonu

Multimodal RAG için Prompt

Prompt’larda Multimodal Bağlamı Temsil Etme

  • Görseller “gösterilmiyorsa” (vision-capable LLM kullanılmıyorsa) LLM’e nasıl “gösterilir”: görsel açıklamaları, başlıklar veya yer tutucular (örn. [Image: chart_on_page_5.png ...])

  • Tablo verisini (Markdown) doğrudan prompt’a entegre etme

  • LLM’in tüm bağlam türlerini kullanmasını yönlendiren prompt yapıları

Multimodal Soru-Cevap için Etkili Prompt’lar

  • “Metin ve sağlanan [Image: diagram_1] temelinde X’in nasıl çalıştığını açıkla.”

  • “[Table: financial_summary] ve çevresindeki metinden kilit bulguları özetle.”

  • “7. sayfadaki grafik kullanıcı artışı hakkında ne gösteriyor?” (Sayfa → görsel eşleyerek)

  • İstenen çıktı için iteratif prompt iyileştirme

Gradio ile Arayüz Oluşturma

Veriyi Sisteme Alma:

  • Kullanıcı PDF yükler

  • Veri Çıkarma (metin, görsel, tablo)

  • Embedding üretimi

  • Vector store’da tutma

Retrieval & Üretim:

  • Kullanıcı sorgusunu al

  • Multimodal retrieval yap

  • Geri getirilen bağlamla prompt’u oluştur

  • LLM’i çağır

  • Yanıtı göster

Canlı Demo & Test

  • Metin, grafik (görsel) ve tablolar içeren örnek bir PDF ile uygulamayı test etme

  • Farklı modalitelerden bilgi sentezi gerektiren sorular sorma

  • Hata ayıklama

Kapanış
  • Yapılanların özeti

  • Soru-Cevap (Q&A)

Dönemler

Tarih Saat Kontenjan Kayıt
2025-09-16 19:00 30

Bizimle iletişime geçin

Görmek istediğiniz workshop'ları önermek için WhatsApp bize ulaşın!