Multimodal RAG

Name: Multimodal RAG
Price: 95000 TRY

Bireysel sayfadasınız. Kurumsal sayfaya geçebilirsiniz.

Model Canlı Ders

Süre 3 saat

Modüller 6 modül

Multimodal RAG ile Elinizdeki Tablolar ve Görseller ile Konuşun

Fiyat 950 ₺

Günümüz yapay zeka uygulama çağında, kurumlar sadece metin tabanlı değil, aynı zamanda görsel ve tablo verileriyle zenginleştirilmiş kapsamlı bilgilere ulaşmakta ve bunlardan anlam çıkarmakta zorlanıyor. Geleneksel RAG mimarileri metin odaklıyken, gerçek dünya belgeleri (kılavuzlar, raporlar, teknik çizimler) karmaşık görsel ve tablo yapıları içerir. Bu yoğun tempolu 3 saatlik “LangChain ile Multimodal Retrieval-Augmented Generation (RAG) Atölyesi”, katılımcılara çok modlu bir RAG mimarisini sıfırdan hayata geçirmenin teori ve pratiğini bir arada sunuyor.

Atölye; Multimodal RAG’in temel kavramlarını, LangChain ile farklı modalitelerin (metin, görsel, tablo) nasıl orkestre edileceğini ve günün sonunda canlı olarak çalışan, karmaşık dokümanları anlayan bir sohbet botu geliştirmeyi hedefliyor. Katılımcılar; çok modlu veri çıkarma, farklı embedding modelleri, birleştirilmiş vektör arama ve prompt mühendisliği zincirini uçtan uca deneyimleyerek, sadece metinle sınırlı kalmayan zenginleştirilmiş bilgiye erişimin gücünü doğrudan gözlemleyecekler.

Kimler Katılmalı

Kimler Katılmalı

Veri bilimciler, MLOps mühendisleri, yazılım geliştiriciler – karmaşık, çok modlu dokümanlardan anlam çıkarabilen LLM tabanlı uygulamalar inşa etmek isteyenler.
Multimodal RAG mimarisinin pratik faydasını kurumuna taşımayı hedefleyen teknik liderler.
Kısa sürede öğren-uygula-göster döngüsüyle somut çıktı elde etmek isteyen profesyoneller.

Bu atölye, sıkı bir zaman diliminde yoğun öğrenme sağlayarak katılımcıları “çok modlu dokümanlardan akıllı bilgiye” giden RAG yolculuğunda hızla ileri taşıyacak; gerçek veriler üzerinde, canlı demosu yapılmış bir proje ile ayrılmanızı sağlayacaktır.

Konular

Multimodal RAG Giriş

Neden Multimodal RAG?

Temel RAG tekrar
Belgelerden (kılavuzlar, raporlar, diyagramlı sayfalar) içgörüleri ortaya çıkarmak
Atölye hedefi: Metin, görsel ve tabloları anlayan bir chatbot oluşturmak

PDF’i Parçalara Ayırmak: Düz Metnin Ötesinde

PDF yapısını anlamak: metin akışları, görsel objeler, vektör grafikler ve gömülü tablo verisi
PDF ayrıştırma araçları
Her modalite için veri çıkarım zorlukları

Multimodal RAG Akışı

Metin, görsel ve tablolar için yapılabilecek farklı işlemler
Farklı modaliteler için farklı embedding modelleri vs hepsi için ortak embedding
Multimodal bilgiyi depolama ve geri getirme
Birleştirilmiş içeriği LLM’e sunma

Görselleri ve Tabloları Çıkarma ve Embedding

Görsel Çıkarma (extraction) ve Embedding

Örnek bir PDF’den görselleri çıkarma
Görsel embedding modellerine giriş (CLIP, OpenAI modelleri vb.)
Uygulama: Çıkarılan görseller için embedding üretimi
Görsel embedding’lerini ve ilgili metadata’yı (kaynak sayfa, görsel ID) saklama

Tablo Çıkarma & RAG İçin Temsili

Tabloları verilerden çıkarma
Tabloları temsil etme stratejileri:
- Yapılandırılmış metin (Markdown, CSV string) olarak embedding
- Karmaşık/grafiksel tablolar için görsel olarak embedding
Tabloyu kısaca özetlemek için LLM kullanımı üzerine kısa tartışma
Uygulama: Çıkarılan tabloyu Markdown’a dönüştürüp embedding oluşturmak
Metin Çıkarma & Embedding
Metin parçalama ve embedding kısa tekrarı
Modaliteler arasında (sayfa numarası gibi) metadata tutarlılığını sağlama

Multimodal Vector Store & Retrieval Stratejisi

Vector Store Tasarımı

Seçenek 1: Modaliteleri ayırt eden metadata ile tek bir vector store
Seçenek 2: Her modalite için ayrı vector store’lar
Artılar/eksiler (sadelik vs. uzmanlaşmış arama)
Uygulama: Metin, görsel embedding’leri ve tablo temsillerini metadata ile saklayan bir Vector Database kurma

Multimodal Retrieval: Doğru Parçaları Bulmak

Modaliteler arası sorgulama:
- Basit yaklaşım: İlgili tüm vector store/index’lerine sorgu gönderip sonuçları birleştirme
- LangChain’in MultiVectorRetriever konsepti
İlgili metin parçalarını, görsel referans/açıklamalarını ve tablo snippet’lerini getirme
Sonuçları birleştirme ve sıralama: farklı kaynaklardan gelen skorları ağırlıklandırma veya her modaliteden top-k’yı basitçe birleştirme
Uygulama: Kullanıcı sorgusuna göre top-k metin, top-k görsel referansı ve top-k tablo snippet’ini getiren retrieval fonksiyonu implementasyonu

Multimodal RAG için Prompt

Prompt’larda Multimodal Bağlamı Temsil Etme

Görseller “gösterilmiyorsa” (vision-capable LLM kullanılmıyorsa) LLM’e nasıl “gösterilir”: görsel açıklamaları, başlıklar veya yer tutucular (örn. [Image: chart_on_page_5.png ...])
Tablo verisini (Markdown) doğrudan prompt’a entegre etme
LLM’in tüm bağlam türlerini kullanmasını yönlendiren prompt yapıları

Multimodal Soru-Cevap için Etkili Prompt’lar

“Metin ve sağlanan [Image: diagram_1] temelinde X’in nasıl çalıştığını açıkla.”
“[Table: financial_summary] ve çevresindeki metinden kilit bulguları özetle.”
“7. sayfadaki grafik kullanıcı artışı hakkında ne gösteriyor?” (Sayfa → görsel eşleyerek)
İstenen çıktı için iteratif prompt iyileştirme

Gradio ile Arayüz Oluşturma

Veriyi Sisteme Alma:

Kullanıcı PDF yükler
Veri Çıkarma (metin, görsel, tablo)
Embedding üretimi
Vector store’da tutma

Retrieval & Üretim:

Kullanıcı sorgusunu al
Multimodal retrieval yap
Geri getirilen bağlamla prompt’u oluştur
LLM’i çağır
Yanıtı göster

Canlı Demo & Test

Metin, grafik (görsel) ve tablolar içeren örnek bir PDF ile uygulamayı test etme
Farklı modalitelerden bilgi sentezi gerektiren sorular sorma
Hata ayıklama

Kapanış

Yapılanların özeti
Soru-Cevap (Q&A)