Multimodal RAG
Bireysel sayfadasınız. Kurumsal sayfaya geçebilirsiniz.
Renkler tuhaf mı görünüyor? Samsung Internet tarayıcısı koyu modda site renklerini değiştiriyor olabilir. Kapatmak için Internet menüsünden Ayarlar → Kullanışlı Özellikler → Labs → Web site koyu temasını kullan seçeneğini etkinleştirebilirsiniz.
Bireysel sayfadasınız. Kurumsal sayfaya geçebilirsiniz.
Günümüz yapay zeka uygulama çağında, kurumlar sadece metin tabanlı değil, aynı zamanda görsel ve tablo verileriyle zenginleştirilmiş kapsamlı bilgilere ulaşmakta ve bunlardan anlam çıkarmakta zorlanıyor. Geleneksel RAG mimarileri metin odaklıyken, gerçek dünya belgeleri (kılavuzlar, raporlar, teknik çizimler) karmaşık görsel ve tablo yapıları içerir. Bu yoğun tempolu 3 saatlik “LangChain ile Multimodal Retrieval-Augmented Generation (RAG) Atölyesi”, katılımcılara çok modlu bir RAG mimarisini sıfırdan hayata geçirmenin teori ve pratiğini bir arada sunuyor.
Atölye; Multimodal RAG’in temel kavramlarını, LangChain ile farklı modalitelerin (metin, görsel, tablo) nasıl orkestre edileceğini ve günün sonunda canlı olarak çalışan, karmaşık dokümanları anlayan bir sohbet botu geliştirmeyi hedefliyor. Katılımcılar; çok modlu veri çıkarma, farklı embedding modelleri, birleştirilmiş vektör arama ve prompt mühendisliği zincirini uçtan uca deneyimleyerek, sadece metinle sınırlı kalmayan zenginleştirilmiş bilgiye erişimin gücünü doğrudan gözlemleyecekler.
Kimler Katılmalı
Veri bilimciler, MLOps mühendisleri, yazılım geliştiriciler – karmaşık, çok modlu dokümanlardan anlam çıkarabilen LLM tabanlı uygulamalar inşa etmek isteyenler.
Multimodal RAG mimarisinin pratik faydasını kurumuna taşımayı hedefleyen teknik liderler.
Kısa sürede öğren-uygula-göster döngüsüyle somut çıktı elde etmek isteyen profesyoneller.
Bu atölye, sıkı bir zaman diliminde yoğun öğrenme sağlayarak katılımcıları “çok modlu dokümanlardan akıllı bilgiye” giden RAG yolculuğunda hızla ileri taşıyacak; gerçek veriler üzerinde, canlı demosu yapılmış bir proje ile ayrılmanızı sağlayacaktır.
Temel RAG tekrar
Belgelerden (kılavuzlar, raporlar, diyagramlı sayfalar) içgörüleri ortaya çıkarmak
Atölye hedefi: Metin, görsel ve tabloları anlayan bir chatbot oluşturmak
PDF yapısını anlamak: metin akışları, görsel objeler, vektör grafikler ve gömülü tablo verisi
PDF ayrıştırma araçları
Her modalite için veri çıkarım zorlukları
Metin, görsel ve tablolar için yapılabilecek farklı işlemler
Farklı modaliteler için farklı embedding modelleri vs hepsi için ortak embedding
Multimodal bilgiyi depolama ve geri getirme
Birleştirilmiş içeriği LLM’e sunma
Örnek bir PDF’den görselleri çıkarma
Görsel embedding modellerine giriş (CLIP, OpenAI modelleri vb.)
Uygulama: Çıkarılan görseller için embedding üretimi
Görsel embedding’lerini ve ilgili metadata’yı (kaynak sayfa, görsel ID) saklama
Tabloları verilerden çıkarma
Tabloları temsil etme stratejileri:
Yapılandırılmış metin (Markdown, CSV string) olarak embedding
Karmaşık/grafiksel tablolar için görsel olarak embedding
Tabloyu kısaca özetlemek için LLM kullanımı üzerine kısa tartışma
Uygulama: Çıkarılan tabloyu Markdown’a dönüştürüp embedding oluşturmak
Metin Çıkarma & Embedding
Metin parçalama ve embedding kısa tekrarı
Modaliteler arasında (sayfa numarası gibi) metadata tutarlılığını sağlama
Seçenek 1: Modaliteleri ayırt eden metadata ile tek bir vector store
Seçenek 2: Her modalite için ayrı vector store’lar
Artılar/eksiler (sadelik vs. uzmanlaşmış arama)
Uygulama: Metin, görsel embedding’leri ve tablo temsillerini metadata ile saklayan bir Vector Database kurma
Modaliteler arası sorgulama:
Basit yaklaşım: İlgili tüm vector store/index’lerine sorgu gönderip sonuçları birleştirme
LangChain’in MultiVectorRetriever konsepti
İlgili metin parçalarını, görsel referans/açıklamalarını ve tablo snippet’lerini getirme
Sonuçları birleştirme ve sıralama: farklı kaynaklardan gelen skorları ağırlıklandırma veya her modaliteden top-k’yı basitçe birleştirme
Uygulama: Kullanıcı sorgusuna göre top-k metin, top-k görsel referansı ve top-k tablo snippet’ini getiren retrieval fonksiyonu implementasyonu
Görseller “gösterilmiyorsa” (vision-capable LLM kullanılmıyorsa) LLM’e nasıl “gösterilir”: görsel açıklamaları, başlıklar veya yer tutucular (örn. [Image: chart_on_page_5.png ...])
Tablo verisini (Markdown) doğrudan prompt’a entegre etme
LLM’in tüm bağlam türlerini kullanmasını yönlendiren prompt yapıları
“Metin ve sağlanan [Image: diagram_1] temelinde X’in nasıl çalıştığını açıkla.”
“[Table: financial_summary] ve çevresindeki metinden kilit bulguları özetle.”
“7. sayfadaki grafik kullanıcı artışı hakkında ne gösteriyor?” (Sayfa → görsel eşleyerek)
İstenen çıktı için iteratif prompt iyileştirme
Kullanıcı PDF yükler
Veri Çıkarma (metin, görsel, tablo)
Embedding üretimi
Vector store’da tutma
Kullanıcı sorgusunu al
Multimodal retrieval yap
Geri getirilen bağlamla prompt’u oluştur
LLM’i çağır
Yanıtı göster
Metin, grafik (görsel) ve tablolar içeren örnek bir PDF ile uygulamayı test etme
Farklı modalitelerden bilgi sentezi gerektiren sorular sorma
Hata ayıklama
Yapılanların özeti
Soru-Cevap (Q&A)
Tarih | Saat | Kontenjan | Kayıt |
---|---|---|---|
2025-09-16 | 19:00 | 30 |