Llama 4’ün MoE Yapısı Neden Tüketici GPU’ları İçin Zorlayıcı?
Meta’nın duyurduğu Llama 4 Scout ve Llama 4 Maverick büyük heyecan yarattı. Ancak bu modelleri tek bir tüketici GPU’sunda, hatta kuantizasyonla bile çalıştırmak neden zor? Birlikte inceleyelim
MoE Modellerini Özel Kılan Nedir?
Llama 4 gibi MoE modelleri tek bir büyük model yerine, birden çok uzmanı kullanır.
Birden fazla uzman alt ağ: Her alt ağ farklı bir göreve odaklanır.
Gating (kapı) ağı: Hangi uzman(lar)ın hangi giriş token’ını işleyeceğine karar verir. Bu yüzden model 400B olsa da 17B aktif parametre gibi tabirler duyarız. Model tüm parametrelerini değil, gerekli gördüğü uzmanların parametrelerini kullanır gating yapısından sonra.
Fayda: Modelin yalnızca küçük bir bölümü (örneğin Scout ve Maverick için 17 milyar aktif parametre) her seferinde kullanılır. Bu, hesaplama taleplerini düşük tutar.
Ama modelin tamamı GPU belleğine yüklenmelidir; çünkü kapı ağı her farklı token için hangi uzmana ihtiyaç duyulacağını değiştirebileceği için, uzmanların elinin altında olması gerekir.
Sorun burada başlıyor. Toplam parametre sayıları oldukça büyük. Scout: 109 milyar parametre, Maverick: 400 milyar parametre
Ağırlıkların boyutlarını şu şekilde hesaplayabiliriz:
Kuantizasyon Olmadan (FP16, parametre başına 2 bayt):
Scout: 109 milyar × 2 = 218 GB VRAM (sadece ağırlıklar için)
Maverick: 400 milyar × 2 = 800 GB VRAM (sadece ağırlıklar)
Agresif 4-bit Kuantizasyon (INT4, parametre başına ~0.5 bayt):
Scout: 109 milyar × 0.5 = ~54.5 GB VRAM (sadece ağırlıklar için)
Maverick: 400 milyar × 0.5 = ~200 GB VRAM (sadece ağırlıklar için)
Üst düzey RTX 4090/ 5090 gibi kartlar 24 GB / 32 GB VRAM sunar.
4 bit kuantizasyon bile bellek ihtiyacını yaklaşık 4 kat azaltıyor olsa da bu modelleri tek bir tüketici GPU’suna sığmayacak durumda. Ayrıca bu yalnızca ağırlıkların boyutu; aktivasyonlar, KV önbelleği gibi etkileri eklediğinizde gereken VRAM miktarı daha da büyür.
Kuantizasyon, daha küçük modeller için çok etkili bir araçtır, ancak modellerimiz 100 milyar+ parametre olduğunda, 4 kat azalma bile tüketici GPU’larının baş edemeyeceği büyüklükte bir VRAM talebi ( Scout için 54.5 GB, Maverick için 200 GB) oluşturur.
Llama 4 Scout ve Maverick gibi MoE modelleri, hesaplama verimliliğini büyük bir VRAM ihtiyacı ile takas ediyor. Her token için modelin yalnızca bir kısmı aktif olsa da, uzmanların tamamı VRAM’de bulunmak zorunda. Bu da 24 GB / 32 VRAM’e sahip RTX 4090 / 5090 gibi tüketici GPU’larını yetersiz kılıyor. Bu modelleri GPU'da çalıştırmak için veri merkezleri veya üst düzey iş istasyonları gibi yapılara ihtiyaç duyacağız.
Fazla VRAM gerekliliği bu modelleri Mac istasyonlarında çalıştırmaya daha uygun yapıyor. Mac Studio gibi sistemler RTX kartları kadar hesaplama performansı sağlamasa da çok daha yüksek bellek ile geliyor. Bu da onları llama 4 gibi hesaplama yükü az ama bellek ihtiyacı yüksek modeller için baya iyi bir sistem haline getiriyor.