Llama 4’ün MoE Yapısı Neden Tüketici GPU’ları İçin Zorlayıcı?

RuneLab Ekibi

Meta’nın duyurduğu Llama 4 Scout ve Llama 4 Maverick büyük heyecan yarattı. Ancak bu modelleri tek bir tüketici GPU’sunda, hatta kuantizasyonla bile çalıştırmak neden zor? Birlikte inceleyelim

MoE Modellerini Özel Kılan Nedir?

Llama 4 gibi MoE modelleri tek bir büyük model yerine, birden çok uzmanı kullanır.

Fayda: Modelin yalnızca küçük bir bölümü (örneğin Scout ve Maverick için 17 milyar aktif parametre) her seferinde kullanılır. Bu, hesaplama taleplerini düşük tutar.

Ama modelin tamamı GPU belleğine yüklenmelidir; çünkü kapı ağı her farklı token için hangi uzmana ihtiyaç duyulacağını değiştirebileceği için, uzmanların elinin altında olması gerekir.

Sorun burada başlıyor. Toplam parametre sayıları oldukça büyük. Scout: 109 milyar parametre, Maverick: 400 milyar parametre

Ağırlıkların boyutlarını şu şekilde hesaplayabiliriz:

Kuantizasyon Olmadan (FP16, parametre başına 2 bayt):

Agresif 4-bit Kuantizasyon (INT4, parametre başına ~0.5 bayt):

Üst düzey RTX 4090/ 5090 gibi kartlar 24 GB / 32 GB VRAM sunar.

4 bit kuantizasyon bile bellek ihtiyacını yaklaşık 4 kat azaltıyor olsa da bu modelleri tek bir tüketici GPU’suna sığmayacak durumda. Ayrıca bu yalnızca ağırlıkların boyutu; aktivasyonlar, KV önbelleği gibi etkileri eklediğinizde gereken VRAM miktarı daha da büyür.

Kuantizasyon, daha küçük modeller için çok etkili bir araçtır, ancak modellerimiz 100 milyar+ parametre olduğunda, 4 kat azalma bile tüketici GPU’larının baş edemeyeceği büyüklükte bir VRAM talebi ( Scout için 54.5 GB, Maverick için 200 GB) oluşturur.

Llama 4 Scout ve Maverick gibi MoE modelleri, hesaplama verimliliğini büyük bir VRAM ihtiyacı ile takas ediyor. Her token için modelin yalnızca bir kısmı aktif olsa da, uzmanların tamamı VRAM’de bulunmak zorunda. Bu da 24 GB / 32 VRAM’e sahip RTX 4090 / 5090 gibi tüketici GPU’larını yetersiz kılıyor. Bu modelleri GPU'da çalıştırmak için veri merkezleri veya üst düzey iş istasyonları gibi yapılara ihtiyaç duyacağız.

Fazla VRAM gerekliliği bu modelleri Mac istasyonlarında çalıştırmaya daha uygun yapıyor. Mac Studio gibi sistemler RTX kartları kadar hesaplama performansı sağlamasa da çok daha yüksek bellek ile geliyor. Bu da onları llama 4 gibi hesaplama yükü az ama bellek ihtiyacı yüksek modeller için baya iyi bir sistem haline getiriyor.