Yandex Araştırmaları LLM’leri Sıkıştırmak İçin Yeni Yöntemler Geliştirerek Yapay Zeka Dağıtım Maliyetlerini 8 Kata Kadar Azalttı

ABONE OL

News

01 Aralık 2024 00:22

BEĞENDİM

ABONE OL

News

Yandex Araştırma takımı, IST Austria, NeuralMagic ve KAUST araştırmacılarla işbirliği yaparak büyük lisan modelleri için iki yeni sıkıştırma sistemi geliştirdi: Lisan Modelleri için Eklemeli Niceleme (AQLM) ve PV-Tuning. Bu teknikler bir ortaya getirildiğinde model boyutunda 8 kata kadar azalma sağlarken cevap kalitesini %95 oranında koruyor. Kaynakları optimize etmeyi ve büyük lisan modellerinin çalıştırılmasında verimliliği artırmayı amaçlayan bu yeni yaklaşımın ayrıntılarına dair makale, şu an Viyana, Avusturya’da devam etmekte olan Memleketler arası Makine Tahsili Konferansı’nda (ICML) yer aldı.

AQLM ve PV-Tuning’in temel özellikleri

AQLM, LLM sıkıştırması için klasik olarak bilgi erişiminde kullanılan eklemeli niceleme metodundan yararlanıyor. Ortaya çıkan sistem çok sıkıştırma altında modelin doğruluğunu koruyup geliştiriyor, böylelikle LLM’lerin mesken bilgisayarları üzere günlük aygıtlarda yaygınlaştırılmasını mümkün kılıyor. Bu, bellek tüketiminde değerli bir azalmaya neden oluyor.

PV-Tuning ise model sıkıştırma süreci sırasında ortaya çıkabilecek yanılgıları gideriyor. AQLM ve PV-Tuning birleştirildiğinde, sonlu bilgi süreç kaynaklarında bile yüksek kalitede cevaplar sağlayabilen kompakt bir model eşliğinde optimum sonuçlar sunuyor.

Yöntem kıymetlendirme ve tanıma

Sunulan prosedürlerin aktifliği, LLama 2, Mistral ve Mixtral üzere tanınan açık kaynaklı modeller kullanılarak titizlikle değerlendirildi. Araştırmacılar bu büyük lisan modellerini sıkıştırarak karşılık kalitesini İngilizce karşılaştırma ölçütleri olan WikiText2 ve C4 ile kıymetlendirdi. Modeller 8 kat sıkıştırılmalarına rağmen %95 üzere etkileyici bir oranda cevap kalitesini muhafazayı başardı.

AQLM ve PV-Tuning’den kimler yararlanabilir

Yeni usuller, tescilli lisan modellerini ve açık kaynaklı LLM’leri geliştiren ve dağıtan şirketler için değerli ölçüde kaynak tasarrufu sağlıyor. Örneğin sıkıştırma sonrası 13 milyar parametreye sahip Llama 2 modeli artık 4 yerine yalnızca 1 GPU üzerinde çalışarak donanım maliyetlerinde 8 kata kadar azalma sağlıyor. Bu da teşebbüslerin, ferdi araştırmacıların ve LLM meraklılarının Llama üzere gelişmiş LLM’leri günlük kullandıkları bilgisayarlarda çalıştırabilecekleri manasına geliyor.

Yeni LLM uygulamalarını keşfetmek

AQLM ve PV-Tuning, modellerin hudutlu hesaplama kaynaklarına sahip aygıtlarda çevrimdışı olarak dağıtılmasını mümkün kılarak, akıllı telefonlar, akıllı hoparlörler ve daha fazlası için yeni kullanım alanları sağlar. Bu aygıtlara entegre edilen gelişmiş LLM’ler sayesinde kullanıcılar metin ve imaj oluşturma, sesli yardım, şahsileştirilmiş teklifler ve hatta gerçek vakitli lisan çevirisini etkin bir internet irtibatına muhtaçlık duymadan kullanabiliyor.

Ayrıca, bu yollar kullanılarak sıkıştırılan modeller daha az hesaplama gerektirdiğinden 4 kata kadar daha hızlı çalışabiliyor.

Uygulama ve erişim

Dünya genelindeki geliştiriciler ve araştırmacılar, GitHub’da bulunan AQLM ve PV-Tuning’i kullanabiliyor. Geliştiriciler tarafından sağlanan demo gereçleri, çeşitli uygulamalar için sıkıştırılmış LLM’leri tesirli bir formda eğitmek için rehberlik sunuyor. Ayrıyeten geliştiriciler, bu yollar kullanılarak sıkıştırılmış popüler açık kaynaklı modelleri indirebiliyorlar.

ICML’de öne çıktı

Yandex Research’ün AQLM sıkıştırma tekniğine ait bilimsel makalesi, dünyanın en itibarlı makine tahsili konferanslarından biri olan ICML’de yayınlandı. IST Austria’dan araştırmacılar ve yapay zeka teşebbüsü Neural Magic’ten uzmanlarla birlikte hazırlanan bu çalışma, LLM sıkıştırma teknolojisinde kıymetli bir ilerleme manasına geliyor.

Kaynak: (BYZHA) Beyaz Haber Ajansı