Trace Id is missing
Ana içeriğe atla
Azure

Büyük dil modelleri (LLM) nelerdir?

LLM'lerin nasıl çalıştığına genel bir bakış elde edin ve bunların yapay zeka destekli çözümler oluşturmak için nasıl kullanıldığını keşfedin.

LLM'nin anlamı

Büyük dil modelleri (LLM), makine öğrenmesi teknikleriyle eğitildiği verileri kullanarak doğal dili veya insan benzeri metinleri anlayan ve üreten ileri düzey yapay zeka sistemleridir. LLM'ler otomatik olarak metin tabanlı içerik oluşturabilir; bu içerik sektörler genelinde sayısız kullanım örneğine uygulanabilir ve sonuçta dünya çapındaki kuruluşlarda daha fazla verimlilik ve maliyet tasarrufu sağlanır. 

Önemli çıkarımlar

  • LLM'ler, doğal dili anlayabilen ve üretebilen ileri düzey yapay zeka sistemleridir.
  • LLM'ler, farklı veri kaynaklarından gelen bilgileri işlemek ve birleştirmek için derin öğrenme mimarilerine ve makine öğrenmesi tekniklerine güvenir.
  • LLM çok çeşitli alanlara dil oluşturma ve dil çevirisi gibi önemli avantajlar getirir.
  • LLM'ler çığır açıcı modeller olsa da, bilgisayar gereksinimleri, etik kaygılar ve bağlamı anlama sınırlamaları gibi güçlüklerle karşı karşıya kalır.
  • Bu güçlüklere rağmen kuruluşlar şimdiden içerik oluşturma, sohbet botları, çeviri ve yaklaşım analizi gibi görevler için önceden eğitilmiş üretken dönüştürücü (GPT) serilerini ve dönüştürücülerden gelen çift yönlü kodlama gösterimlerini (BERT) kullanmaktadır.

LLM'ler nasıl çalışır?

LLM'lerin kısa tarihi

LLM'ler modern bir gelişme ama doğal dil işleme (NLP) çalışmaları Alan Turing'in makinelerde akıllı davranışı ölçmek için Turing testini başlattığı 1950'ye dayanıyor. Testte insan bir yargıç bir dizi soruyu kullanarak bilgisayarla konuşuyor ve bir makineyle mi yoksa bir insanla mı konuştuğunu belirlemesi gerekiyor.
1980'lere ve 1990'lara gelindiğinde, NLP mantıksal denemelerden daha veri odaklı bir yaklaşıma kaydı. Bir cümlenin önceki sözcüklerine bakarak sıradaki sözcüklerini tahmin edebilme becerisiyle, n-gram gibi istatistiksel dil modelleri yeni bir çağın önünü açtı. 2010'ların başlarında, daha yeni sinir ağları bu dil modellerinin yeteneklerini daha da genişletti, bu modellerin sözcük sıralarını belirlemenin çok ötesine geçerek sözcüklerin gösterimi ve anlamını daha derinden anlamaya doğru ilerlemesini sağladı.
Bu yeni gelişmeler 2018'de sekiz Google bilim insanının makine öğrenmesi üzerine çığır açan "Attention is All You Need" adlı çalışmayı kaleme alması ve yayımlamasıyla doruğa ulaştı. Çalışmada en dikkati çeken, karmaşık metin bilgilerini daha fazla doğrulukla ve daha büyük ölçekte yönetebilen ve anlayabilen yenilikçi bir sinir ağı çerçevesi olan dönüştürücü mimarisinin tanıtılmasıydı. Dönüştürücüler artık GPT serisi ve BERT gibi günümüzün en güçlü LLM'lerinin bazılarına temel oluşturuyor.

Temel mimari

Günümüzün son derece gelişmiş LLM'leri farklı veri kaynaklarından gelen verileri işlemek için dönüştürücüler gibi derin öğrenme mimarilerini ve diğer derin sinir ağı çerçeveleri kullanır. Dönüştürücüler özellikle, dil oluşturma ve dil çevirisi gibi görevler için doğal dili anlamalarını ve oluşturmalarını sağlayan, metin gibi sıralı verilerin işlenmesinde etkilidir. 
Dönüştürücüler başlıca iki bileşenden oluşur: kodlayıcılar ve kod çözücüler. Bu bileşenler genellikle dizileri işlemek ve oluşturmak için birlikte çalışır. Kodlayıcı ham metin verilerini alır ve bu girişi model tarafından analiz edilebilecek bağımsız öğelere dönüştürür. Kod çözücü daha sonra bu verileri bir dizi katman aracılığıyla işleyip örneğin oluşturulmuş bir cümle olabilecek son çıkışı üretir. Modelin veya görevin türüne bağlı olarak dönüştürücüler yalnızca kodlayıcılardan veya yalnızca kod çözücülerden de oluşabilir.

Eğitim süreci

LLM'lerin eğitim süreci üç ana aşamadan oluşur: veri toplama, model eğitimi ve ince ayar. 
Veri toplama aşamasında model, İnternet kaynakları, kitaplar, makaleler ve veritabanları dahil olmak üzere çok çeşitli kaynaklardan gelen büyük hacimli metin verilerine maruz kalır. Veriler ayrıca dil desenleri, dil bilgisi, bilgi ve bağlam temelinde modeli eğitmek amacıyla kullanılabilmeleri için bir NoSQL veritabanında temizlenir, işlenir, standartlaştırılır ve depolanır. 
Eğitim öncesi aşamada, model verilerdeki dili anlamaya başlar. Bu, modelin bağlamına dayanarak metni tahmin etmeyi öğrendiği büyük ölçekli, gözetimsiz görevler aracılığıyla gerçekleştirilir. Bazı teknikler arasında modelin cümlenin sonraki sözcüğünü tahmin etmeyi öğrendiği ardışık bağlanımlı modelleme ve modelin bağlamı anlamak için maskelenmiş sözcükleri doldurduğu maskelenmiş dil modellemesi sayılabilir. 
Son olarak, ince ayar aşamasında model daha küçük, daha göreve özgü bir veri kümesiyle daha fazla eğitilir. Bu işlem modelin bilgisini daraltarak yaklaşım analizi veya çeviri gibi belirli görevler için performansını geliştirir; böylelikle çeşitli uygulamalar için kullanılabilir.

Başlıca bileşenler

Dönüştürücü modeli ham metni belirteç olarak adlandırılan daha küçük, temel metin birimlerine böler. Belirteçler, kullanım durumuna bağlı olarak sözcüklerden, sözcük parçalarından, hatta tek tek karakterlerden bile oluşabilir. Bu belirteçler daha sonra sırayı, anlamsal tanımı ve bağlamı yakalayan yoğun sayısal gösterimlere dönüştürülür. Eklemeler olarak adlandırılan bu gösterimler daha sonra iki alt katmandan oluşan bir katman yığınından geçirilir: öz dikkat ve sinir ağları.
Her iki katman da metni modelin etkili bir şekilde işleyebileceği bir biçime dönüştürmeye yardımcı olurken, öz dikkat mekanizması dönüştürücü mimarisinin önemli bir bileşenidir. Öz dikkat mekanizması, modelin dikkatini bir metin dizisinin farklı bölümlerine yöneltmesine ve konumlarından bağımsız olarak dizideki diğer belirteçlere göre bu bilginin değerini dinamik olarak ölçmesine olanak tanıyan mekanizmadır. Ayrıca bu mekanizma LLM'lere yazılı dilin karmaşık bağımlılıklarını, ilişkilerini ve bağlamsal inceliklerini yakalama kapasitesi de sağlar.

Avantajlar ve zorluklar

Avantajlar

LLM'ler, iş dünyasında ve toplumda önemli ilerlemelere katkıda bulunan birçok avantaj sunar.

Geliştirilmiş dil oluşturma ve çeviri

LLM'ler sözcükler arasındaki incelikli ilişkileri anlayabildiği ve yakalayabildiği için, doğal, insan benzeri metin üretme alanında sivrilir ve bu da dil oluşturma çalışmasının geliştirilmesine neden olur. Akıcı ve tutarlı bir şekilde yaratıcı, bağlamsal olarak uygun yanıtlar oluşturabilir ve bunu romanlar da dahil olmak üzere çeşitli biçimlerde gerçekleştirebilirler.
Bağlamı belirleyebildikleri ve anlamdaki incelikleri bulabildikleri için, çok dilli verilerle eğitilen LLM'ler yüksek doğruluk oranına sahip çeviriler de yapabilir. Modelin belirli bir dil kümesinde eğitilmesi, deyimleri, ifadeleri ve diğer karmaşık dil özelliklerini işleme becerisinde ince ayarlamalar yapmaya yardımcı olabilir ve sonuçta organik ve akıcı çeviriler elde edilir.

Çeşitli alanlardaki uygulamalar

LLM'ler sağlık, finans ve müşteri hizmetleri gibi birçok farklı alanda birçok uygulaması olan çok yönlü araçlardır.
 
Sağlık sektöründe LLM'ler: 
  • Hasta raporlarını olası koşullar için analiz edebilir ve ön tanılar sağlayabilir. 
  • Hasta notları ve taburcu özetleri oluşturabilir ve bu şekilde yönetim görevlerini kolaylaştırabilir. 
  • Hasta geçmişini temel alarak kişiselleştirilmiş tedavi planları ve tıbbi bakım önerebilir.  
  Finans sektöründe LLM'ler:
  • Finansal verilerde dolandırıcılığı işaret ediyor olabilecek olağan dışı etkinlikleri belirleyebilir. 
  • Pazar eğilimlerini ve finansal raporları analiz ederek finansal riskleri değerlendirebilir. 
  • Benzersiz finansal geçmişinize ve hedeflerinize göre kişiselleştirilmiş önerilerde bulunabilir.  
  Müşteri hizmetlerinde LLM'ler:
  • Konuşma aracıları ve sohbet botları aracılığıyla otomatik müşteri desteği verebilir. 
  • Müşterilere tüm gün destek sağlayarak kuruluşun hizmet kapsamını genişletebilir.
  • Sık sorulan soruları temel alan içerikler oluşturarak, belgeleri oluşturma ve güncelleştirme konusunda yardımcı olabilir.  

Zorluklar

LLM'ler çok önemli avantajlar sunarken, dikkate alınması gereken zorlukları da vardır.

Bilgisayar ve enerji gereksinimleri

LLM'ler güçlü olsa da, çalışmaları için önemli miktarda bilgisayar kaynağı, depolama ve enerji tüketimi gerekir. Eğitim sırasında dönüştürücüler giriş dizisinin uzunluğuna göre ölçeklendirildiğinden, metin ne kadar uzunsa o kadar fazla belleğe ihtiyacınız olur. Bu talepler hem pahalıdır hem de çevreye önemli miktarda karbon yayılmasına neden olur.
Bulut bilişim platformları esnek, ölçeklenebilir bir altyapı sağlayarak LLM'lerin ağır bilgisayar yükünü destekleyebilir ve kendi modellerini geliştirmeye başlayacak kuruluşlar için LLM'yi daha erişilebilir hale getirir. Yine de, LLM'lerin çevre üzerindeki etkisi bir zorluk oluşturur ve enerji açısından daha verimli modeller ve tekniklere ihtiyaç duyulduğunun bir göstergesidir.

Etik kaygılar (örneğin sapma, yanlış bilgilendirme)

LLM'ler ancak eğitildikleri veriler kadar iyidir. Eğitim verilerinde belirli gruplara karşı ayrımcı sapmalar varsa model de bu tutumları vurgular. Modelin adil kalması için bu sapmaları belirlemek ve ortadan kaldırmak, insanlar tarafından sık ve tutarlı bir şekilde izlenmesini gerektiren sürekli bir görevdir.
Ayrıca LLM'ler ilgi çekici ancak olgusal olarak yanıltıcı bilgiler üretebilir ve sonuç olarak yanlış bilgilerin, sahte haberlerin, kimlik avı e-postalarının ve diğer zararlı içerik biçimlerinin yayılmasına neden olabilir. İçerik moderasyonu yönergeleri de bölgeler arasında değişiklik gösterebilir ve bu da bunlar arasında yolu bulmayı zorlaştırır. Sonuç olarak, birçok kuruluş operasyonlarına LLM'leri dahil ederken kullanıcılarında güven oluşturmakta ve bu güveni sürdürmekte zorlanabilir.

Bağlamı ve nüansı anlama sınırlamaları

LLM'ler dildeki desenleri tanımlamada sivrilse de, daha incelikli bir anlama gerektiren yeni veya bilinmeyen bağlamlarda yine de sorun yaşayabilir. Sonuç olarak, hassas ve özel verilerle eğitilen LLM'ler, eğitim verilerinden yanlışlıkla gizli bilgiler üretebilir veya gizli bilgileri açığa çıkarabilir. 
Özellikle LLM'lerle yapılan şirket içi çalışmalarda genellikle saydamlık olmadığından, bu sorunu gidermek ciddi ölçüde zor olabilir. Bu durum genel olarak hesap verilebilirlik konusundaki eksikliğe, ayrıca güven oluşturma sorunlarına katkıda bulunabilir. 

Türler ve kullanım durumları

GPT serisi

İlk olarak OpenAI tarafından 2018'de geliştirilen GPT serisi, LLM'ler için veri toplama, ön eğitim ve ince ayar temel kavramlarını ortaya koydu. 2019'da kullanıma sunulan GPT-2, modelin özelliklerinin kapsamını önemli ölçüde genişletti ve bağlamsal olarak daha ilgili bir dil oluşturma becerisini geliştirdi. GPT-3, modelin karmaşık istemleri ve görevleri işleme kapasitesini ilerletti. En son sürüm olan GPT-4 2023'te kullanıma sunuldu. GPT-4 istemlere daha da doğru ve incelikli yanıtlar sağladığı gibi, modelin sapma gibi önceki zorluklarından bazılarına da çözüm getiriyor. 
Günümüzde GPT, doğal dil oluşturma alanında mümkün olanın sınırlarını zorlamaya devam ediyor. Serideki her model önceki modelin üstüne yapılandırılmış ve yapay zeka destekli yenilikleri ileri taşıyor. 

BERT ve çeşitlemeleri

Google tarafından 2018'de geliştirilen BERT, LLM'lerle yapılması mümkün olan her şey için standardı belirleyen çığır açıcı bir modeldir. Metni tek yönlü olarak (soldan sağa veya sağdan sola) işleten GPT serisinden farklı olarak, BERT çift yönlü bir yaklaşım benimser. Çift yönlü model her sözcüğün bağlamını her iki yönden de aynı anda işler ve bu da BERT'nin sonraki cümle tahminlerinin yanı sıra maskelenmiş dil modellemesi de gerçekleştirmesini sağlar. Araştırmacılar ayrıca yaklaşım analizi gibi görevlerde BERT'de ince ayarlamalar yaparak bu alanda daha fazla ilerleme kaydedilmesine katkıda bulunmuş ve sonuç olarak yeni standartlar belirlemiştir.  

Diğer önemli modeller

Facebook AI tarafından 2019'da geliştirilen, güçlü bir şekilde iyileştirilmiş BERT yaklaşımı (RoBERTa), ön eğitim sürecini iyileştirerek BERT'nin çift yönlü dönüştürücü mimarisinin kapsamını genişleten bir BERT modeli çeşitlemesidir. RoBERTa daha büyük bir veri kümesiyle ve daha uzun süre eğitilir. Ayrıca, yalnızca maskelenmiş dil modellemesine odaklanır. Bu sayede RoBERTa güçlü bağlamı ve incelikleri yakalama becerisini ortaya koyabilir. 
Google Research tarafından geliştirilen Metinden Metne Aktarım Dönüştürücüsü (T5) bir diğer dikkat çekici LLM'dir. Geleneksel modeller gibi T5 de dönüştürücü mimarisi üzerine yapılandırılmıştır ve ön eğitim aşamasında metni işlemek için kodlayıcıları ve kod çözücüleri kullanır. Geleneksel modellerden farklı olarak, T5 hem girişleri hem de çıkışları metin dizesi olarak kabul eder ve bu yaklaşım hem mimariyi hem de eğitim sürecini basitleştirir. T5 modelleri, çok yönlü bir görev yelpazesini işleyebilen, uyarlanabilir genel amaçlı modellerdir.

İçerik oluşturma ve özetleme

LLM'ler çeşitli stil ve biçimlerde ilgi çekici, bilgilendirici ve bağlamsal olarak uygun içerikler oluşturabilir. İstendiğinde makaleler, raporlar, blog gönderileri, e-postalar, pazarlama kopyası ve hatta kod parçacıkları bile oluşturabilirler.   
Özetler söz konusu olduğunda, LLM'ler büyük hacimli metinleri kısa ve doğru özetlere dönüştürmelerini sağlayan benzersiz özellikleriyle öne çıkar. Ana noktaları ortaya koyarken özgün içeriğin özgün bağlamını ve anlamını da koruyabilirler. Araştırmacılar şimdiden araştırmaları, makaleleri, sunuları ve toplantı notlarını özetlemek için LLM'leri kullanarak zaman kazanmaya ve üretkenliği artırmaya başlamıştır.

Konuşma aracıları ve sohbet botları

Konuşma aracıları ve sohbet botları, insan benzeri etkileşimler oluşturmak için LLM'lerin gelişmiş doğal dil işleme özelliklerine güvenir. Bunlar kullanıcı girişlerini yorumlar ve akıcı, doğal ve bağlamsal olarak ilgili bir şekilde yanıtlar. Yalnızca soruları yanıtlamakla kalmaz, uzun ve karmaşık diyaloglara da katılabilir. 
Sohbet botları ve sanal yardımcıların eklenmesiyle, işletmeler artık müşterilerine 24 saat destek sağlayabilir ve dolayısıyla hizmet kullanılabilirliğini genişletebilir, yanıt sürelerini geliştirebilir ve genel müşteri memnuniyetini artırabilir.

Dil çevirisi ve yaklaşım analizi

Çok dilli veri kümelerinde yoğun olarak eğitilen LLM'ler, çeşitli diller arasında yüksek doğruluk oranına sahip çeviriler üretir. Geleneksel modellerden farklı olarak, LLM'ler dilin deyimsel ifadeler gibi inceliklerini ve karmaşıklıklarını yakalayabildiğinden sonuçta hem akıcı hem de bağlamsal olarak uygun çeviriler elde edilir. 
LLM'ler ayrıca bir metnin temel duygusal tonunu analiz eden yaklaşım analizi de yapabilir. LLM'ler dilin inceliklerini işleyerek ve yorumlayarak daha hassas ve içgörülü yaklaşım değerlendirmeleri sağlar. Hatta iğneleme gibi daha incelikli yaklaşımları bile algılayabilir. 

Kişiselleştirilmiş öneriler

LLM'ler kullanıcı geçmişi ve tercihleri de dahil olmak üzere kullanıcı verilerini analiz edebilir, kullanıcının ilgi alanlarını ve ihtiyaçlarını yansıtan kişiselleştirilmiş ve uyarlanmış öneriler üretebilir; dolayısıyla genel olarak kullanıcı deneyimini iyileştirir. 
Bu özellik, özel öneriler sunmanın daha anlamlı etkileşimler sağladığı e-ticaret, içerik akışı ve sosyal medya alanlarında yaygın olarak kullanılır. LLM'ler, öğrencilere kişiselleştirilmiş öğrenme deneyimleri sağlayabildiğinden eğitim aracı olarak da kullanılabilir.

Sırada ne var?

Araştırmacılar anlamayı, verimliliği ve ölçeklenebilirliği geliştirmeye devam ettikçe, LLM'lerin karmaşık dil görevlerini yerine getirme yatkınlığının daha da artması bekleniyor. LLM'lerin benimsenmesi arttıkça giderek daha fazla kuruluş genel olarak kolaylaştırılmış otomasyon, daha fazla kişiselleştirme ve daha iyi karar alma süreçleriyle karşılaşacak. 
Araştırmacılar devam eden sapma sorununu çözmenin yeni yollarını bulmaya devam ediyor. Bunlar eğitim sırasında sapmanın üstesinden gelen sapmayı giderme algoritmalarını, veri kümelerini eşitliği yansıtacak şekilde yeniden dengeleyebilecek yapay verileri dahil etmeyi, model kararlarını daha iyi anlamak için açıklanabilirlik araçlarını ve sapmayı daha kesin bir şekilde tanımlamaya ve hesaplamaya yardımcı olan algılama karşılaştırmalarını içeriyor. 
Metin, görüntü, ses ve video verilerini işleyen çok modüllü modeller de giderek daha karmaşık hale geliyor. LLM'ler söz dizimini ve anlamını değerlendirerek metin verilerini işlerken, çok modlu modeller görüntü işleme teknikleriyle görsel verileri ve zamansal işleme yoluyla ses verilerini analiz ediyor. Önde Gelen Çok Modlu modeller bir yandan günümüz teknolojilerini geliştirirken diğer yandan da yarının yenilikleri için yolu açıyor.
KAYNAKLAR

Azure Yapay Zeka hakkında daha fazla bilgi edinin

Bilgisayarın önünde oturan bir kişi
Kaynaklar

Öğrenci geliştirici kaynakları

Kariyerinize hızlı bir başlangıç ​​yapmanıza yardımcı olacak öğrenme materyallerinden ve programlardan yararlanın.
Bir çemberde oturan bir grup kişi
Kaynaklar

Azure kaynakları

Öğreticiler, teknik incelemeler ve kod örnekleri de dahil olmak üzere ihtiyacınız olan tüm Azure kaynaklarına erişin.
Bilgisayara gülümseyen bir kişi
Kaynaklar

Azure öğrenim merkezi

Rolünüze veya belirli teknolojilere göre özelleştirilmiş eğitimlerle yapay zeka becerilerinizi geliştirin.
SSS

Sık Sorulan Sorular

  • LLM, büyük dil modelinin kısaltmasıdır.
  • Yapay zeka, dilin çok ötesinde geniş bir uygulama yelpazesini kapsayan geniş bir alandır. İnsan zekasını kopyalamayı hedefleyen tüm teknolojileri içerir. Belirli bir yapay zeka modeli türü olan LLM'ler, daha geniş yapay zeka ortamının bir alt kümesidir ve doğal dilde metin işlemeye ve üretmeye odaklanır.
  • Doğal dil işleme (NLP), dili işlemeye odaklanan kapsamlı bir alanı ifade ederken, büyük dil modelleri (LLM) NLP alanının içinde dil görevlerini yerine getirmek için derin öğrenme tekniklerini kullanan belirli, ileri düzey bir model türüdür.
  • Önceden eğitilmiş üretken dönüştürücü (GPT), OpenAI tarafından geliştirilen belirli bir dizi büyük dil modelini (LLM) ifade eder. Bu, özel olarak dil üretmeye odaklanan bir LLM türüdür.