Apa itu model bahasa besar (LLM)?

Dapatkan gambaran umum tentang cara kerja LLM, dan jelajahi cara penggunaannya untuk membangun solusi yang didukung AI.

Jelajahi katalog model Azure Mulai menggunakan Azure

Definisi LLM

Model bahasa besar (LLM) adalah sistem AI tingkat lanjut yang memahami dan menghasilkan bahasa alami, atau teks mirip manusia, menggunakan data yang telah dilatih melalui teknik pembelajaran mesin. LLM dapat secara otomatis menghasilkan konten berbasis teks, yang dapat diterapkan pada berbagai kasus penggunaan di seluruh industri. Hal ini akan menghasilkan efisiensi dan penghematan biaya yang lebih besar bagi organisasi di seluruh dunia.

Poin utama

LLM adalah sistem AI tingkat lanjut yang dapat memahami dan menghasilkan bahasa alami.
LLM mengandalkan arsitektur pembelajaran mendalam dan teknik pembelajaran mesin untuk memproses dan menggabungkan informasi dari berbagai sumber data.
LLM menghadirkan manfaat besar, seperti pembuatan dan penerjemahan bahasa, ke berbagai bidang.
Meskipun revolusioner, LLM menghadapi tantangan yang mungkin mencakup persyaratan komputasi, masalah etika, dan keterbatasan dalam memahami konteks.
Meskipun dihadapkan dengan tantangan ini, berbagai organisasi sudah menggunakan seri Generative Pretrained Transformers (GPT) dan representasi encoder dwiarah dari transformer (BERT) untuk tugas seperti pembuatan konten, bot obrolan, penerjemahan, dan analisis sentimen.

Cara kerja LLM

Riwayat singkat LLM

LLM merupakan hasil pengembangan terbaru, tetapi studi pemrosesan bahasa alami (NLP) sudah dimulai pada tahun 1950 saat Alan Turing meluncurkan pengujian Turing untuk mengukur perilaku cerdas di antara mesin. Dalam pengujian tersebut, seorang juri manusia berbicara kepada komputer menggunakan serangkaian pertanyaan, dan harus menentukan apakah mereka berbicara kepada mesin atau manusia.

Pada tahun 1980-an dan 1990-an, NLP bergeser dari eksperimen logika menuju pendekatan yang lebih berbasis data. Dengan kemampuannya untuk memprediksi kata mana dalam kalimat yang mungkin muncul berikutnya berdasarkan kata sebelumnya, model bahasa statistik, seperti n-gram, hal ini telah membuka jalan bagi era baru. Pada awal tahun 2010-an, jaringan neural yang lebih baru memperluas kemampuan model bahasa ini lebih jauh lagi, yang memungkinkannya bukan sekadar menentukan urutan kata, tetapi juga melakukan pemahaman yang lebih dalam tentang representasi dan makna kata.

Puncak perkembangan baru ini menghadirkan terobosan pada tahun 2018, ketika delapan ilmuwan Google menulis dan menerbitkan “Attention is All You Need,” sebuah studi penting tentang pembelajaran mesin. Hal terpenting dalam studi tersebut, makalah memperkenalkan arsitektur transformer, kerangka kerja jaringan neural inovatif yang dapat mengelola dan memahami informasi tekstual yang kompleks dengan akurasi dan skala yang lebih besar. Transformer kini menjadi dasar bagi beberapa LLM tercanggih saat ini, termasuk seri GPT dan juga BERT.

Arsitektur dasar

LLM canggih saat ini menggunakan arsitektur pembelajaran mendalam seperti transformer dan kerangka kerja jaringan neural dalam lainnya untuk memproses informasi dari berbagai sumber data. Transformer sangat efektif dalam menangani data berurutan, seperti teks, yang memungkinkannya memahami dan menghasilkan bahasa alami untuk tugas seperti pembuatan dan penerjemahan bahasa.

Transformer terdiri dari dua komponen utama: encoder dan decoder. Komponen ini sering bekerja sama untuk memproses dan menghasilkan rangkaian. Encoder mengambil data tekstual mentah dan mengubah input tersebut menjadi elemen diskret yang dapat dianalisis oleh model. Dekoder kemudian memproses data tersebut melalui serangkaian lapisan untuk menghasilkan output akhir, misalnya berupa kalimat yang dihasilkan. Transformer juga dapat terdiri dari encoder atau decoder saja, tergantung pada tipe model atau tugas.

Proses pelatihan

Proses pelatihan untuk LLM terdiri dari tiga tahap utama: pengumpulan data, pelatihan model, dan penyesuaian.

Selama fase pengumpulan data, model dipaparkan ke data tekstual bervolume besar dari berbagai sumber, termasuk sumber daya internet, buku, artikel, dan database. Data juga dibersihkan, diproses, distandarkan, dan disimpan dalam database NoSQL sehingga dapat digunakan untuk melatih model pada pola bahasa, tata bahasa, informasi, dan konteks.

Pada fase pra-pelatihan, model mulai membangun pemahaman bahasa dalam data. Hal ini dicapai melalui tugas berskala besar dan tanpa pengawasan dengan model belajar memprediksi teks berdasarkan konteksnya. Beberapa teknik meliputi pemodelan autoregresif, yaitu model belajar memprediksi kata berikutnya dalam suatu rangkaian, serta pemodelan bahasa yang disamarkan, dengan model mengisi kata yang disamarkan untuk memahami konteks.

Terakhir, selama fase penyesuaian, model dilatih lebih lanjut pada himpunan data yang lebih kecil dan lebih spesifik untuk tugas tertentu. Proses ini menyempurnakan pengetahuan model dan meningkatkan kinerjanya untuk tugas tertentu, seperti analisis sentimen atau penerjemahan sehingga dapat digunakan untuk berbagai aplikasi.

Komponen utama

Model transformer memecah teks mentah menjadi unit teks dasar yang lebih kecil yang disebut token. Token dapat terdiri atas kata, bagian kata, atau bahkan karakter individual, tergantung pada kasus penggunaan. Token ini kemudian diubah menjadi representasi numerik padat yang menangkap tatanan, makna semantik, dan konteks. Representasi ini (yang disebut penyematan) kemudian diteruskan melalui tumpukan lapisan yang terdiri dari dua sub-lapisan: perhatian mandiri dan jaringan neural.

Sementara kedua lapisan membantu mengubah teks ke dalam bentuk yang dapat diproses model secara efektif, mekanisme perhatian mandiri merupakan komponen kunci pada arsitektur transformer. Mekanisme perhatian mandiri inilah yang memungkinkan model untuk berfokus pada bagian yang berbeda dari rangkaian teks dan secara dinamis mempertimbangkan nilai informasi relatif terhadap token lain dalam rangkaian tersebut, terlepas dari posisinya. Mekanisme ini juga yang memberi LLM kapasitas untuk menangkap dependensi rumit, hubungan, dan nuansa kontekstual dalam bahasa tulis.

Keuntungan dan tantangan

Keuntungan

LLM menawarkan banyak manfaat yang telah berkontribusi pada kemajuan besar dalam pekerjaan dan masyarakat.

Terjemahan dan pembuatan bahasa yang ditingkatkan

Karena LLM dapat memahami dan menangkap hubungan bernuansa antara kata-kata, LLM unggul dalam menghasilkan teks alami dan mirip manusia, yang menghasilkan peningkatan generasi bahasa. LLM dapat dengan lancar dan konsisten menghasilkan respons yang kreatif dan sesuai konteks, dan dapat melakukannya dalam berbagai format, termasuk novel.

Karena mereka dapat memahami konteks dan menemukan mengerti makna, LLM yang dilatih pada data multibahasa juga dapat melakukan penerjemahan yang sangat akurat. Melatih model pada serangkaian bahasa tertentu dapat membantu LLM menyempurnakan kemampuan dalam menangani idiom, ekspresi, dan fitur linguistik kompleks lainnya sehingga LLM dapat menghasilkan terjemahan yang terasa alami dan lancar.

Penggunaan di berbagai bidang

LLM adalah alat serbaguna yang memiliki banyak penggunaan di banyak bidang, termasuk perawatan kesehatan, keuangan, dan layanan pelanggan.

Dalam layanan kesehatan, LLM dapat:

Menganalisis laporan pasien untuk mengetahui kondisi dan memberikan diagnosis awal.

Membuat catatan pasien dan ringkasan pemulangan pasien, yang dapat menyederhanakan tugas administratif.

Menyarankan rencana perawatan yang dipersonalisasi dan perawatan medis berdasarkan riwayat pasien.

Di sektor keuangan, LLM dapat:

Mengidentifikasi aktivitas tidak biasa pada data keuangan yang mungkin mengarah pada penipuan.

Menilai risiko keuangan dengan menganalisis tren pasar dan laporan keuangan.

Menyarankan rekomendasi yang dipersonalisasi berdasarkan riwayat dan tujuan keuangan unik Anda.

Dalam layanan pelanggan, LLM dapat:

Menghadirkan dukungan pelanggan otomatis melalui agen percakapan dan bot obrolan.

Memperluas cakupan layanan organisasi dengan menyediakan dukungan sepanjang hari kepada pelanggan.

Membantu membuat dan memperbarui dokumentasi dengan membuat konten berdasarkan pertanyaan umum.

Tantangan

LLM menawarkan manfaat yang krusial, tetapi juga disertai tantangan yang perlu dipertimbangkan.

Persyaratan komputasi dan energi

Meskipun sangat canggih, LLM memerlukan sumber daya komputasi, penyimpanan, dan konsumsi energi untuk beroperasi dalam jumlah yang besar. Selama pelatihan, transformer akan diskalakan seiring dengan panjangnya rangkaian input. Jadi, semakin panjang teksnya, semakin banyak memori yang Anda perlukan. Tuntutan ini bukan hanya mahal, tetapi juga menghasilkan karbon ke lingkungan dalam jumlah besar.

Platform komputasi cloud dapat mendukung beban komputasi LLM yang besar dengan menyediakan infrastruktur yang fleksibel dan scalable sehingga lebih mudah diakses oleh organisasi untuk mulai mengembangkan model mereka sendiri. Namun, dampak lingkungan dari LLM menghadirkan tantangan dan menunjukkan perlunya model dan teknik yang lebih hemat energi.

Kekhawatiran etika (misalnya bias dan mis-informasi)

Ketangkasan LLM bergantung pada data yang digunakan untuk melatihnya. Jika ada bias diskriminatif terhadap kelompok tertentu dalam data pelatihan, model akan menyoroti sikap tersebut. Mengidentifikasi dan memitigasi bias ini sehingga model tetap adil merupakan tugas yang berkelanjutan, yang memerlukan pemantauan manusia secara rutin dan konsisten.

LLM juga dapat menghasilkan informasi yang meyakinkan, tetapi menyesatkan. Ini dapat menyebabkan tersebarnya mis-informasi, berita palsu, email pengelabuan, dan bentuk konten berbahaya lainnya. Panduan moderasi konten juga dapat bervariasi di setiap wilayah, yang membuatnya sulit untuk dijangkau. Akibatnya, banyak organisasi mungkin merasa kesulitan untuk membangun dan mempertahankan kepercayaan pada penggunanya saat memperkenalkan LLM ke operasi bisnis mereka.

Batasan dalam memahami konteks dan nuansa

Meskipun unggul dalam mengidentifikasi pola dalam bahasa, LLM masih dapat menemui kesulitan pada konteks baru atau tidak dikenal yang memerlukan pemahaman yang lebih bernuansa. Akibatnya, LLM yang dilatih pada data sensitif dan berhak milik mungkin secara tidak sengaja menghasilkan atau mengungkapkan informasi rahasia dari data pelatihannya.

Menangani masalah ini dapat menghasilkan tantangan besar, terutama karena cara kerja internal LLM sering kali kurang transparan. Hal ini dapat menyebabkan kurangnya akuntabilitas secara keseluruhan, serta masalah dalam membangun kepercayaan.

Tipe dan kasus penggunaan

Seri GPT

Pertama kali dikembangkan oleh OpenAI pada tahun 2018, seri GPT memperkenalkan konsep dasar pengumpulan data, prapelatihan, dan penyempurnaan pada LLM. GPT-2, yang dirilis pada tahun 2019, secara signifikan meningkatkan kemampuan model dan kemampuannya untuk menghasilkan bahasa yang lebih relevan secara kontekstual. GPT-3 meningkatkan kapasitas model dalam menangani perintah dan tugas yang kompleks. Iterasi terbaru, GPT-4, dirilis pada tahun 2023 dan memberikan respons yang lebih akurat dan bernuansa terhadap permintaan, sambil mengatasi beberapa tantangan model sebelumnya, termasuk bias.

Saat ini, GPT terus mendorong batasan dari apa yang mungkin dilakukan dalam bidang pembuatan bahasa alami. Setiap model dalam seri ini dibangun berdasarkan model sebelumnya, yang meningkatkan inovasi yang didukung AI.

BERT dan variannya

Dikembangkan oleh Google pada tahun 2018, BERT adalah model terobosan yang telah menetapkan standar untuk apa yang mungkin dilakukan dengan LLM. Tidak seperti seri GPT, yang memproses teks secara satu arah (dari kiri ke kanan atau kanan ke kiri), BERT mengambil pendekatan dua arah. Model dwiarah memproses konteks setiap kata dari kedua arah secara bersamaan, yang memungkinkan BERT untuk melakukan pemodelan bahasa yang disamarkan selain memprediksi kalimat berikutnya. Para peneliti juga berkontribusi terhadap kemajuan lebih lanjut di bidang ini dengan menyempurnakan BERT pada tugas seperti analisis sentimen, yang hasilnya menghadirkan tolok ukur yang baru.

Model terkenal lainnya

Dikembangkan oleh Facebook AI pada tahun 2019, pendekatan BERT yang dioptimalkan secara kuat (RoBERTa) adalah varian dari model BERT yang memperluas arsitektur transformer dua arah BERT dengan mengoptimalkan proses pra-pelatihan. RoBERTa dilatih dengan himpunan data yang lebih besar, dan dalam waktu yang lebih lama. Hal ini juga berfokus hanya pada pemodelan bahasa yang disamarkan. Ini memungkinkan RoBERTa menunjukkan kemampuannya yang kuat dalam menangkap konteks dan nuansa.

Text-to-Text Transfer Transformer (T5), yang ditemukan oleh Google Research, adalah LLM terkenal lainnya. Seperti model tradisional, T5 dibangun di atas arsitektur transformer dan menggunakan encoder dan decoder untuk memproses teks selama fase prapelatihan. Tidak seperti model tradisional, T5 memperlakukan input dan output sebagai string teks, menyederhanakan arsitektur dan menyederhanakan proses pelatihan. Model T5 merupakan model serbaguna yang dapat beradaptasi dan menangani berbagai macam tugas.

Pembuatan dan ringkasan konten

LLM dapat menghasilkan konten yang menarik, informatif, dan sesuai konteks dalam berbagai gaya dan format. Jika diminta, LLM dapat membuat artikel, laporan, posting blog, email, teks pemasaran, dan bahkan cuplikan kode.

Dalam hal ringkasan, LLM unggul karena kemampuannya yang unik untuk menyaring teks dalam jumlah besar menjadi snapshot yang ringkas dan akurat. LLM dapat menyampaikan poin-poin utama sambil tetap mempertahankan konteks dan makna asli dari konten aslinya. Para peneliti berhasil menghemat waktu dan meningkatkan produktivitas dengan menggunakan LLM untuk meringkas makalah penelitian, artikel, presentasi, dan catatan rapat.

Agen percakapan dan bot obrolan

Agen percakapan dan bot obrolan mengandalkan kemampuan pemrosesan bahasa alami yang canggih dari LLM untuk menghasilkan interaksi mirip manusia. Hal tersebut menginterpretasikan input pengguna dan merespons dengan cara yang lancar, alami, dan relevan secara kontekstual. Keduanya tidak hanya dapat menjawab pertanyaan, tetapi juga dapat terlibat dalam dialog yang panjang dan rumit.

Dengan penambahan bot obrolan dan asisten virtual, bisnis kini dapat menyediakan dukungan sepanjang hari kepada pelanggan mereka, yang nantinya akan memperluas ketersediaan layanan, meningkatkan waktu respons, dan menaikkan kepuasan pelanggan secara keseluruhan.

Terjemahan bahasa dan analisis sentimen

LLM yang dilatih secara ekstensif pada himpunan data multibahasa dapat menghasilkan terjemahan yang sangat akurat dalam berbagai bahasa. Tidak seperti model tradisional, LLM dapat menangkap detail kecil dan kompleksitas bahasa, seperti ungkapan idiomatik, yang menghasilkan terjemahan yang fasih dan sesuai konteks.

LLM juga dapat melakukan analisis sentimen, yang menganalisis nada emosional yang mendasari suatu teks. Dengan memproses dan memberikan detail kecil bahasa, LLM memberikan evaluasi sentimen yang lebih tepat dan mendalam. LLM bahkan dapat mendeteksi sentimen yang lebih bernuansa, seperti sarkasme.

Rekomendasi yang dipersonalisasi

LLM dapat menganalisis data pengguna, termasuk riwayat dan preferensi pengguna, dan menghasilkan rekomendasi yang dipersonalisasi dan disesuaikan yang mencerminkan minat dan kebutuhan pengguna, yang nantinya akan meningkatkan pengalaman pengguna secara keseluruhan.

Kemampuan ini digunakan secara luas di seluruh e-niaga, streaming konten, dan media sosial, dengan rekomendasi yang disesuaikan akan mendorong interaksi yang lebih bermakna. LLM juga dapat digunakan sebagai alat pendidikan dengan memberikan pengalaman pembelajaran yang dipersonalisasi kepada siswa.

Apa selanjutnya

Seiring peneliti terus meningkatkan pemahaman, efisiensi, dan skalabilitasnya, LLM diharapkan menjadi lebih mahir dalam menangani tugas bahasa yang kompleks. Dengan meningkatnya adopsi LLM, semakin banyak organisasi akan mendapatkan otomatisasi yang efisien, personalisasi yang lebih besar, dan proses pengambilan keputusan yang lebih baik secara keseluruhan.

Para peneliti terus mengeksplorasi cara baru untuk mengatasi bias, yang merupakan masalah yang masih terjadi. Ini termasuk algoritma penghilangan bias yang akan mengatasi masalah bias selama pelatihan, menggabungkan data sintetis yang dapat menyeimbangkan kembali himpunan data untuk mencerminkan kewajaran, alat penjelasan untuk lebih memahami keputusan model, dan tolok ukur deteksi yang membantu mengidentifikasi dan mengukur bias secara lebih tepat.

Model multimodal, yang memproses data teks, gambar, audio, dan video, kini juga menjadi makin canggih. Sementara LLM memproses data tekstual dengan mengevaluasi sintaksis dan makna, model multimodal menganalisis data visual melalui teknik visi komputer, serta data audio melalui pemrosesan temporal. Model multimodal meningkatkan teknologi masa kini sekaligus membuka jalan bagi inovasi masa depan.

SUMBER DAYA

Pelajari selengkapnya tentang Azure AI

Sumber daya

Sumber daya pengembang siswa

Manfaatkan materi dan program pembelajaran yang akan membantu Anda memulai karier.

Pelajari selengkapnya

Sumber daya

Sumber daya Azure

Akses semua sumber daya Azure yang Anda perlukan, termasuk tutorial, laporan resmi, dan sampel kode.

Jelajahi sumber daya

Sumber daya

Hub pembelajaran Azure

Bangun keterampilan AI Anda dengan pelatihan yang disesuaikan dengan peran Anda atau teknologi tertentu.

Pelajari selengkapnya

FAQ

LLM adalah singkatan dari model bahasa besar.
AI merupakan bidang luas yang mencakup berbagai macam aplikasi, bukan hanya soal bahasa. Ini mencakup semua teknologi yang bertujuan untuk mereplikasi kecerdasan manusia. Sebagai tipe model AI yang spesifik, LLM merupakan bagian dari lanskap AI yang lebih luas, yang berfokus pada pemrosesan dan pembuatan teks bahasa alami.
Pemrosesan bahasa alami (NLP) merujuk pada bidang menyeluruh yang berfokus pada pemrosesan bahasa, sementara model bahasa besar (LLM) adalah jenis model khusus dan canggih dalam bidang NLP yang menggunakan teknik pembelajaran mendalam untuk menangani tugas bahasa.
Generative Pre-trained Transformer (GPT) merujuk pada serangkaian model bahasa besar (LLM) spesifik yang dikembangkan oleh OpenAI. Hal tersebut adalah tipe LLM, dengan fokus khusus pada pembuatan bahasa.

Dapatkan aplikasi seluler Azure

Apa itu model bahasa besar (LLM)?

Definisi LLM

Poin utama

Cara kerja LLM

Riwayat singkat LLM

Arsitektur dasar

Proses pelatihan

Komponen utama

Keuntungan dan tantangan

Keuntungan

Terjemahan dan pembuatan bahasa yang ditingkatkan

Penggunaan di berbagai bidang

Tantangan

Persyaratan komputasi dan energi

Kekhawatiran etika (misalnya bias dan mis-informasi)

Batasan dalam memahami konteks dan nuansa

Tipe dan kasus penggunaan

Seri GPT

BERT dan variannya

Model terkenal lainnya

Pembuatan dan ringkasan konten

Agen percakapan dan bot obrolan

Terjemahan bahasa dan analisis sentimen

Rekomendasi yang dipersonalisasi

Apa selanjutnya

Pelajari selengkapnya tentang Azure AI

Sumber daya pengembang siswa

Sumber daya Azure

Hub pembelajaran Azure

Tanya Jawab Umum

Apa fungsi LLM?

Apa perbedaan antara LLM dan AI?

Apa perbedaan antara NLP dan LLM?

Apa perbedaan antara GPT dan LLM?