This is the Trace Id: 897bfa7398d3e6e4a7205d673cbab6e1
Lompati ke konten utama
Azure

Apa itu pembelajaran penguatan?

Temukan apa itu pembelajaran penguatan dan caranya membantu sistem AI beradaptasi dan menjadi lebih baik seiring waktu.

Gambaran umum pembelajaran penguatan

Pembelajaran penguatan adalah metode pembelajaran mesin yang membuat sistem belajar dengan berinteraksi dengan lingkungan, menerima umpan balik, dan menyesuaikan perilaku untuk meningkatkan pengambilan keputusan dari waktu ke waktu.

Poin utama

  • Pembelajaran penguatan melatih model melalui percobaan dan kesalahan, menggunakan hadiah untuk membentuk perilaku dari waktu ke waktu.
  • Metode ini sangat cocok untuk tugas yang melibatkan urutan keputusan, seperti robotika, gameplay, atau personalisasi.
  • Pembelajaran penguatan dari umpan balik manusia (RLHF) meningkatkan keselarasan model dengan menggunakan input manusia, bukan hanya sinyal otomatis.
  • RLHF membantu sistem menghasilkan respons yang lebih mencerminkan tujuan, nilai, atau preferensi manusia.
  • Kedua pendekatan tersebut terus berkembang karena pembelajaran mesin memainkan peran yang lebih besar dalam alat dan sistem berbantuan AI.

Pembelajaran penguatan ditentukan

Pembelajaran penguatan adalah pendekatan pembelajaran mesin yang membuat sistem belajar melalui pengalaman. Agen berinteraksi dengan lingkungan, mengambil tindakan, menerima umpan balik dalam bentuk hadiah atau penalti, dan menyesuaikan perilaku di masa mendatang untuk meningkatkan performa. Seiring waktu, agen mempelajari keputusan mana yang memunculkan hasil lebih baik, sehingga metode ini sangat berguna untuk tugas dinamis atau berurutan saat solusi optimal tidak diketahui sebelumnya. Metode ini digunakan di berbagai domain mulai dari robotika dan permainan hingga sistem rekomendasi dan moderasi konten.

Dasar-dasar pembelajaran penguatan

Apa itu pembelajaran penguatan, dan bagaimana pengaruhnya terhadap sistem AI?

Pembelajaran mesin membantu komputer mempelajari pola dari informasi dari waktu ke waktu tanpa diprogram secara eksplisit. Fitur ini mendukung semuanya, mulai dari pemfilteran email hingga deteksi penipuan hingga penerjemahan berbantuan AI. Dalam bidang yang luas tersebut, pembelajaran penguatan adalah pendekatan khusus yang mengajarkan sistem untuk mengambil keputusan melalui pengalaman.

Jenis perulangan pembelajaran yang berbeda

Tidak seperti pembelajaran yang diawasi, yang menggunakan data berlabel, pembelajaran penguatan bekerja melalui percobaan dan kesalahan. Sistem—disebut agen—berinteraksi dengan lingkungannya, mengambil tindakan, dan menerima hadiah atau penalti. Seiring waktu, agen mempelajari tindakan mana yang memunculkan hasil lebih baik.

Perulangan umpan balik bekerja seperti ini:
  • Agen mengambil tindakan.
  • Lingkungan merespons.
  • Agen mendapatkan hadiah atau penalti.
  • Agen menyesuaikan strategi berdasarkan umpan balik ini.
Penyiapan ini sangat berguna saat jawaban yang benar tidak diketahui sebelumnya, tetapi keberhasilan dapat diukur dari hasil. Ini mencerminkan cara orang-orang belajar, yaitu dengan mencoba, mengamati hasil, dan menyesuaikan langkah berikutnya.

Cara pembelajaran penguatan mendukung sistem yang lebih cerdas
Pembelajaran penguatan ideal untuk sistem yang perlu membuat urutan keputusan saat setiap tindakan memengaruhi tindakan berikutnya. Metode ini sering digunakan dalam lingkungan dinamis saat melatih ulang model dari awal bukan tindakan praktis.

Aplikasi umum meliputi:
 
  • Robotika: mengajar robot untuk berjalan, memahami, atau menavigasikan
  • Bermain game: mengembangkan strategi kompetitif
  • Otomatisasi industri: menyetel dan menyesuaikan sistem kontrol
  • Rekomendasi konten: menyesuaikan berdasarkan perilaku pengguna
  • Optimalisasi sumber daya: meningkatkan efisiensi di area seperti operasi pusat data

Dalam semua hal ini, pembelajaran penguatan membantu sistem menjadi lebih baik melalui pengalaman—bukan hanya data.

Langkah maju: Pembelajaran penguatan dari umpan balik manusia

Pembelajaran penguatan tradisional menggunakan hadiah yang ditentukan oleh teknisi. Namun, beberapa tujuan—seperti menulis penjelasan yang jelas atau selaras dengan norma sosial—sulit diukur. Di situlah pembelajaran penguatan dari umpan balik manusia (RLHF) muncul.

Apa itu RLHF? Dengan RLHF, peninjau manusia memberikan input melalui peringkat, preferensi, atau perbandingan. Umpan balik ini membantu mengarahkan model pada hasil yang lebih mencerminkan nilai dan ekspektasi manusia.

RLHF telah menjadi sangat penting dalam pelatihan model bahasa besar (LLM) dan sistem generatif. Hal ini membantu memastikan hasil tidak hanya berfungsi, tetapi juga bermanfaat, sesuai, dan selaras dengan niat pengguna.

Memahami kekuatan dan trade-off

Pembelajaran penguatan dan RLHF menawarkan manfaat nyata, terutama di lingkungan yang kompleks atau tidak dapat diprediksi. Namun, juga memunculkan tantangan baru. Pemahaman yang jelas tentang keduanya membantu tim memilih alat yang tepat untuk tugas yang dihadapi.

Manfaat
  • Adaptif dalam lingkungan yang tidak dapat diprediksi
    Banyak sistem di dunia nyata—robot, game, logistik—beroperasi dalam kondisi yang terus berubah. Pembelajaran penguatan membantu sistem ini beradaptasi dan meningkatkan seiring waktu.
  • Sistem yang lebih aman dan terkontrol
    Untuk bidang yang sangat bergantung pada keamanan seperti manufaktur atau kendaraan otonom, pembelajaran penguatan memungkinkan penyempurnaan bertahap. Ketika dipasangkan dengan umpan balik manusia, dapat meningkatkan perilaku yang lebih aman dan stabil.
  • Selaras dengan tujuan manusia
    RLHF melatih model untuk memprioritaskan yang dinilai penting oleh manusia—bukan hanya yang mudah diukur. Ini memunculkan hasil yang lebih bermakna di area seperti moderasi konten, percakapan chatbot, dan mesin rekomendasi.
Tantangan
  • Input manusia tidak dapat diskalakan dengan mudah
    Mengumpulkan umpan balik manusia terstruktur memerlukan waktu. Seiring semakin kompleksnya model dan tugas, hal ini menjadi lebih sulit dikelola.
  • Biaya dan kompleksitas tinggi
    RLHF menambahkan langkah ekstra ke proses pelatihan. Teams harus melatih model dasar, lalu menyempurnakannya dengan data manusia—memerlukan lebih banyak komputasi, koordinasi, dan evaluasi.
  • Sulit untuk distabilkan dan direproduksi
    Karena pembelajaran penguatan bergantung pada lingkungannya, perubahan kecil dapat menghasilkan hasil yang tidak dapat diprediksi. Mendapatkan performa yang konsisten memerlukan pengujian, penyesuaian, dan desain yang cermat.
Kasus penggunaan

Aplikasi di dunia nyata

Pembelajaran penguatan dan RLHF sudah digunakan dalam sistem yang perlu beradaptasi, mempersonalisasikan, atau merespons dengan nuansa.

AI Percakapan

Model bahasa besar—dan semakin sering, small language models (SLM)—menggunakan RLHF untuk menyempurnakan respons mereka terhadap pengguna. Peninjau manusia membantu membentuk nada, mengurangi bias, dan mengarahkan model ke jawaban yang bermanfaat serta relevan.

Robotika

Robot sering beroperasi dalam kondisi yang tidak terduga— di lantai pabrik, rumah, atau di lapangan. Pembelajaran penguatan membantu mereka menyesuaikan tindakan berdasarkan hasil, seperti belajar mengambil objek berbentuk tidak beraturan atau berjalan di permukaan yang tidak rata.

Rekomendasi dan personalisasi konten

Sistem ini berkembang berdasarkan perilaku pengguna. Pembelajaran penguatan memungkinkan feed konten, platform streaming, dan aplikasi pembelajaran beradaptasi dari waktu ke waktu sehingga meningkatkan relevansi. Input manusia juga dapat membantu mengarahkan rekomendasi ke konten yang beragam atau berkualitas tinggi.

Moderasi konten

Di area yang menganggap penting standar komunitas atau konteks sosial, RLHF membantu sistem mengambil keputusan yang lebih baik. Peringkat dan umpan balik manusia membantu model mempelajari apa yang sesuai, bahkan dalam kasus yang tidak jelas.

Bermain game

Game sering digunakan sebagai lingkungan pelatihan karena menawarkan aturan yang terstruktur dan tujuan yang terukur. Pembelajaran penguatan membantu agen mengembangkan strategi baru melalui permainan dan iterasi berulang, sering kali dalam simulasi sebelum beralih ke aplikasi di dunia nyata.

Pemodelan keuangan dan perdagangan

Model adaptif menggunakan pembelajaran penguatan untuk menjelajahi strategi pasar, mengelola portofolio, atau menguji skenario risiko. Sistem ini belajar dari lingkungan sintetis dan riwayat data, yang disempurnakan dari waktu ke waktu sambil tetap bertumpu pada metrik dunia nyata.

Mempersiapkan yang akan datang di AI

Pembelajaran mesin menjadi dasar banyak terobosan AI saat ini. Mulai dari visi komputer hingga model bahasa dan robotika, belajar dari data mendorong inovasi modern. Pembelajaran penguatan—dan khususnya RLHF—memainkan peran yang semakin berkembang dalam sistem yang belajar dari interaksi, bukan hanya instruksi.

Sistem yang lebih cerdas, dibangun berdasarkan pengalaman
Model pembelajaran penguatan berkembang melalui pengalaman, menjadikannya lebih cocok untuk tugas yang tidak pasti atau berurutan. Daripada belajar dari data tetap, model beradaptasi secara real time—meningkatkan hasil melalui beberapa langkah.

Karena sistem ini diterapkan ke domain yang lebih luas— termasuk AI multimodal yang menggabungkan teks, gambar, audio, atau video—umpan balik manusia menambah lapisan penting. Ini membantu mengarahkan keputusan yang tidak mudah diukur—seperti apakah chatbot memberikan jawaban yang memuaskan, atau apakah rekomendasi benar-benar membantu.

Fase berikutnya untuk RLHF
Seiring semakin banyak organisasi mengadopsi alat berbantuan AI, RLHF menjadi bagian inti dari pengembangan yang bertanggung jawab—terutama dalam aplikasi pemrosesan bahasa alami (NLP) di mana nada, konteks, dan relevansi penting. Namun, ini tidak mudah untuk diskalakan. Mengumpulkan input manusia yang bermanfaat mahal dan memakan waktu.

Untuk mengatasinya, peneliti sedang menjelajah:
  • Perulangan umpan balik yang lebih efisien, termasuk umpan balik sintetis yang meniru respons manusia.
  • Alat evaluasi yang lebih baik untuk mengukur seberapa selaras model dengan tujuan atau nilai.
  • Aplikasi lintas domain yang menggabungkan pembelajaran penguatan dengan bentuk pembelajaran mesin lainnya untuk sistem yang lebih fleksibel.
Minat untuk menggunakan RLHF demi meningkatkan transparansi dan akuntabilitas juga terus bertambah. Dengan memperkuat perilaku yang diinginkan melalui input manusia, tim mendapatkan kontrol lebih besar atas cara berkembang sistem AI.

Bidang yang terus berkembang
Reinforcement learning dan RLHF bukan solusi yang cocok untuk semua kebutuhan. Namun, keduanya sangat efektif saat digunakan untuk masalah yang tepat. Saat sistem AI menjadi semakin canggih—semakin penting dalam area seperti AI kognitif yang bertujuan meniru penalaran manusia—kebutuhan akan metode yang mendukung adaptasi, pengawasan, dan penyelarasan akan terus meningkat.

Bagi para pemimpin bisnis dan pengembang, memahami cara kerja teknik ini dapat menghasilkan penerapan AI yang lebih realistis dan matang. Pembelajaran penguatan tidak selalu menjadi jawaban—tetapi jika sesuai dengan masalah, pembelajaran ini membuka cara baru untuk membangun sistem yang belajar di dunia nyata.
Sumber daya

Pelajari selengkapnya tentang Azure

Seorang laki-laki tersenyum dan menatap kamera.
Sumber daya Azure

Jelajahi pusat sumber daya Azure

Akses video, laporan analis, pelatihan, studi kasus, sampel kode, dan arsitektur solusi.
Pelatihan dan sertifikasi

Jelajahi jalur pembelajaran Azure

Bangun keterampilan cloud untuk mendorong dampak—dari pengembangan diri hingga hasil bisnis yang lebih kuat.
Dua orang tersenyum sambil melihat tab.
Acara dan seminar web

Temukan acara dan pelatihan mendatang

Jelajahi inovasi baru, kembangkan keterampilan, dan terhubung dengan komunitas—secara virtual atau langsung.
FAQ

 Tanya jawab umum

  • Sistem AI biasanya belajar menggunakan salah satu dari tiga metode:

    Pembelajaran yang diawasi:
    Belajar dari data berlabel. Digunakan untuk tugas seperti pengenalan objek atau terjemahan.

    Pembelajaran yang tidak diawasi:
    Menemukan pola tanpa hasil berlabel. Digunakan untuk pengklusteran atau deteksi anomali.

    Pembelajaran penguatan:
    Mempelajari melalui interaksi dan umpan balik. Digunakan untuk pengambilan keputusan berurutan.
  • Pembelajaran penguatan membantu model mengambil keputusan melalui percobaan dan kesalahan. Ini dirancang untuk melatih sistem yang belajar dengan berinteraksi dengan lingkungannya, menyesuaikan perilakunya berdasarkan hadiah atau penalti dari waktu ke waktu. Ini berguna untuk tugas yang hasilnya bergantung pada serangkaian tindakan, bukan satu prediksi.
  • Pembelajaran penguatan dari umpan balik manusia (RLHF) adalah metode yang meningkatkan perilaku model menggunakan input manusia. RLHF adalah cara melatih model menggunakan preferensi, peringkat, atau perbandingan dari orang-orang, bukan hanya mengandalkan hadiah otomatis. Ini membantu mengarahkan sistem terhadap hasil yang lebih sesuai dengan tujuan atau nilai manusia—terutama di area seperti percakapan, pembuatan konten, atau moderasi.
  • Pembelajaran penguatan difokuskan pada pengambilan keputusan. Pembelajaran ini melatih model untuk mengambil tindakan di lingkungan dan belajar dari umpan balik. Dalam beberapa sistem, pembelajaran mendalam digunakan dalam pembelajaran penguatan untuk membantu model memproses input kompleks seperti gambar atau teks. Pembelajaran mendalam menggunakan jaringan neural berlapis untuk belajar dari sejumlah besar data dan sering diterapkan ke tugas seperti pengenalan gambar, pemrosesan ucapan, atau pembuatan teks.
  • Pembuatan retrieval-augmented generation (RAG) dan pembelajaran penguatan dari umpan balik manusia (RLHF) adalah dua cara berbeda untuk meningkatkan respons yang dihasilkan AI. RAG membantu model mengakses informasi eksternal—seperti dokumen atau database— saat menghasilkan output, sehingga respons lebih akurat dan terbaru. RLHF meningkatkan perilaku model dengan melatihnya berdasarkan preferensi atau umpan balik manusia, membantu model menghasilkan respons yang lebih berguna, sesuai, atau selaras dengan niat pengguna. RAG mendukung akurasi faktual; RLHF mendukung kualitas dan keselarasan.