Apa itu pembelajaran penguatan, dan bagaimana pengaruhnya terhadap sistem AI?
Pembelajaran mesin membantu komputer mempelajari pola dari informasi dari waktu ke waktu tanpa diprogram secara eksplisit. Fitur ini mendukung semuanya, mulai dari pemfilteran email hingga deteksi penipuan hingga penerjemahan berbantuan AI. Dalam bidang yang luas tersebut, pembelajaran penguatan adalah pendekatan khusus yang mengajarkan sistem untuk mengambil keputusan melalui pengalaman.
Jenis perulangan pembelajaran yang berbeda
Tidak seperti pembelajaran yang diawasi, yang menggunakan data berlabel, pembelajaran penguatan bekerja melalui percobaan dan kesalahan. Sistem—disebut agen—berinteraksi dengan lingkungannya, mengambil tindakan, dan menerima hadiah atau penalti. Seiring waktu, agen mempelajari tindakan mana yang memunculkan hasil lebih baik.
Perulangan umpan balik bekerja seperti ini:
- Agen mengambil tindakan.
- Lingkungan merespons.
- Agen mendapatkan hadiah atau penalti.
- Agen menyesuaikan strategi berdasarkan umpan balik ini.
Penyiapan ini sangat berguna saat jawaban yang benar tidak diketahui sebelumnya, tetapi keberhasilan dapat diukur dari hasil. Ini mencerminkan cara orang-orang belajar, yaitu dengan mencoba, mengamati hasil, dan menyesuaikan langkah berikutnya.
Cara pembelajaran penguatan mendukung sistem yang lebih cerdas
Pembelajaran penguatan ideal untuk sistem yang perlu membuat urutan keputusan saat setiap tindakan memengaruhi tindakan berikutnya. Metode ini sering digunakan dalam lingkungan dinamis saat melatih ulang model dari awal bukan tindakan praktis.
Aplikasi umum meliputi:
- Robotika: mengajar robot untuk berjalan, memahami, atau menavigasikan
- Bermain game: mengembangkan strategi kompetitif
- Otomatisasi industri: menyetel dan menyesuaikan sistem kontrol
- Rekomendasi konten: menyesuaikan berdasarkan perilaku pengguna
- Optimalisasi sumber daya: meningkatkan efisiensi di area seperti operasi pusat data
Dalam semua hal ini, pembelajaran penguatan membantu sistem menjadi lebih baik melalui pengalaman—bukan hanya data.
Langkah maju: Pembelajaran penguatan dari umpan balik manusia
Pembelajaran penguatan tradisional menggunakan hadiah yang ditentukan oleh teknisi. Namun, beberapa tujuan—seperti menulis penjelasan yang jelas atau selaras dengan norma sosial—sulit diukur. Di situlah pembelajaran penguatan dari umpan balik manusia (RLHF) muncul.
Apa itu RLHF? Dengan RLHF, peninjau manusia memberikan input melalui peringkat, preferensi, atau perbandingan. Umpan balik ini membantu mengarahkan model pada hasil yang lebih mencerminkan nilai dan ekspektasi manusia.
RLHF telah menjadi sangat penting dalam pelatihan
model bahasa besar (LLM) dan sistem generatif. Hal ini membantu memastikan hasil tidak hanya berfungsi, tetapi juga bermanfaat, sesuai, dan selaras dengan niat pengguna.