Trace Id is missing
Lompat ke konten utama

Apa itu ilmu data?

Ilmu data adalah studi ilmiah multidisipliner data untuk tujuan mengekstrak data dan informasi penting demi mendapatkan wawasan yang dapat ditindaklanjuti.

Apa itu ilmuwan data?

Ilmuwan data memimpin proyek riset untuk mengekstrak informasi berharga dari big data dan terampil dalam teknologi, matematika, bisnis, dan komunikasi. Organisasi menggunakan informasi ini untuk membuat keputusan yang lebih baik, memecahkan masalah kompleks, dan meningkatkan operasi mereka. Dengan mengungkapkan wawasan yang dapat ditindaklanjuti yang tersembunyi dalam himpunan data besar, ilmuwan data dapat secara signifikan meningkatkan kemampuan perusahaannya untuk mencapai tujuan. Itulah alasan ilmuwan data sangat dibutuhkan dan bahkan dianggap "bintang rock" di dunia bisnis.

Definisi ilmu data

Ilmu data adalah studi ilmiah data untuk mendapatkan pengetahuan. Bidang ini menggabungkan beberapa disiplin ilmu untuk mengekstrak pengetahuan dari himpunan data besar untuk tujuan membuat keputusan dan prediksi yang tepat. Ilmuwan data, analis data, arsitek data, teknisi data, ahli statistik, administrator database, dan analis bisnis bekerja di bidang ilmu data.

Kebutuhan akan ilmu data berkembang pesat karena jumlah data meningkat secara eksponensial dan perusahaan sangat bergantung pada analitik untuk mendorong pendapatan dan inovasi. Misalnya, saat interaksi bisnis menjadi lebih digital, lebih banyak data dibuat, menyajikan peluang baru untuk memperoleh wawasan tentang cara mempersonalisasi pengalaman dengan lebih baik, meningkatkan layanan dan kepuasan pelanggan, mengembangkan produk yang baru dan disempurnakan, serta meningkatkan penjualan. Selain itu, dalam dunia bisnis dan bidang lainnya, ilmu data memiliki potensi untuk membantu menyelesaikan beberapa tantangan paling sulit di dunia.

Apa yang dilakukan oleh ilmuwan data?

Ilmuwan data mengumpulkan, menganalisis, dan menginterpretasikan big data untuk mengungkap pola dan wawasan, membuat prediksi, dan membuat rencana yang dapat ditindaklanjuti. Analitik big dataBig data dapat didefinisikan sebagai himpunan data yang memiliki variasi, volume, dan kecepatan yang lebih besar daripada metode manajemen data yang ditangani sebelumnya. Ilmuwan data mengerjakan berbagai jenis big data, termasuk:

  • Data terstruktur, yang biasanya tertata dalam baris dan kolom serta menyertakan kata dan angka seperti nama, tanggal, dan informasi kartu kredit. Misalnya, ilmuwan data dalam industri utilitas dapat menganalisis tabel pembangkit listrik dan data penggunaan untuk membantu mengurangi biaya dan mendeteksi pola yang dapat menyebabkan peralatan tidak berfungsi.
  • Data tidak terstruktur, yang tidak terorganisir dan menyertakan teks dalam file dokumen, media sosial dan data seluler, konten situs web, dan video. Misalnya, ilmuwan data di industri ritel mungkin menjawab pertanyaan terkait meningkatkan pengalaman pelanggan dengan menganalisis catatan pusat panggilan, email, survei, dan posting media sosial yang tidak terstruktur.

Selain itu, karakteristik himpunan data dapat dideskripsikan sebagai data kuantitatif, data numerik terstruktur, atau data kualitatif atau kategori, yang tidak ditunjukkan melalui nilai numerik dan dapat dikelompokkan berdasarkan kategori. Penting bagi ilmuwan data untuk mengetahui jenis data yang sedang mereka proses, karena secara langsung memengaruhi jenis analisis yang mereka lakukan dan jenis grafik yang dapat mereka gunakan untuk memvisualisasikan data.

Untuk mendapatkan pengetahuan dari semua tipe data ini, ilmuwan data menggunakan keterampilan mereka dalam:

  • Pemrograman komputer. Ilmuwan data menulis kueri menggunakan bahasa seperti Julia, R, atau Python untuk menarik data dari database perusahaan mereka. Python adalah bahasa pilihan bagi banyak ilmuwan data karena mudah dipelajari dan digunakan, bahkan untuk orang tanpa pengalaman pengodean, dan menawarkan modul ilmu data bawaan untuk analisis data.
  • Matematika, statistik, dan probabilitas. Ilmuwan data menggunakan keterampilan ini untuk menganalisis data, menguji hipotesis, dan membuat file model pembelajaran mesin yang dilatih oleh ilmuwan data untuk mengenali jenis pola tertentu. Ilmuwan data menggunakan model pembelajaran mesin terlatih untuk menemukan hubungan dalam data, membuat prediksi tentang data, dan mencari tahu solusi untuk masalah. Daripada membuat dan melatih model dari awal, ilmuwan data dapat memanfaatkan pembelajaran mesin otomatis untuk mengakses model pembelajaran mesin yang siap produksi.
  • Pengetahuan domain. Untuk mengolah data menjadi wawasan relevan dan bermakna yang mendorong hasil bisnis, ilmuwan data juga memerlukan pengetahuan domain tentang industri dan perusahaan tempat mereka bekerja. Berikut adalah beberapa contoh cara ilmuwan data menerapkan pengetahuan domain mereka untuk memecahkan masalah spesifik industri mereka.

Jenis proyek ilmu data

Jenis proyek ilmu data
Industri Jenis proyek ilmu data
Bisnis Pengembangan produk baru dan penyempurnaan produk
Rantai pasokan dan manajemen inventaris
Peningkatan layanan pelanggan
Rekomendasi produk untuk pelanggan e-niaga
Hiburan Memahami pola penggunaan konten media
Pengembangan konten berdasarkan data pasar target
Pengukuran performa konten
Rekomendasi yang disesuaikan berdasarkan preferensi pengguna
Keuangan dan perbankan Pencegahan penipuan dan pelanggaran keamanan lainnya
Manajemen risiko portofolio investasi
Asisten virtual untuk membantu menjawab pertanyaan pelanggan
Pemerintah Keputusan kebijakan
Pemantauan kepuasan konstituen
Deteksi penipuan, seperti klaim disabilitas sosial
Layanan Kesehatan Terapi obat berbasis bukti dan efektivitas biaya obat baru
Pelacakan wabah penyakit secara real-time
Pelacak yang dapat dipakai untuk meningkatkan perawatan pasien
Telekomunikasi Peningkatan layanan berdasarkan preferensi dan lokasi pengguna
Meminimalkan panggilan yang terputus dan masalah layanan lainnya
Utilitas Analisis meter cerdas untuk meningkatkan penggunaan utilitas dan kepuasan pelanggan
Manajemen aset dan tenaga kerja yang ditingkatkan

Ada keterampilan lain yang penting untuk menjawab pertanyaan "Apa yang dilakukan oleh ilmuwan data?" Mengomunikasikan hasil analisis mereka secara efektif kepada manajer, eksekutif, dan pemangku kepentingan lainnya adalah salah satu bagian terpenting dalam pekerjaan mereka. Ilmuwan data perlu membuat temuan mereka mudah dipahami oleh audiens non-teknis sehingga mereka dapat menggunakan wawasan untuk membuat keputusan yang tepat. Oleh karena itu, ilmuwan data harus terampil dalam:

  • Komunikasi, berbicara di depan publik, dan visualisasi data. Ilmuwan data yang hebat memiliki keterampilan komunikasi lisan yang kuat, termasuk keterampilan bercerita dan berbicara di depan publik. Dalam bidang ilmu data, gambar benar-benar bernilai ribuan kata. Menyajikan temuan ilmu data menggunakan grafik dan bagan memungkinkan audiens memahami data dengan cepat, hanya dalam waktu lima detik atau kurang. Untuk alasan itu, ilmuwan data yang sukses menganggap visualisasi data sama pentingnya dengan analisis.

Proses ilmu data

Ilmuwan data mengikuti proses serupa untuk menyelesaikan proyek mereka:

1. Menentukan masalah bisnis

Ilmuwan data bekerja dengan pemangku kepentingan untuk menentukan dengan jelas masalah yang ingin mereka atasi atau pertanyaan yang perlu mereka jawab, bersama dengan tujuan proyek dan persyaratan solusi.

2. Menentukan pendekatan analitik
Berdasarkan masalah bisnis tersebut, ilmuwan data memutuskan pendekatan analitik mana yang harus diikuti:

  • Deskriptif untuk informasi lebih lanjut tentang status saat ini.
  • Diagnostik untuk memahami apa yang terjadi dan alasannya.
  • Prediktif untuk memperkirakan apa yang akan terjadi.
  • Preskriptif untuk memahami cara mengatasi masalah.

3. Mendapatkan data

Ilmuwan data mengidentifikasi dan memperoleh data yang diperlukan untuk mencapai hasil yang diinginkan. Hal ini dapat melibatkan kueri database, mengekstrak informasi dari situs web (web scraping), atau mendapatkan data dari file. Data tersebut mungkin tersedia secara internal, atau tim mungkin perlu membeli data. Dalam beberapa kasus, organisasi mungkin perlu mengumpulkan data baru agar dapat menjalankan proyek dengan sukses.

4. Membersihkan data, juga dikenal dengan istilah scrubbing

Biasanya, langkah ini paling memakan waktu. Guna membuat himpunan data untuk pemodelan, ilmuwan data mengonversi semua data ke dalam format yang sama, menata data, menghapus apa yang tidak diperlukan, dan mengganti data yang hilang.

5. Menjelajahi data

Setelah data dibersihkan, ilmuwan data menjelajahi data dan menerapkan teknik analitik statistik untuk mengungkapkan hubungan antara fitur data dan hubungan statistik antara mereka dan nilai yang mereka prediksi (dikenal sebagai label). Label yang diprediksi dapat berupa nilai kuantitatif, seperti nilai keuangan sesuatu di masa mendatang, atau durasi penundaan penerbangan dalam hitungan menit.

Eksplorasi dan persiapan biasanya melibatkan banyak analisis dan visualisasi data interaktif yang biasanya menggunakan bahasa seperti Python dan R dalam alat dan lingkungan interaktif yang dirancang khusus untuk tugas ini. Skrip yang digunakan untuk menjelajahi data biasanya di-hosting di lingkungan khusus seperti Jupyter Notebooks. Alat ini memungkinkan ilmuwan data untuk menjelajahi data secara terprogram saat mendokumentasi dan berbagi wawasan yang mereka temukan.

6. Memodelkan data

Ilmuwan data menyusun dan melatih model preskriptif atau deskriptif, lalu menguji dan mengevaluasi model untuk memastikan model tersebut menjawab pertanyaan atau mengatasi masalah bisnis. Sederhananya, model adalah potongan kode yang mengambil input dan menghasilkan output. Membuat model pembelajaran mesin melibatkan pemilihan algoritma, menyediakannya dengan data, dan menyetel hyperparameter. Hyperparameter adalah parameter yang dapat disesuaikan yang memungkinkan ilmuwan data mengontrol proses pelatihan model. Misalnya, dengan jaringan neural, ilmuwan data memutuskan jumlah lapisan tersembunyi dan jumlah node di setiap lapisan. Penyetelan hyperparameter, juga disebut pengoptimalan hyperparameter, adalah proses menemukan konfigurasi hyperparameter yang menghasilkan kinerja terbaik.

Pertanyaan yang umum diajukan yaitu "Algoritma pembelajaran mesin mana yang harus saya gunakan?" Algoritma pembelajaran mesin mengubah himpunan data menjadi model. Algoritma yang dipilih ilmuwan data utamanya tergantung pada dua aspek berbeda dari skenario ilmu data:

  • Apa pertanyaan bisnis yang ingin dijawab ilmuwan data dengan belajar dari data sebelumnya?
  • Apa saja persyaratan skenario ilmu data, termasuk akurasi, waktu pelatihan, linearitas, jumlah parameter, dan jumlah fitur?

Untuk membantu menjawab pertanyaan tersebut, Azure Machine Learning menyediakan portofolio algoritma yang komprehensif, seperti hutan keputusan multikelas, sistem rekomendasi, regresi jaringan neural, jaringan neural multikelas, dan pengklusteran K-Means. Setiap algoritma dirancang untuk mengatasi berbagai jenis masalah pembelajaran mesin. Selain itu, Tips Praktis Algoritma Azure Machine Learning membantu ilmuwan data memilih algoritma yang tepat untuk menjawab pertanyaan bisnis.

7. Menyebarkan model

Ilmuwan data memberikan model akhir dengan dokumentasi dan menyebarkan himpunan data baru ke dalam produksi setelah pengujian, sehingga dapat memainkan peran aktif dalam bisnis. Prediksi dari model yang disebarkan dapat digunakan untuk keputusan bisnis.

8. Memvisualisasikan dan mengomunikasikan hasil

Alat visualisasi seperti Microsoft Power BI, Tableau, Apache Superset, dan Metabase memudahkan ilmuwan data untuk menjelajahi data dan menghasilkan visualisasi indah yang memperlihatkan temuan dengan cara yang memudahkan audiens non-teknis untuk memahaminya.

Ilmuwan data mungkin juga menggunakan buku catatan ilmu data berbasis web, seperti Zeppelin Notebooks, selama proses untuk penyerapan data, penemuan, analitik, visualisasi, dan kolaborasi.

Metode ilmu data

Ilmuwan data menggunakan metode statistik seperti pengujian hipotesis, analisis faktor, analisis regresi, dan pengklusteran untuk menggali wawasan yang akurat secara statistik.

Dokumentasi ilmu data

Meskipun dokumentasi ilmu data bervariasi menurut proyek dan industri, dokumentasi umumnya mencakup dokumentasi yang menunjukkan dari mana data berasal dan bagaimana data diubah. Hal ini membantu anggota tim data lain menggunakan data secara efektif ke depannya. Misalnya, dokumentasi membantu analis bisnis menggunakan alat visualisasi untuk menginterpretasikan himpunan data.

Jenis dokumentasi ilmu data meliputi:

  • Rencana proyek untuk menentukan tujuan bisnis, metrik evaluasi, sumber daya, garis waktu, dan anggaran proyek.
  • Kisah pengguna ilmu data untuk menghasilkan ide untuk proyek ilmu data. Ilmuwan data menulis cerita dari sudut pandang pemangku kepentingan, menjelaskan apa yang ingin dicapai pemangku kepentingan dan alasan pemangku kepentingan meminta proyek tersebut.
  • Dokumentasi model ilmu data untuk mendokumentasikan himpunan data, desain eksperimen, dan algoritma.
  • Dokumentasi sistem pendukung termasuk panduan pengguna, dokumentasi infrastruktur untuk pemeliharaan sistem, dan dokumentasi kode.

Cara menjadi ilmuwan data

Ada beberapa cara untuk menjadi ilmuwan data. Persyaratan yang harus dipenuhi biasanya mencakup gelar teknologi informasi atau ilmu komputer. Namun, beberapa profesional TI mempelajari ilmu data dengan mengikuti bootcamp dan kursus online, dan lainnya mendapatkan gelar atau sertifikasi master ilmu data.

Untuk mempelajari cara menjadi ilmuwan data, manfaatkan sumber daya pelatihan Microsoft ini yang dirancang untuk membantu Anda:

  • Mulai cepat. Baca e-book Packt gratis berjudul Principles of Data Science, A beginner's guide to statistical techniques and theory. Anda akan mempelajari dasar-dasar analisis statistik dan pembelajaran mesin, istilah penting, dan proses ilmu data.
  • Bangun keterampilan pembelajaran mesin Anda dengan Azure, platform cloud Microsoft. Jelajahi Sumber daya pembelajaran mesin Azure untuk ilmuwan data, termasuk video pelatihan gratis, contoh arsitektur solusi, dan kisah pelanggan.
  • Dapatkan keahlian pembelajaran mesin di Azure secara gratis, hanya dalam 4 minggu. Luangkan waktu satu jam sehari untuk mempelajari cara membuat solusi inovatif untuk masalah kompleks. Anda akan mempelajari dasar-dasar untuk menskalakan proyek pembelajaran mesin menggunakan alat dan kerangka kerja terbaru. Jalur pembelajaran mesin dari nol hingga ahli mandiri juga mempersiapkan Anda untuk sertifikat Azure Data Scientist Associate.
  • Dapatkan pelatihan yang komprehensif. Ikuti jalur pembelajaran ilmuwan data Microsoft dan pilih berbagai kursus mandiri dan yang dipandu instruktur. Pelajari cara membuat model pembelajaran mesin, menggunakan alat visual, menjalankan beban kerja ilmu data di cloud, dan membuat aplikasi yang mendukung pemrosesan bahasa alami.

Sertifikasi ilmuwan data

Sertifikasi adalah cara yang bagus untuk menunjukkan kualifikasi ilmu data dan memulai karier Anda. Profesional bersertifikat Microsoft sangat dibutuhkan dan ada pekerjaan yang tersedia untuk ilmuwan data Azure saat ini. Jelajahi sertifikasi ilmuwan data yang paling dicari oleh perusahaan:

  • Microsoft Certified: Azure Data Scientist Associate. Terapkan pengetahuan Anda tentang ilmu data dan pembelajaran mesin untuk menerapkan dan menjalankan beban kerja pembelajaran mesin di Azure menggunakan Azure Machine Learning Service.
  • Microsoft Certified: Customer Data Platform Specialty. Terapkan solusi yang memberikan wawasan ke profil pelanggan dan melacak aktivitas keterlibatan untuk membantu meningkatkan pengalaman pelanggan dan meningkatkan retensi pelanggan.

Perbedaan antara analis data dan ilmuwan data

Seperti ilmuwan data, analis data bekerja dengan himpunan data besar untuk mengungkap tren dalam data. Namun, ilmuwan data biasanya adalah anggota tim yang bersifat lebih teknis dengan lebih banyak keahlian dan tanggung jawab seperti memulai dan memimpin proyek ilmu data, membuat dan melatih model pembelajaran mesin, serta menyajikan temuan mereka kepada eksekutif dan konferensi. Beberapa ilmuwan data melakukan semua tugas ini dan lainnya berfokus pada tugas tertentu, seperti melatih algoritma atau membuat model. Banyak ilmuwan data memulai karier mereka sebagai analis data dan analis data dapat dipromosikan ke posisi ilmuwan data dalam beberapa tahun.

Ilmuwan data vs. analis data

Jenis proyek ilmu data
Analis data Ilmuwan data
Peran

Analisis data statistik

Mengembangkan solusi untuk kebutuhan bisnis yang kompleks menggunakan big data

Alat umum

Microsoft Excel, SQL, Tableau, Power BI

SQL, Python, R, Julia, Hadoop, Apache Spark, SAS, Tableau, Machine Learning, Apache Superset, Power BI, Data Science Notebooks

Analisis tipe data

Data terstruktur

Data terstruktur dan tidak terstruktur

Tugas dan tanggung jawab
  • Bekerja dengan pemangku kepentingan untuk menentukan proyek yang ditugaskan oleh manajemen.
  • Menggunakan SQL untuk mengkueri sumber data dan mengumpulkan kumpulan data yang tepat.
  • Mengidentifikasi, membersihkan, dan menganalisis data.
  • Menginterpretasikan, memvisualisasikan, dan menyajikan temuan mereka kepada pemangku kepentingan melalui laporan ringkasan.
  • Memulai proyek sendiri berdasarkan pengetahuan domain mereka.
  • Menggunakan teknik yang lebih canggih untuk statistik, penggalian data, analitik, dan pemodelan, termasuk pembelajaran mesin.
  • Menerjemahkan hasil ke dalam rekomendasi yang akan mendorong hasil bisnis.
  • Memvisualisasikan temuan mereka secara efektif dan mempresentasikannya kepada pemangku kepentingan.

Tanya jawab umum tentang ilmu data

  • Ilmuwan data bertanggung jawab untuk menggali big data guna mengekstrak informasi berharga. Organisasi menggunakan informasi ini untuk membuat keputusan yang lebih baik, memecahkan masalah, dan mengoptimalkan operasi.

    Pelajari tentang peran ilmuwan data

  • Ilmu data adalah studi data untuk memperoleh pengetahuan. Studi ini menggabungkan berbagai disiplin ilmu untuk mengekstrak pengetahuan dari himpunan data besar untuk membantu membuat keputusan dan prediksi berdasarkan data.

    Dapatkan pengantar tentang ilmu data

  • Ilmuwan data memimpin proyek riset untuk mengekstrak informasi berharga dan wawasan yang dapat ditindaklanjuti dari big data. Hal ini termasuk menentukan masalah yang akan diatasi, menulis kueri untuk menarik data yang tepat dari database, membersihkan dan mengurutkan data, membuat dan melatih model pembelajaran mesin, serta menggunakan teknik visualisasi data untuk mengomunikasikan temuan secara efektif kepada pemangku kepentingan.

    Cari tahu bagaimana ilmuwan data mengekstrak pengetahuan dari data

  • Meskipun dokumentasi ilmu data bervariasi berdasarkan proyek dan industri, biasanya dokumentasi tersebut mencakup rencana proyek, kisah pengguna, dokumentasi model, dan dokumentasi sistem pendukung seperti panduan pengguna.

    Pelajari tentang dokumentasi ilmu data

  • Beberapa profesional TI mempelajari ilmu data dengan mendapatkan gelar atau sertifikasi master ilmu data atau mengikuti bootcamp dan kursus online. Sertifikasi adalah cara yang bagus untuk menunjukkan kualifikasi ilmu data dan memulai karier Anda. Profesional bersertifikat Microsoft sangat dibutuhkan dan ada pekerjaan yang tersedia untuk ilmuwan data Azure saat ini.

    Jelajahi sertifikasi dan sumber daya pelatihan ilmu data

  • Baik Ilmuwan data maupun analis data bekerja dengan himpunan data besar untuk mengungkap tren dalam data. Namun, ilmuwan data biasanya memiliki keahlian dan tanggung jawab yang bersifat lebih teknis dalam hal memulai proyek riset mereka. Misalnya, analis data mungkin diminta untuk menyelesaikan analisis data statistik, sementara ilmuwan data mungkin diminta untuk mengembangkan solusi untuk kebutuhan bisnis yang kompleks dengan menggali big data.

    Lihat perbandingan tanggung jawab ilmuwan data dan analis data

  • Proyek ilmu data bervariasi berdasarkan kebutuhan industri dan organisasi. Dalam konteks bisnis, misalnya, ilmuwan data dapat memimpin proyek riset tentang cara meningkatkan pengalaman layanan pelanggan. Data yang diperlukan tidak hanya mencakup data terstruktur seperti metrik situs web dan transaksi, tetapi juga data yang tidak terstruktur seperti ulasan dan catatan pengguna dari tim layanan pelanggan. Analisis terperinci dari semua sumber data yang berbeda ini akan memberikan wawasan yang dapat membantu menginformasikan perubahan yang disarankan pada prosedur saat ini.

  • Dalam bisnis, tujuan paling umum dari ilmu data adalah untuk meningkatkan fungsi organisasi. Wawasan yang diperoleh dari menganalisis berbagai data organisasi dapat membantu menyelesaikan tantangan yang ada atau menghasilkan ide untuk cara baru dalam melakukan bisnis.

  • Ya, meskipun ilmuwan data mungkin tidak memerlukan kemampuan penyusunan kode yang sama seperti pemrogram. Ilmuwan data dapat menggunakan bahasa pemrograman seperti Julia, R, atau Python untuk menulis kueri. Python juga populer karena relatif mudah dipelajari dan digunakan.

  • Persyaratan untuk peran ilmu data dapat bervariasi, tetapi biasanya mencakup setidaknya salah satu hal berikut:

    • Gelar sarjana teknologi informasi atau ilmu komputer.
    • Penyelesaian bootcamp atau kursus online ilmu data.
    • Gelar pascasarjana atau sertifikasi ilmu data.

    Microsoft menawarkan berbagai sumber daya pelatihan dan jalur pembelajaran untuk menjadi ilmuwan data.

Mulai gunakan akun gratis Azure

Nikmati layanan Azure populer gratis selama 12 bulan, lebih dari 55 layanan gratis lainnya, dan kredit senilai USD$200 yang dapat digunakan di 30 hari pertama Anda.

Terhubung dengan spesialis penjualan Azure AI

Dapatkan saran tentang memulai penggunaan Azure AI. Ajukan pertanyaan, pelajari tentang harga dan praktik terbaik, dan dapatkan bantuan merancang solusi untuk memenuhi kebutuhan Anda.