Apa itu ilmu data?
Ilmu data adalah studi ilmiah multidisiplin data untuk tujuan mengekstraksi data dan informasi penting untuk wawasan yang dapat ditindaklanjuti.
Apa itu ilmuwan data?
Ilmuwan data memimpin proyek penelitian untuk mengekstrak informasi penting dari big data dan memiliki keahlian di bidang teknologi, matematika, bisnis, dan komunikasi. Organisasi menggunakan informasi ini untuk membuat keputusan yang lebih baik, memecahkan masalah yang kompleks, dan meningkatkan operasi. Dengan mengungkapkan wawasan tersembunyi yang dapat ditindaklanjuti dari himpunan data besar, ilmuwan data dapat secara signifikan meningkatkan kemampuan perusahaan untuk mencapai tujuannya. Itulah sebabnya ilmuwan data sangat diminati dan bahkan dianggap sebagai "bintang rock" di dunia bisnis.
Ilmu data ditentukan
Ilmu data adalah studi ilmiah terhadap data untuk mendapatkan pengetahuan. Bidang ini merupakan gabungan beberapa disiplin untuk mengekstrak pengetahuan dari himpunan data besar untuk tujuan membuat keputusan dan prediksi yang matang. Ilmuwan data, analis data, arsitek data, teknisi data, ahli statistik, administrator database, dan analis bisnis semua bekerja di bidang ilmu data.
Kebutuhan akan ilmu data berkembang pesat seiring jumlah data meningkat secara eksponensial dan perusahaan semakin bergantung pada analitik untuk mendorong pendapatan dan inovasi. Misalnya, seiring interaksi bisnis menjadi semakin digital, semakin banyak data dibuat, sehingga ada peluang baru untuk mendapatkan wawasan tentang cara mempersonalisasi pengalaman dengan lebih baik, meningkatkan layanan dan kepuasan pelanggan, mengembangkan produk baru dan disempurnakan, serta meningkatkan penjualan. Selain itu, dalam dunia bisnis bahkan di luar itu, ilmu data memiliki potensi untuk membantu memecahkan beberapa tantangan paling sulit di dunia.
Apa yang dilakukan ilmuwan data?
Ilmuwan data mengumpulkan, menganalisis, dan menafsirkan big data untuk mengungkap pola dan wawasan, membuat prediksi, dan membuat rencana yang dapat ditindaklanjuti. Big data dapat didefinisikan sebagai himpunan data yang memiliki variasi, volume, dan kecepatan lebih besar daripada yang sanggup ditangani oleh metode manajemen data sebelumnya. Ilmuwan data mengerjakan banyak tipe big data, yang meliputi:
- Data terstruktur, yang biasanya disusun dalam baris dan kolom serta mencakup kata dan angka seperti nama, tanggal, dan informasi kartu kredit. Misalnya, ilmuwan data di industri utilitas dapat menganalisis tabel pembangkit listrik dan data penggunaan untuk membantu mengurangi biaya dan mendeteksi pola yang dapat menyebabkan peralatan gagal.
- Data tidak terstruktur, yang tidak tersusun dan mencakup teks dalam file dokumen, media sosial dan data seluler, konten situs web, dan video. Misalnya, ilmuwan data di industri ritel mungkin menjawab pertanyaan tentang meningkatkan pengalaman pelanggan dengan menganalisis catatan pusat panggilan, email, survei, dan postingan media sosial yang tidak terstruktur.
Selain itu, karakteristik himpunan data dapat dideskripsikan sebagai kuantitatif, data numerik terstruktur, atau data kualitatif atau kategoris, yang tidak ditunjukkan melalui nilai numerik dan dapat dikelompokkan berdasarkan kategori. Ilmuwan data penting mengetahui tipe data yang sedang dikerjakannya karena ini berdampak langsung pada tipe analisis yang dilakukan dan tipe grafik yang dapat digunakan untuk memvisualisasikan data.
Untuk mendapatkan pengetahuan dari semua jenis data ini, ilmuwan data menggunakan keahlian mereka dalam:
- Pemrograman komputer. Ilmuwan data menulis kueri menggunakan bahasa seperti Julia, R, atau Python untuk menarik data dari database perusahaan mereka. Python adalah bahasa pilihan bagi banyak ilmuwan data karena mudah dipelajari dan digunakan, bahkan untuk orang yang tidak memiliki pengalaman menyusun kode, dan menawarkan modul ilmu data bawaan untuk analisis data.
- Matematika, statistik, dan probabilitas. Ilmuwan data menggunakan keahlian di bidang ini untuk menganalisis data, menguji hipotesis, dan membuat model pembelajaran mesin—yakni file yang dilatih ilmuwan data untuk mengenali tipe pola tertentu. Ilmuwan data menggunakan model pembelajaran mesin terlatih untuk menemukan hubungan dalam data, membuat prediksi tentang data, dan mencari solusi untuk masalah. Daripada membuat dan melatih model dari awal, ilmuwan data juga dapat memanfaatkan pembelajaran mesin untuk mengakses model pembelajaran mesin yang siap produksi.
- Pengetahuan domain. Untuk menerjemahkan data menjadi wawasan relevan dan bermakna yang mendorong hasil bisnis, ilmuwan data juga memerlukan pengetahuan domain,yakni pemahaman tentang industri dan perusahaan tempat mereka bekerja. Berikut adalah beberapa contoh bagaimana ilmuwan data dapat menerapkan pengetahuan domain untuk memecahkan masalah industri tertentu.
Tipe proyek ilmu data
Industri | Tipe proyek ilmu data |
---|---|
Bisnis |
Pengembangan produk baru dan penyempurnaan produk
Manajemen rantai pasokan dan inventaris Peningkatan layanan pelanggan Rekomendasi produk untuk pelanggan e-niaga |
Hiburan |
Memahami pola penggunaan konten media
Pengembangan konten berdasarkan data pasar target Pengukuran performa konten Rekomendasi yang disesuaikan berdasarkan preferensi pengguna |
Keuangan dan perbankan |
Pencegahan penipuan dan pelanggaran keamanan lainnya
Manajemen risiko portofolio investasi Asisten maya untuk membantu pelanggan yang memiliki pertanyaan |
Pemerintah |
Keputusan kebijakan
Pemantauan kepuasan konstituen Deteksi penipuan, seperti klaim disabilitas sosial |
Layanan Kesehatan |
Terapi obat berbasis bukti dan efektivitas biaya obat baru
Pelacakan wabah penyakit secara real time Pelacak yang dapat dipakai untuk meningkatkan perawatan pasien |
Telekomunikasi |
Peningkatan layanan berdasarkan preferensi pengguna dan lokasi
Peminimalan panggilan terputus dan masalah layanan lainnya |
Utilitas |
Analisis smart meter untuk meningkatkan penggunaan utilitas dan kepuasan pelanggan
Manajemen aset dan tenaga kerja yang ditingkatkan |
Ada keahlian lain yang sangat penting untuk menjawab pertanyaan "Apa yang dilakukan ilmuwan data?" Mengomunikasikan hasil analisis secara efektif kepada manajer, eksekutif, dan pemangku kepentingan lainnya adalah salah satu bagian terpenting dalam pekerjaan ini. Ilmuwan data perlu membuat temuan mereka mudah dipahami bagi audiens non-teknis sehingga mereka dapat menggunakan wawasan untuk membuat keputusan yang matang. Karena itu, ilmuwan data perlu memiliki keahlian dalam:
- Komunikasi, berbicara di publik, dan visualisasi data. Ilmuwan data yang hebat memiliki keahlian komunikasi verbal yang kuat, termasuk bercerita dan berbicara di publik. Di bidang ilmu data, gambar benar-benar bernilai ribuan kata. Menyajikan temuan ilmu data menggunakan grafik dan bagan memungkinkan audiens untuk memahami data dengan cepat hanya dalam lima detik atau lebih singkat. Karena alasan ini, ilmuwan data memandang visualisasi data sama serius dengan analisis mereka.
Proses ilmu data
Ilmuwan data mengikuti proses yang serupa untuk menyelesaikan proyek mereka:
-
Mendefinisikan masalah bisnis
Ilmuwan data bekerja sama dengan pemangku kepentingan untuk mendefinisikan dengan jelas masalah yang ingin diselesaikan atau pertanyaan yang perlu dijawab, serta persyaratan solusi dan tujuan proyek.
-
Mendefinisikan pendekatan analitik
Berdasarkan masalah bisnis, ilmuwan data memutuskan pendekatan analitik mana yang harus diikuti:
- Deskriptif untuk informasi lebih lanjut tentang status saat ini.
- Diagnostik untuk memahami apa yang terjadi dan alasannya.
- Prediktif untuk memperkirakan apa yang akan terjadi.
- Preskriptif untuk memahami cara mengatasi masalah.
-
Mendapatkan data
Ilmuwan data mengidentifikasi dan mendapatkan data yang diperlukan untuk mencapai hasil yang diinginkan. Ini dapat melibatkan mengkueri database, mengekstrak informasi dari situs web (web scraping), atau mendapatkan data dari file. Data mungkin tersedia secara internal, atau tim mungkin perlu membeli data. Dalam beberapa kasus, organisasi mungkin perlu mengumpulkan data baru agar dapat berhasil menjalankan proyek.
-
Membersihkan data, disebut juga scrubbing
Biasanya, langkah ini paling memakan waktu. Untuk membuat himpunan data untuk pemodelan, ilmuwan data mengonversi semua data ke format yang sama, menyusun data, menghapus apa yang tidak diperlukan, dan mengganti data yang hilang.
-
Jelajahi data
Setelah data dibersihkan, ilmuwan data menjelajahi data dan menerapkan teknik analitik statistik untuk mengungkapkan hubungan antara fitur data dan hubungan statistik antara mereka dan nilai yang mereka prediksi (dikenal sebagai label). Label yang diprediksi dapat berupa nilai kuantitatif, seperti nilai finansial sesuatu di masa mendatang, atau durasi penundaan penerbangan dalam hitungan menit.
Eksplorasi dan persiapan biasanya melibatkan banyak analisis dan visualisasi data interaktif—biasanya menggunakan bahasa seperti Python dan R dalam alat dan lingkungan interaktif yang dirancang khusus untuk tugas ini. Skrip yang digunakan untuk menjelajahi data biasanya dihosting di lingkungan khusus seperti Notebook Jupyter. Alat-alat ini memungkinkan ilmuwan data untuk menjelajahi data secara terprogram sambil mendokumentasikan dan membagikan wawasan yang mereka temukan.
-
Modelkan data
Ilmuwan data membuat dan melatih model preskriptif atau deskriptif, lalu menguji dan mengevaluasi model untuk memastikan model tersebut menjawab pertanyaan atau mengatasi masalah bisnis. Sederhananya, model adalah bagian dari kode yang mengambil input dan menghasilkan output. Membuat model pembelajaran mesin melibatkan pemilihan algoritma, menyediakannya dengan data, dan mengatur hiperparameter. Hiperparameter adalah parameter yang dapat disesuaikan yang memungkinkan ilmuwan data mengontrol proses pelatihan model. Misalnya, dengan jaringan neural, ilmuwan data memutuskan jumlah lapisan tersembunyi dan jumlah node di setiap lapisan. Penyetelan Hyperparameter, juga disebut pengoptimalan hiperparameter, adalah proses menemukan konfigurasi hiperparameter yang menghasilkan performa terbaik.
Pertanyaan umum adalah "Algoritma pembelajaran mesin mana yang harus saya gunakan?" Algoritma pembelajaran mesin mengubah himpunan data menjadi model. Algoritma yang dipilih oleh ilmuwan data bergantung pada dua aspek berbeda dari skenario ilmu data:
- Apa pertanyaan bisnis yang ingin dijawab oleh ilmuwan data dengan belajar dari data sebelumnya?
- Apa itu persyaratan skenario ilmu data, termasuk akurasi, waktu pelatihan, linearitas, jumlah parameter, dan jumlah fitur?
Untuk membantu menjawab pertanyaan ini, Azure Machine Learning menyediakan portofolio algoritma yang komprehensif, seperti kumpulan keputusan multikelas, sistem rekomendasi, regresi jaringan neural, jaringan neural multikelas, dan Pengelompokan K-Means. Setiap algoritma dirancang untuk mengatasi jenis masalah pembelajaran mesin yang berbeda. Selain itu, Referensi Cepat Algoritma Pembelajaran Mesin Azure membantu ilmuwan data memilih algoritma yang tepat untuk menjawab pertanyaan bisnis.
-
Sebarkan model
Ilmuwan data memberikan model akhir dengan dokumentasi dan menerapkan himpunan data baru ke produksi setelah pengujian, sehingga model dapat melakukan peran aktif dalam bisnis. Prediksi dari model yang diterapkan dapat digunakan untuk keputusan bisnis.
-
Memvisualisasikan dan mengomunikasikan hasil
Alat visualisasi seperti Microsoft Power BI, Tableau, Apache Superset, dan Metabase memudahkan ilmuwan data untuk menjelajahi data dan menghasilkan visualisasi indah yang menampilkan temuan dengan cara yang mudah dimengerti oleh audiens non teknis.
Ilmuwan data juga dapat menggunakan buku catatan ilmu data berbasis web, seperti Zeppelin Notebooks, di seluruh proses untuk penyerapan data, penemuan, analitik, visualisasi, dan kolaborasi.
Metode ilmu data
Ilmuwan data menggunakan metode statistik seperti pengujian hipotesis, analisis faktor, analisis regresi, dan pengklusteran untuk menggali wawasan yang berguna secara statistik.
Dokumentasi ilmu data
Meskipun dokumentasi ilmu data bervariasi berdasarkan proyek dan industri, ini umumnya mencakup dokumentasi yang menunjukkan asal data dan cara modifikasinya. Dokumentasi ini membantu anggota lain dalam tim data untuk menggunakan data secara efektif ke depan. Misalnya, dokumentasi membantu analis bisnis menggunakan alat visualisasi untuk menafsirkan himpunan data.
Tipe dokumentasi ilmu data meliputi:
- Rencana proyek untuk mendefinisikan tujuan bisnis, metrik evaluasi, sumber daya, garis waktu, dan anggaran proyek.
- Cerita pengguna ilmu data untuk menghasilkan ide untuk proyek ilmu data. Ilmuwan data menulis cerita dari sudut pandang pemangku kepentingan, yang menjelaskan tujuan yang ingin dicapai pemangku kepentingan dan alasan pemangku kepentingan meminta proyek tersebut.
- Dokumentasi model ilmu data untuk mendokumentasikan himpunan data, desain percobaan, dan algoritma.
- Dokumentasi sistem pendukung termasuk panduan pengguna, dokumentasi infrastruktur untuk pemeliharaan sistem, dan dokumentasi kode.
Cara menjadi ilmuwan data
Ada beberapa jalur untuk menjadi ilmuwan data. Biasanya, persyaratannya mencakup gelar di bidang teknologi informasi atau ilmu komputer. Namun, sebagian profesional TI mempelajari ilmu data dengan mengikuti bootcamp dan kursus online, sementara yang lain mendapatkan gelar master atau sertifikasi ilmu data.
Untuk mempelajari cara menjadi ilmuwan data, manfaatkan sumber daya pelatihan Microsoft yang dirancang untuk membantu Anda ini:
- Memulai dengan cepat. Baca e-book Packt gratis Principles of Data Science, A beginner's guide to statistical techniques and theory. Anda akan mempelajari dasar-dasar analisis statistik dan pembelajaran mesin, istilah kunci, dan proses ilmu data.
- Bangun keterampilan pembelajaran mesin dengan Azure, platform cloud Microsoft . Jelajahi pembelajaran mesin Azure untuk sumber daya ilmuwan data, termasuk video pelatihan gratis, contoh arsitektur solusi, dan cerita pelanggan.
- Raih keahlian pembelajaran mesin di Azure secara gratis, hanya dalam 4 minggu. Luangkan waktu satu jam sehari untuk mempelajari cara membuat solusi inovatif untuk masalah yang kompleks. Anda akan mempelajari mulai dari dasar hingga menskalakan proyek pembelajaran mesin menggunakan alat dan kerangka kerja terkini. Jalur pembelajaran mesin zero to hero mandiri juga mempersiapkan Anda untuk sertifikat Azure Data Scientist Associate.
- Dapatkan pelatihan yang komprehensif. Ikuti jalur pembelajaran ilmuwan data Microsoft dan pilih dari berbagai kursus yang dipimpin instruktur dan mandiri. Pelajari cara membuat model pembelajaran mesin, menggunakan alat visual, menjalankan beban kerja ilmu data di cloud, dan membuat aplikasi yang mendukung pemrosesan bahasa alami.
Sertifikasi ilmuwan data
Sertifikasi adalah cara yang sangat bagus untuk menunjukkan kualifikasi ilmu data dan mendongkrak karier Anda. Para profesional bersertifikat Microsoft sangat diminati dan ada pekerjaan tersedia untuk ilmuwan data Azure saat ini. Jelajahi sertifikasi ilmuwan data yang paling dicari oleh pemberi kerja:
- Bersertifikasi Microsoft: Azure Data Scientist Associate. Menerapkan pengetahuan ilmu data dan pembelajaran mesin untuk mengimplementasikan dan menjalankan beban kerja pembelajaran mesin di Azure menggunakan Layanan Pembelajaran Mesin Azure.
- Bersertifikasi Microsoft: Customer Data Platform Specialty. Mengimplementasikan solusi yang memberikan wawasan ke dalam profil pelanggan dan melacak aktivitas keterlibatan untuk membantu meningkatkan pengalaman pelanggan dan meningkatkan retensi pelanggan.
Perbedaan antara analis data dan ilmuwan data
Seperti ilmuwan data, analis data bekerja dengan himpunan data besar untuk mengungkap tren dalam data. Namun, ilmuwan data biasanya anggota tim yang lebih teknis dengan tingkat keahlian dan tanggung jawab yang lebih tinggi, seperti memulai dan memimpin proyek ilmu data, membuat dan melatih model pembelajaran mesin, serta menyajikan temuan kepada eksekutif dan di konferensi. Sebagian ilmuwan data melakukan semua tugas ini, sementara yang lain fokus pada tugas tertentu, seperti algoritme pelatihan atau membuat model. Banyak ilmuwan data memulai karier sebagai analis data, dan analis data dapat dipromosikan ke posisi ilmuwan data dalam beberapa tahun.
Ilmuwan data vs. analis data
Analis data | Ilmuwan Data | |
---|---|---|
Peran | Analisis data statistik | Mengembangkan solusi untuk kebutuhan bisnis kompleks menggunakan big data |
Alat umum | Microsoft Excel, SQL, Tableau, Power BI | SQL, Python, R, Julia, Hadoop, Apache Spark, SAS, Tableau, Pembelajaran Mesin, Apache Superset, Power BI, Notebooks Ilmu Data |
Analisis tipe data | Data terstruktur | Data terstruktur dan tidak terstruktur |
Tugas dan kewajiban |
|
|
Sumber daya tambahan
Jelajahi
Tanya jawab umum tentang ilmu data
-
Ilmuwan data bertanggung jawab menggali data besar untuk mengekstrak informasi berharga. Organisasi menggunakan informasi ini untuk meningkatkan cara mereka dalam membuat keputusan, memecahkan masalah, dan mengoptimalkan operasi.
-
Ilmu data adalah studi data untuk mendapatkan pengetahuan. Ini menggabungkan berbagai disiplin ilmu untuk mengekstrak pengetahuan dari himpunan data besar untuk membantu menginformasikan keputusan dan prediksi.
-
Ilmuwan data memimpin proyek penelitian untuk mengekstrak informasi penting dan wawasan yang dapat ditindaklanjuti dari big data. Ini termasuk mendefinisikan masalah yang akan dipecahkan, menulis kueri untuk menarik data yang tepat dari database, membersihkan dan menyortir data, membuat dan melatih model pembelajaran mesin, dan menggunakan teknik visualisasi data untuk mengomunikasikan temuan secara efektif kepada pemangku kepentingan.
Cari tahu cara ilmuwan data mengekstrak pengetahuan dari data
-
Meskipun dokumentasi ilmu data bervariasi tergantung proyek dan industri, ini umumnya mencakup rencana proyek, cerita pengguna, dokumentasi model, dan dokumentasi sistem pendukung seperti panduan pengguna.
-
Beberapa profesional TI mempelajari ilmu data dengan mendapatkan gelar master atau sertifikasi ilmu data atau mengikuti bootcamps dan kursus online. Sertifikasi adalah cara yang bagus untuk menunjukkan kualifikasi ilmu data dan memulai karier Anda. Tenaga profesional bersertifikasi Microsoft sangat diminati dan saat ini tersedia pekerjaan untuk ilmuwan data Azure.
-
Analis data dan ilmuwan data bekerja dengan himpunan big data untuk mengungkap tren dalam data. Namun, ilmuwan data biasanya memiliki lebih banyak keahlian dan tanggung jawab teknis saat memulai proyek penelitian mereka. Misalnya, analis data mungkin diminta untuk menyelesaikan analisis data statistik sementara ilmuwan data mungkin diminta untuk mengembangkan solusi untuk kebutuhan bisnis yang kompleks dengan menggali big data.
Lihat perbandingan tanggung jawab ilmuwan data dan analis data
-
Proyek ilmu data bervariasi berdasarkan kebutuhan industri dan organisasi. Dalam pengaturan bisnis, misalnya, ilmuwan data dapat memimpin proyek riset tentang cara meningkatkan pengalaman layanan pelanggan. Data yang diperlukan tidak hanya mencakup data terstruktur seperti metrik situs web dan transaksi, tetapi juga data yang tidak terstruktur seperti ulasan dan catatan pengguna dari tim layanan pelanggan. Analisis mendetail dari semua sumber data yang berbeda ini akan memberikan wawasan yang dapat membantu menginformasikan perubahan yang disarankan pada prosedur saat ini.
-
Dalam bisnis, tujuan paling umum dari ilmu data adalah untuk meningkatkan fungsi organisasi. Wawasan yang diperoleh dari menganalisis kekayaan data organisasi bersama-sama dapat membantu mengatasi tantangan yang ada atau menghasilkan ide untuk cara baru dalam berbisnis.
-
Ya, meskipun ilmuwan data mungkin tidak membutuhkan keahlian penyusunan kode yang sama dengan pemrogram. Ilmuwan data dapat menggunakan bahasa pemrograman seperti Julia, R, atau Python untuk menulis kueri. Python juga populer karena relatif mudah dipelajari dan digunakan.
-
Persyaratan untuk peran ilmu data dapat bervariasi, tetapi biasanya mencakup setidaknya salah satu dari yang berikut ini:
- Sarjana dalam teknologi informasi atau ilmu komputer.
- Menyelesaikan bootcamp ilmu data atau kursus online.
- Gelar master atau sertifikasi ilmu data.
Microsoft menawarkan berbagai sumber daya pelatihan dan jalur pembelajaran untuk membantu Anda memulai menjadi ilmuwan data.
Mulailah dengan akun gratis Azure
Nikmati layanan Azure populer gratis selama 12 bulan, lebih dari 55 layanan yang selalu gratis, dan kredit sebesar $200 untuk digunakan dalam 30 hari pertama.
Terhubung dengan spesialis penjualan Azure AI
Dapatkan saran terkait memulai Azure AI. Ajukan pertanyaan, pelajari tentang harga dan praktik terbaik, serta dapatkan bantuan dalam merancang solusi untuk memenuhi kebutuhan Anda.