Beberapa Library Python yang Digunakan dalam Customer Churn …

  • Whatsapp

Jika kamu tertarik dan sedang belajar bahasa pemrograman Python, hal dasar yang perlu kamu ketahui yaitu berbagai jenis library yang ada pada Python. DQLab menyediakan banyak sekali contoh-contoh kasus analisis data dalam sektor industri yang dapat kamu coba dan terapkan library Pythonnya. Salah satunya Customer Churn Prediction menggunakan Machine Learning. Pada kasus ini kita akan menggunakan beberapa library Python dan yang pastinya library ini pada umumnya digunakan juga pada kasus-kasus industri lainnya.

Read More

Dalam dunia bisnis, hal yang perlu kamu ketahui adalah kita tidak bisa memungkiri bahwa akan selalu ada kompetitor yang memiliki produk yang sama persis dengan produk yang telah ada sebelumnya. Tiru, amati, dan modifikasi merupakan sesuatu hal yang sedang berkembang saat ini. Sehingga tidak heran ketika ada sesuatu hal yang sedang viral, maka akan diikuti oleh banyak orang. Nah, dengan belajar Machine Learning, kita dapat mengatasi bagaimana caranya agar pelanggan tidak lari ke kompetitor.

Customer Churn Prediction Analysis merupakan sebuah analisis yang dilakukan oleh Data Scientist untuk mendapatkan model dan memprediksi kira-kira berapa banyak customer yang akan memutuskan untuk beralih dan berlanggan ke kompetitor. Meskipun sebuah perusahaan telah memperhatikan tingkat kepuasan customer, namun analisis ini tetap diperlukan untuk membantu perusahaan berkembang dengan lebih cepat.

Namun sebelum memulai membuat modelnya, kira-kira library Python apa saja ya yang biasanya digunakan dalam analisis ini? Yuk simak pembahasan berikut!

 

1. Library Pandas Untuk Proses Analisis Data

Pada analisis model kali ini, Pandas sebagai library Python akan berfokus pada proses analisis data seperti manipulasi data, persiapan data, dan pembersihan data. Pandas sendiri merupakan sebuah library di Python yang berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan. Pandas biasa digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya. Struktur data dasar pada Pandas dinamakan DataFrame, yang memudahkan kita untuk membaca sebuah file dengan banyak jenis format seperti file .txt, .csv, dan .tsv. Fitur ini akan menjadikannya table dan juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL.

Jadi dapat disimpulkan, bahwa Pandas merupakan library analisis data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang bisa untuk diolah. Berikut ini merupakan beberapa fungsi yang ada pada library Pandas yang akan digunakan dalam model prediksi customer churn.

  • read_csv() digunakan untuk membaca file csv

  • replace() digunakan untuk mengganti nilai

  • value_counts() digunakan untuk menghitung unik dari kolom

  • drop() digunakan untuk menghapus

  • describe() digunakan untuk melihat deskripsi datanya

 

Baca Juga:  Kenali 3 Library Python untuk Kamu yang Pemula dalam Ilmu Data Science

2. Matplotlib Berfokus Pada Visualisasi Data

Pada analisis model kali ini, Matplotlib sebagai library Python akan berfokus pada visualisasi data seperti membuat plot grafik. Matplotlib dapat digunakan dalam skrip Python, Python dan IPython shell, server aplikasi web, dan beberapa toolkit graphical user interface (GUI) lainnya. Data yang telah diolah akan lebih baik jika ditampilkan dengan jelas dan sebagus mungkin. Library Matplotlib ini akan membantu dalam menampilkan hasil analisis berupa grafik berwarna dengan lebih rapi dan menarik. Ada dua jenis plot dalam menampilkan data yaitu secara 2D dan 3D. Sehingga data bisa ditampilkan sesuai dengan kebutuhan. Matplotlib ini merupakan library yang paling sering digunakan oleh Data Science dalam menyajikan datanya ke dalam visual yang lebih menarik.

Berikut ini merupakan beberapa fungsi yang ada pada library Matplotlib yang akan digunakan dalam model prediksi customer churn.

  • figure() digunakan untuk membuat figure gambar baru

  • subplots() digunakan untuk membuat gambar dan satu set subplot

  • title() digunakan untuk memberi judul pada gambar

  • ylabel() digunakan untuk memberi label sumbu Y pada gambar

  • xlabel() digunakan untuk memberi label sumbu Y pada gambar

  • pie() digunakan untuk membuat pie chart

 

3. Library Seaborn Pada Python

Library ini akan membangun plot di atas Matplotlib dan memperkenalkan tipe plot tambahan. Ini juga membuat plot Matplotlib tradisional kamu akan terlihat lebih cantik. Apa yang membedakan antara Matplotlib dan Seaborn? Meskipun keduanya sama-sama digunakan untuk visualisasi, namun Matplotlib hanya dapat digunakan untuk visualisasi dasar, sedangkan untuk menghasilkan visualisasi yang lebih menarik dapat menggunakan Seaborn.

Library Seaborn pada Python bertujuan agar visualisasi menjadi bagian penting di dalam proses eksplorasi dan pemahaman data. Seaborn berorientasi pada fungsi plotting berdasarkan dataset yang beroperasi pada data frame dan array yang berisi seluruh dataset yang secara internal melakukan pemetaan semantik dan agregasi statistik yang diperlukan untuk menghasilkan grafik yang lebih informatif.

Berikut ini merupakan beberapa fungsi yang ada pada library Seaborn yang akan digunakan dalam model prediksi customer churn.

 

Baca Juga: Belajar Python: Mengenal Library Yang Disediakan Python Untuk Data Science

4. Library Python Scikit-Learn atau Sklearn

Pada analisis model kali ini, library Scikit-Learn dalam Python menyediakan banyak algoritma Machine Learning baik untuk Supervised, Unsupervised Learning, maupun digunakan untuk mempreparasi data. Kelebihan Scikit-Learn adalah penggunaan API yang mudah serta kecepatannya saat melakukan tolok ukur yang berbeda dalam dataset game. Scikit-Learn sudah teruji dan memiliki dokumentasi yang super lengkap. Bahkan kontributornya pun banyak.

Berikut ini merupakan beberapa fungsi yang ada pada library Sklearn yang akan digunakan dalam model prediksi customer churn.

  • LabelEncoder() digunakan untuk merubah nilai dari suatu variabel menjadi 0 atau 1

  • train_test_split() digunakan untuk membagi data menjadi 2 row bagian (Training & Testing)

  • LogisticRegression() digunakan untuk memanggil algoritma Logistic Regression

  • RandomForestClassifier() digunakan untuk memanggil algoritma Random Forest Classifier

  • confusion_matrix() digunakan untuk membuat confusion matrix

  • classification_report() digunakan untuk membuat classification

 

5. Library Python Xgboost

Xgboost adalah library dalam Python untuk algoritma extreme gradient boosting (xgboost). Secara teori, library ini berbasis Decision Tree namun dengan menggunakan framework gradient boosting. Fungsi yang akan digunakan oleh library Xgboost dalam model prediksi customer churn hanyalah XGBClassifier() yang digunakan untuk memanggil algoritma XG Boost Classifier.

 

6. Library Python Pickle

Library Pickle berguna untuk mengimplementasikan protokol biner untuk serializing dan de-serializing dari struktur objek Python. Fungsi yang akan digunakan oleh library Pickle dalam model prediksi customer churn yaitu dump() yang digunakan untuk menyimpan masukan dan keluaran.

7. Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!       

Nikamati belajar data science secara praktis dan aplikatif bersama DQLab! Gunakan Kode Voucher “DQTRIAL”, dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:

  1. Buat Akun Gratis dengan Signup di DQLab.id/signup

  2. Buka academy.dqlab.id dan pilih menu redeem voucher 

  3. Redeem voucher “DQTRIAL” dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi. 

  4. Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.

    Penulis : Salsabila Miftah

    Editor : Annissa Widya Davita

    Sumber : DQLab

    Related posts

    Leave a Reply

    Your email address will not be published. Required fields are marked *