Rangkuman “Tableau for Data Science” — Part II
Catatan ini adalah rangkuman dari kursus Udemy berjudul : Tableau A-Z : Hands-On Tableau Training for Data Science karya Kirill Eremenko, dkk. Jika pembaca ingin belajar lebih detail, saya sarankan untuk belajar di kursus tersebut.
Catatan ini akan menjadi dua bagian.
Rangkuman “Tableau for Data Science” — Part I kita telah membahas tentang:
- Pengenalan Tableau
- Tableau Basic: Your First Bar Chart
- Time Series, Aggregation, dan Filters
- Map, Scatterplots, dan Dashboard
- Joining, Blending, and Relationships
Pada bagian kedua akan membahas tentang:
- Table Calculations, Advanced Dashboard, Storytelling
- Advanced Data Preparation
- Clusters, Custom Territories, Design Features
6. Table Calculations, Advanced Dashboard, Storytelling
Pada bagian ini kita akan membuat beberapa chart yang akan disatukan menjadi dashboard. Kemudian kita akan membuat Story, salah satu fitur Tableau yang bisa digunakan untuk membuat laporan berdasarkan hasil analisa. Dengan Story kita bisa mencerikan insight yang kita dapatkan menjadi sebuah laporan yang menarik. Kali ini kita akan menggunakan dummy data tentang pengguna bank di United Kingdom (UK-Bank-Customer.csv).
Set Geographical Role
Pertama kita akan membuat visualisasi berupa Map untuk wilayah United Kingdom berdasarkan kolom Region. Tetapi kolom Region berupa data teks bukan data geography (map). Ketika data dengan jenis teks dimasukkan kedalam working area maka akan menjadi data kategorikal, sedangkan kita ingin membuat map.
Kasus seperti ini sering kita jumpai ketika ingin membuat Map. Solusinya adalah dengan menentukan Geographical Role pada data yang ingin dibuat menjadi Map.
- klik kanan pada kolom Region
- klik Geographical Role
- pilih state/province
Setelah berhasil maka kolom Region akan berubah menjadi data geographic (tanda globe pada awal kolom). Namun ketika dimasukkan ke working area visulisasi masih terjadi error. Karena Tableau otomatis menentukan negara sesuai dengan lokasi pengguna, dalam hal ini negara diatur menjadi Indonesia. Kita harus mengubah negara menjadi United Kingdom agar bisa mendeteksi state dengan nama England, Scotland, Wales, dan Northern Ireland.
Ubah Marks menjadi Map. Tambahkan kolom Region ke dalam color untuk melihat batas masing-masing state. Tambahkan kolom Count yang dibuat otomatis oleh Tableau untuk melihat jumlah pelanggan ada masing-masing state. Maka visualsasinya menjadi seperti pada gambar dibawah.
Tabel Calculation
Selanjutnya kita akan membuat Pie Chart untuk melihat sebaran Gender pada data. Kita juga akan memanfaatkan fitur Tabel Calculation untuk mengubah data yang ditampilkan. Buat Pie chart dengan memanfaatkan kolom Gender dan kolom Count untuk melihat jumlah datanya.
Pada gambar diatas data ditampilkan dalam jumlah total. Kita bisa mengubah tampilan ini dengan memanfaatkan fitur Table Calculation.
- klik kanan pada kolom Count
- pilih Edit Table Calculation
- pilih Percent of Total
Selain Percent of Total, juga terdapat pilihan lainnya seperti: Running Total, Difference, Percent Difference, Percentile, dan Moving Average.
Setelah diubah menjadi persen dan disesuaikan formatnya, maka visualisasinya menjadi seperti berikut:
Membuat Bin
Kali ini kita akan membuat Bin untuk melihat distribusi usia customer yang menggunakan jasa bank. Ketika kita menggunakan kolom usia untuk membuat visulisasi dan mengaturnya sebagai kategori maka data semua usia akan ditambilkan dalam bar chart. Seperti pada gambar berikut:
Gambar diatas memuat semua data usia mulai 18 tahun sampai 64 tahun. Tentu hal ini kurang efektif. Oleh karena itu kita bisa mengelompokkan datanya kedalam Bin.
Hanya kolom measure yang bisa dibuat menjadi bin. Caranya:
- klik kanan pada kolom Age
- pilih Create
- pilh Bins
Kemudian akan muncul prompt Edit Bins. Kali ini kita menentukan Size of bins menjadi 5. Artinya data dikelompokkan kedalam 5 bagian (15–19, 20–24, 25–29, dst).
Setelah berhasil membuat bin, maka akan muncul kolom baru Age (bin) dalam bentuk dimention. Kolom inilah yang akan kita gunakan untuk membuat visulisasi agar lebih mudah dipahami.
Buat beberapa perubahan pada Bar Chart untuk menambah informasi
- ubah Table Calculation menjadi Percent of Total
- masukkan kolom Count pada color untuk melihat sebaran data
Maka didapatkan visulisasi seperti pada gambar dibawah
Memanfaatkan Fitur Parameter
Parameter merupakan pengembangan dari Bin. Dengan fitur Parameter kita bisa berinteraksi dengan mengubah-ubah jumlah Bin sesuai dengan kriteria yang telah ditentukan.
Kali ini kita akan membuat visulisasi yang sama dengan sebelumnya dengan memanfaatkan kolom Balance dan mengatur Bin pada ukuran 10000.
Selanjutnya kita tambahkan Parameter yang bisa digunakan sebagai ukuran Bin.
- klik kanan pada data tab
- pilih Create Parameter
Kemudian akan muncul prompt Create Parameter. Disini kita perlu menentukan nama parameter, data type, value, serta allowable value yang bisa diisi dengan list dan range.
Buat Parameter dengan nama Balance Group dan sesuaikan seperti pada gambar dibawah.
Setelah selesai maka parameter akan muncul dalam data tab. Namun masih belum bisa digunakan dalam visulisasi. Kita perlu mengubah ukuran Bin (Size of bins) menjadi parameter yang telah kita buat (Balance Group) agar bisa digunakan untuk berinteraksi dengan visualisasi.
Setelah Parameter digunakan sebagai ukuran bin, maka kita bisa mengubah-ubah ukuran bin sesuai dengan nilai Parameter. Pada gambar 6.16 kita mengatur bin pada nilai 20.000, sedangkan pada gambar 6.17 kita mengatur bin pada nilai 10.000. Dari sini kita bisa melihat perbedaan dari keduanya.
Tambahkan juga parameter pada visulisasi sebelumnya yang menggunakan kolom Age. Kali ini buat nilai allowable value sebagai list seperti pada gambar dibawah.
Sama seperti sebelumnya kita perlu mengubah ukuran Bin (Size of bins) menjadi parameter yang telah kita buat (Age Group) agar bisa digunakan untuk berinteraksi dengan visualisasi. Berikut contoh visulisasi yang menggunakan nilai paramaeter = 5.
Membuat Tree Map
Kali ini kita akan membuat Tree Map dengan memanfaatkan fitur Show Me.
- letakkan kolom Job Classification dan Count pada working area
- klik Show Me
- pilih Tree Map
Sesuaikan visulisasi dengan mengubah warna, sesuaikan ukuran, dan menambahkan label.
Advance Dashboard Interactivity
Kita telah memiliki beberapa chart yang bisa digabungkan ke dalam dasboard. Masukkan semua chart ke dashboard dan atur posisi agar sesuai dengan yang diinginkan. Berikut adalah dashboar yang berhasil kita buat:
Dari dashboard diatas kita bisa mengambil beberapa insight, diantaranya:
- Urutan customer dari yang paling banyak: England, Scotland, Wales, Northern Ireland
- Balance paling banyak antara 0–30K
- Customer paling banyak diusia 30an
- Job Clasificassion paling banyak White Collar
Dashboard diatas belum bisa digunakan untuk berinteraksi karena belum diberikan filter pada masing-masing chart. Ketika kita klik pada map, chart yang lain tetap pada posisi semua (tidak menyesuaikan dengan data di map).
Tambahkan filter agar bisa berinteraksi dengan dashboard
- klik tanda panah kebawah pada map chart
- pilih Use as Filter
Terapkan filter pada masing-masing chart
Setelah ditambahkan filter kita bisa melihat dasboard pada masing-masing region. Bagaimana sebaran customer di England, Scotland, Wales, dan Northern Ireland. Dengan mengertahui sebaran dan karakteristik customer ini, bank bisa menyesuaikan layanan dan service yang ditawarkan pada masing-masing region.
Dasboard diatas menunjukkan sebaran dan karakteristik customer di England. Secara keseluruhan hampir sama dengan dashboard awal, namun terjadi peningkatan pada White Collar pada Job Classification.
Dasboard kedua menunjukkan sebaran dan karakteristik customer di Scotland. Ada beberapa insight menarik pada dashboard ini. Rata-rata usia menjadi lebih tua, paling paling banyak usia 50 tahun. Gender pria mencapai 72%. White Collar berkurang drastis dari Job Classification, diganti Blue Collar dan Other.
Dashboard Wales hampir sama dengan England, namun memiliki rata-rata Balance yang lebih besar.
Dashboard Northern Ireland memiliki insight unik yang berbeda dengan region lainnya. Gender lebih banyak wanita, mencapai 74%. Job Classification lebih banyak Other disusul oleh White Collar. Sebaran usia menjadi lebih muda, diantara 20–30an tahun.
Membuat Storyline
Hasil analisis serta insight yang didapat dari dashboard bisa kita buat menjadi visulisasi berupa Story. Kali ini kita akan menggabungkan dashboard awal sebagai baseline, kemudian menambahkan insight yang didapat pada masing-masing region.
Pada bagian bawah Tableau terdapat pilihan untuk menambahkan Story. Berikut adalah tampilan awal dari tab Story.
Kita bisa memasukkan worksheet dan dashboard kedalam Story. Namun kita tidak bisa menambahkan lebih dari satu worksheet seperti pada dashboard. Story bisa memiliki beberapa halaman, tetapi satu halaman hanya bisa diisi dengan satu visualisasi. Kelebihan Story adalah terdapat caption pada bagian atas untuk memberi judul atau memberi keterangan pada visualisasi yang ditampilkan.
nb: klik link berikut untuk melihat Story yang telah saya buat: Recreate — Story of the Bank Customer
7. Advanced Data Preparation
Sebelum membahas tentang data preparation, kita perlu mengatahui seperti apa format data yang mudah dibaca oleh mesin. Format data yang ditampilkan untuk dibaca oleh manusia, berbeda dengan format data yang akan diolah oleh mesin. Oleh karena itu dalam data preparation kita harus megubah data agar lebih mudah diolah oleh mesin.
Mesin atau software untuk mengolah data akan lebih mudah mengolah data yang dikelompokkan pada kolom-kolom tertentu. Satu kolom untuk satu jenis data yang sama. Dalam proses data preparation kita mengenal istilah standarisasi agar satu tabel tidak memuat terlalu banyak jenis informasi. Satu jenis informasi biasanya disimpan dalam satu tabel. Misalnya tabel customer, seller, product, sales, dan lain sebagainya.
Gambar 7.1 adalah contoh data yang dibuat agar mudah dibaca oleh mesin. Sedangkan pada Gambar 7.2 adalah data yang dibuat agar mudah dibaca oleh manusia. Ketika kita ingin menganalisis data pada Gambar 7.2 maka kita harus mengubah datanya agar mudah dibaca oleh mesin. Misalnya memisahkan kolom Region dan Country serta melakukan pivot pada kolom tahun.
Data Interpreter
Tableau memiliki fitur Data Interpreter untuk membaca data, menentukan header dan isi data pada tabel. Data pada Gambar 7.2 memiliki judul pada bagian atas, dibawahnya baru berisi tabel. Sedangkan saat kita menganalisis data, kita hanya perlu data yang ada pada tabel saja dan mengabaikan judul. Dengan fitur Data Interpreter proses diatas bisa dilakukan secara otomatis.
Sebelum dilakukan Data Interpreter judul pada excel worksheet menjadi header (Gambar 7.3). Setelah dilakukan Data Interpreter judul diabaikan dan menjadikan kolom region dan tahun menjadi header (Gambar 7.4).
Pivot
Data yang kita gunakan merupakan data yang dirancang agar mudah dibaca oleh manusia. Mari kita ubah agar datanya mudah diolah oleh mesin dengan cara melakukan pivot pada kolom tahun.
Awalnya data tiap tahun disimpan dalam kolom yang berbeda. Dengan fitur pivot kita bisa mengubahnya menjadi dua kolom saja, kolom tahun dan kolom nilai. Jadi setelah melakukan pivot kita akan memiliki 4 kolom. Region, Country, Year, dan Sales.
Cara membuat pivot cukup sederhana. Pilih kolom yang akan dikenakan pivot (kolom tahun) kemudian klik kanan, pilih pivot.
Setelah berhasil melakukan pivot, maka tabelnya akan menjadi seperti berikut:
Tableau juga memiliki fitur untuk melakukan split atau memisahkan kolom. Misalnya kolom nama lengkap ingin dipisah menjadi nama depan dan nama belakang.
Connecting to PDF and Spatial Data
Jika kita perhatikan pada opsi Connect pada Tableau terdapat pilihan untuk menghubungkan dengan PDF file dan Spatial file. Kali ini kita akan mencoba keduanya sebagai alternatif lain selain data Excel file dan Text file.
Ketika ingin memasukkan PDF file kita bisa menentukan halaman mana saja yang ingin dimasukkan kedalam Tableau.
Setelah terkoneksi data dari PDF file akan ditampilkan perhalaman. Jika kita memasukkan PDF file yang berisi beberapa halaman, kita perlu melakukan Union pada PDF file agar semua halamannya menjadi satu.
Klik halaman yang ingin dimasukkan, kemudian letakkan dibawah tabel yang pertama sampai muncul tulisan Union. Perhatikan gambar berikut:
Setelah berhasil melakukan Union selanjutnya adalah melakukan data preparation sesuai kebutuhan analisis.
Tableau juga bisa dikoneksikan dengan data spasial, diantaranya:
- Shapefiles (ESRI) = .shp .shx .dbf
- MapInfo tables = .TAB ,DAT ,MAP .ID
- Keyhole Markup Lenguange (KML) = .kml
- GeoJSON = .geojson
8. Clusters, Custom Territories, Design Features
Pada bagian ini kita akan mencoba menyelesaikan tantangan bisnis dengan menganalisis data menggunakan Tableau. Anda adalah seorang Data Scientist yang diminta untuk menganalisis data untuk sebuat perusahaan Start-up dibidang laundry. Perusahaan ingin membuat jaringan di kota yang relatif kecil, karena di kota-kota besar sudah ada kompetitor yang lebih unggul. Perusahaan memiliki 140 cabang dan baru saja membuka 10 cabang baru, yang terbagi ke dalam dua wilayah (region).
Anda ditugaskan untuk membuat analisis mengenai dua hal berikut:
- Mengidentifikasi wilayah (region) mana yang paling menguntungkan berdasarkan:
- Rata-rata Revenue di tiap wilayah
- Rata-rata Marketing spend di tiap wilayah
- Rata-rata ROMI (Return on Marketing Investment) di tiap wilayah
2. Mengidentifikasi tiga lokasi dari 10 lokasi baru yang memiliki potensi untuk dikembangkan
Data yang kita gunakan adalah P1-StartupExpansion.xlsx yang berisi kolom Store ID, City, State, Sales Region, New Expansion, Marketing Spend, dan Revenue.
Custom Territories
Kita akan belajar tentang Custom Territories untuk menggabungkan beberapa lokasi menjadi satu wilayah. Pada tantangan bisnis sebelumnya, kita diminta menganalisis wilayah (region) mana yang paling menuntungkan. Sedangkan penentuan wilayah ini tidak sesuai dengan kaidah geografi, tetapi penentuan wilayah ini sesuai dengan ketentuan perusahaan. Pada tabel terdapat kolom Sales Region yang menunjukkan suatu kota masuk ke wilayah mana (Region 1 atau Region 2).
Masukkan kolom State untuk membuat peta. Letakkan kolom Sales Region pada color untuk melihat pembagian wilayah antara Region 1 dan Region 2. Letakkan kolom Revenue pada label untuk melihat revenue pada setiap State.
Pada gambar diatas revenue ditampilkan pada setiap State. Sedangkan kita ingin menganalisis untuk setiap Region. Disini kita akan menggunakan fitur Territory untuk menggabungkan beberapa state menjadi satu wilayah.
Ada dua cara untuk membuat Territory, dengan cara Grouping dan Geographic Roles.
Cara membuat Territory dengan Grouping adalah sebagai berikut:
- klik state yang akan dikelompokkan menjadi Territory
- pilih Group
- pilih All Dimension
Setelah berhasil akan muncul kolom group yang bisa digunakan untuk membuat visualisasi data. Hapus kolom state dari working area, maka visualisasinya akan menjadi seperti berikut:
Cara kedua untuk membuat Territory adalah dengan memanfaatkan Geographic Roles. Kali ini kita akan membuat kolom Sales Region yang awalnya tipe data teks menjadi tipe data Geopraphic atau map agar bisa digunakan untuk membuat peta.
Cara membuat geographic roles adalah sebagai berikut:
- klik tanda panah kewabah pada kolom Sales Region
- pilih Geographic Roles
- pilih Create from
- pilih State
Langkah-langkah diatas bertujuan untuk menjadi kolom Sales Region sebagai data Geopraphic berdasarkan kolom State. Jadi penentuan Region 1 atau Region 2 berdasarkan kolom State. Sehingga pada visualisasi dengan tipe Map datanya bisa dibaca dengan baik.
Selanjutnya kita tambahkan label dengan kolom Revenue, Marketing Spend, serta membuat membuat kolom ROMI dengan memanfaatkan fitur Calculated Fields.
Dari visualisasi diatas kita tahu bahwa Region 1 memiliki performa yang lebih baik dibandingkan Region 2. Revenue lebih banyak, Marketing yang dikeluarkan lebih sedikit, sehingga prosentase keuntungannya lebih banyak.
Sampai disini tantangan bisnis pertama telah terselesaikan. Mari kita lanjutkan ke tantangan kedua. Mengindentifikasi tiga lokasi dari 10 lokasi baru yang paling potensial. Tantangan bisnis ini akan bisa diselesaikan dengan menggunakan fitur Clustering pada Tableau.
Buat Scatterplot untuk melihat hubungan Revenue dan Marketing Spend pada masing-masing lokasi.
Dari gambar kita bisa melihat ada dua kelompok data. Kelompok data di bagian bawah memiliki sedikit Revenue dengan Marketing Spend yang besar. Kelompok data di bagian atas cenderung eksponensial, semakin banyak Marketing Spend yang dikeluarkan semakin banyak pula Revenue.
Kita bisa lebih mudah menganalisis data dengan memanfaatkan fitur clustering. Pada tab Analytics, pilih Cluster. Kemudian masukkan ke dalam working area.
Setelah ditambahkan cluster, secara otomatis akan dibuatkan kelompok data menggunakan konsep K-Mean. Dengan ini kita bisa melihat lebih jelas perbedaan antar masing-masing kelompok (lihat gambar 7.17).
Pada analisis kali ini kita menambahkan data jumlah penduduk tiap kota untuk memperoleh hasil analisis yang lebih baik. Masukkan data jumlah penduduk kedalam cluster, lalu sesuaikan bentuk label.
Setelah ditambahkan data penduduk tiap kota, visualisasi berubah menjadi tiga cluster. Pada cluster bawah (warna biru) diketahui merupakan kota-kota dengan penduduk relatif sedikit (100.000–110.000 penduduk) dibanding kota-kota di cluster lainnya (<>150.000 penduduk).
Selanjutnya kita tambahkan Trend Line untuk melihat seperti trend pada masing-masing cluster. Pada tab Analytics, pilih Trend Line.
Dari Trend Line ini kita bisa mengetahui kecenderungan tiap-tiap cluster. Cluster warna biru cenderung landai, artinya semakin banyak dana marketing yang dikeluarkan revenue yang didapatkan tidak akan jauh berubah. Hal ini juga bisa dilihat dari koefisiennya yang bernilai 0,94. Cluster merah dan Cluster orange sama-sama menunjukkan peningkatan. Namun pada Cluster merah nilai peningkatannya lebih besar dibanding dengan Cluster orange. Hal ini juga bisa dilihat dari koefisien Cluster orange (7,32) yang lebih tinggi dari koefisien Cluster merah(3,17). Dari sini kita tahu kalau Cluster orange lebih potensial untuk dikembangkan karena memiliki trend penginkatan revenue yang lebih besar.
Tantangan bisnis kita adalah untuk melihat tiga lokasi yang potensial dari sepuluh lokasi baru. Tambahkan Highlight untuk menyorot data sepuluh lokasi baru.
Dari sini kita bisa melihat sepuluh lokasi baru pada data kita. Cluster potensial berada pada cluster warna merah, jadi kita bisa mengambil tiga lokasi teratas dari cluster merah untuk dikembangkan lebih lanjut.
Cluster yang telah kita buat bisa disimpan dan digunakan untuk melakukan analisis selanjunya. Klik dan seret Cluster ke data tab untuk menyimpan Cluster. Setelah itu Cluster bisa digunakan untuk membuat visualisasi.
Bar chart ini menguatkan analisis kita kalau cluster warna biru memiliki rata-rata jumlah penduduk yang rendah.
Sekian ulasan tentang “Tableau for Data Science”. Semoga bermanfaat.