Rangkuman “Tableau for Data Science” — Part II

14 min readOct 13, 2022

Catatan ini adalah rangkuman dari kursus Udemy berjudul : Tableau A-Z : Hands-On Tableau Training for Data Science karya Kirill Eremenko, dkk. Jika pembaca ingin belajar lebih detail, saya sarankan untuk belajar di kursus tersebut.

Catatan ini akan menjadi dua bagian.
Rangkuman “Tableau for Data Science” — Part I kita telah membahas tentang:
- Pengenalan Tableau
- Tableau Basic: Your First Bar Chart
- Time Series, Aggregation, dan Filters
- Map, Scatterplots, dan Dashboard
- Joining, Blending, and Relationships

Pada bagian kedua akan membahas tentang:
- Table Calculations, Advanced Dashboard, Storytelling
- Advanced Data Preparation
- Clusters, Custom Territories, Design Features

6. Table Calculations, Advanced Dashboard, Storytelling

Pada bagian ini kita akan membuat beberapa chart yang akan disatukan menjadi dashboard. Kemudian kita akan membuat Story, salah satu fitur Tableau yang bisa digunakan untuk membuat laporan berdasarkan hasil analisa. Dengan Story kita bisa mencerikan insight yang kita dapatkan menjadi sebuah laporan yang menarik. Kali ini kita akan menggunakan dummy data tentang pengguna bank di United Kingdom (UK-Bank-Customer.csv).

Set Geographical Role
Pertama kita akan membuat visualisasi berupa Map untuk wilayah United Kingdom berdasarkan kolom Region. Tetapi kolom Region berupa data teks bukan data geography (map). Ketika data dengan jenis teks dimasukkan kedalam working area maka akan menjadi data kategorikal, sedangkan kita ingin membuat map.

6.1 Visualisasi map dari region dengan jenis data teks menghasilkan data kategorikal

Kasus seperti ini sering kita jumpai ketika ingin membuat Map. Solusinya adalah dengan menentukan Geographical Role pada data yang ingin dibuat menjadi Map.
- klik kanan pada kolom Region
- klik Geographical Role
- pilih state/province

6.2 Cara mengedit geographic role pada tableau

Setelah berhasil maka kolom Region akan berubah menjadi data geographic (tanda globe pada awal kolom). Namun ketika dimasukkan ke working area visulisasi masih terjadi error. Karena Tableau otomatis menentukan negara sesuai dengan lokasi pengguna, dalam hal ini negara diatur menjadi Indonesia. Kita harus mengubah negara menjadi United Kingdom agar bisa mendeteksi state dengan nama England, Scotland, Wales, dan Northern Ireland.

6.3 Mengubah negara agar bisa mendeteksi map

Ubah Marks menjadi Map. Tambahkan kolom Region ke dalam color untuk melihat batas masing-masing state. Tambahkan kolom Count yang dibuat otomatis oleh Tableau untuk melihat jumlah pelanggan ada masing-masing state. Maka visualsasinya menjadi seperti pada gambar dibawah.

6.4 Visualisasi map dari jumlah pelanggan di tiap state

Tabel Calculation
Selanjutnya kita akan membuat Pie Chart untuk melihat sebaran Gender pada data. Kita juga akan memanfaatkan fitur Tabel Calculation untuk mengubah data yang ditampilkan. Buat Pie chart dengan memanfaatkan kolom Gender dan kolom Count untuk melihat jumlah datanya.

6.5 Pie chart dengan data ditampilkan dalam jumlah total

Pada gambar diatas data ditampilkan dalam jumlah total. Kita bisa mengubah tampilan ini dengan memanfaatkan fitur Table Calculation.
- klik kanan pada kolom Count
- pilih Edit Table Calculation
- pilih Percent of Total

Selain Percent of Total, juga terdapat pilihan lainnya seperti: Running Total, Difference, Percent Difference, Percentile, dan Moving Average.

Setelah diubah menjadi persen dan disesuaikan formatnya, maka visualisasinya menjadi seperti berikut:

6.7 Pie chart dengan data ditampilkan dalam persen

Membuat Bin
Kali ini kita akan membuat Bin untuk melihat distribusi usia customer yang menggunakan jasa bank. Ketika kita menggunakan kolom usia untuk membuat visulisasi dan mengaturnya sebagai kategori maka data semua usia akan ditambilkan dalam bar chart. Seperti pada gambar berikut:

6.8 Bar chart yang menampilkan semua usia dalam bar

Gambar diatas memuat semua data usia mulai 18 tahun sampai 64 tahun. Tentu hal ini kurang efektif. Oleh karena itu kita bisa mengelompokkan datanya kedalam Bin.

Hanya kolom measure yang bisa dibuat menjadi bin. Caranya:
- klik kanan pada kolom Age
- pilih Create
- pilh Bins

Kemudian akan muncul prompt Edit Bins. Kali ini kita menentukan Size of bins menjadi 5. Artinya data dikelompokkan kedalam 5 bagian (15–19, 20–24, 25–29, dst).

Setelah berhasil membuat bin, maka akan muncul kolom baru Age (bin) dalam bentuk dimention. Kolom inilah yang akan kita gunakan untuk membuat visulisasi agar lebih mudah dipahami.

Buat beberapa perubahan pada Bar Chart untuk menambah informasi
- ubah Table Calculation menjadi Percent of Total
- masukkan kolom Count pada color untuk melihat sebaran data

Maka didapatkan visulisasi seperti pada gambar dibawah

6.11 Bar chart dengan bin pada kolom age

Memanfaatkan Fitur Parameter
Parameter merupakan pengembangan dari Bin. Dengan fitur Parameter kita bisa berinteraksi dengan mengubah-ubah jumlah Bin sesuai dengan kriteria yang telah ditentukan.

Kali ini kita akan membuat visulisasi yang sama dengan sebelumnya dengan memanfaatkan kolom Balance dan mengatur Bin pada ukuran 10000.

6.12 Bar chart dengan bin pada kolom balance

Selanjutnya kita tambahkan Parameter yang bisa digunakan sebagai ukuran Bin.
- klik kanan pada data tab
- pilih Create Parameter

Kemudian akan muncul prompt Create Parameter. Disini kita perlu menentukan nama parameter, data type, value, serta allowable value yang bisa diisi dengan list dan range.

Buat Parameter dengan nama Balance Group dan sesuaikan seperti pada gambar dibawah.

Setelah selesai maka parameter akan muncul dalam data tab. Namun masih belum bisa digunakan dalam visulisasi. Kita perlu mengubah ukuran Bin (Size of bins) menjadi parameter yang telah kita buat (Balance Group) agar bisa digunakan untuk berinteraksi dengan visualisasi.

Setelah Parameter digunakan sebagai ukuran bin, maka kita bisa mengubah-ubah ukuran bin sesuai dengan nilai Parameter. Pada gambar 6.16 kita mengatur bin pada nilai 20.000, sedangkan pada gambar 6.17 kita mengatur bin pada nilai 10.000. Dari sini kita bisa melihat perbedaan dari keduanya.

6.16 Visualisasi dengan nilai parameter 20.000

6.17 Visualisasi dengan nilai parameter 10.000

Tambahkan juga parameter pada visulisasi sebelumnya yang menggunakan kolom Age. Kali ini buat nilai allowable value sebagai list seperti pada gambar dibawah.

Sama seperti sebelumnya kita perlu mengubah ukuran Bin (Size of bins) menjadi parameter yang telah kita buat (Age Group) agar bisa digunakan untuk berinteraksi dengan visualisasi. Berikut contoh visulisasi yang menggunakan nilai paramaeter = 5.

6.19 Visualisasi dengan nilai parameter 5

Membuat Tree Map
Kali ini kita akan membuat Tree Map dengan memanfaatkan fitur Show Me.
- letakkan kolom Job Classification dan Count pada working area
- klik Show Me
- pilih Tree Map

Sesuaikan visulisasi dengan mengubah warna, sesuaikan ukuran, dan menambahkan label.

Advance Dashboard Interactivity
Kita telah memiliki beberapa chart yang bisa digabungkan ke dalam dasboard. Masukkan semua chart ke dashboard dan atur posisi agar sesuai dengan yang diinginkan. Berikut adalah dashboar yang berhasil kita buat:

Dari dashboard diatas kita bisa mengambil beberapa insight, diantaranya:
- Urutan customer dari yang paling banyak: England, Scotland, Wales, Northern Ireland
- Balance paling banyak antara 0–30K
- Customer paling banyak diusia 30an
- Job Clasificassion paling banyak White Collar

Dashboard diatas belum bisa digunakan untuk berinteraksi karena belum diberikan filter pada masing-masing chart. Ketika kita klik pada map, chart yang lain tetap pada posisi semua (tidak menyesuaikan dengan data di map).

6.22 Dashboard bank customer sebelum ditambahkan filter

Tambahkan filter agar bisa berinteraksi dengan dashboard
- klik tanda panah kebawah pada map chart
- pilih Use as Filter

Terapkan filter pada masing-masing chart

6.23 Menambahkan filter kedalam dashboard

Setelah ditambahkan filter kita bisa melihat dasboard pada masing-masing region. Bagaimana sebaran customer di England, Scotland, Wales, dan Northern Ireland. Dengan mengertahui sebaran dan karakteristik customer ini, bank bisa menyesuaikan layanan dan service yang ditawarkan pada masing-masing region.

6.24 Dashboard sebaran dan karakteristik pada region England

Dasboard diatas menunjukkan sebaran dan karakteristik customer di England. Secara keseluruhan hampir sama dengan dashboard awal, namun terjadi peningkatan pada White Collar pada Job Classification.

6.25 Dashboard sebaran dan karakteristik pada region Scotland

Dasboard kedua menunjukkan sebaran dan karakteristik customer di Scotland. Ada beberapa insight menarik pada dashboard ini. Rata-rata usia menjadi lebih tua, paling paling banyak usia 50 tahun. Gender pria mencapai 72%. White Collar berkurang drastis dari Job Classification, diganti Blue Collar dan Other.

Dashboard Wales hampir sama dengan England, namun memiliki rata-rata Balance yang lebih besar.

6.27 Dashboard sebaran dan karakteristik pada region Northern Ireland

Dashboard Northern Ireland memiliki insight unik yang berbeda dengan region lainnya. Gender lebih banyak wanita, mencapai 74%. Job Classification lebih banyak Other disusul oleh White Collar. Sebaran usia menjadi lebih muda, diantara 20–30an tahun.

Membuat Storyline
Hasil analisis serta insight yang didapat dari dashboard bisa kita buat menjadi visulisasi berupa Story. Kali ini kita akan menggabungkan dashboard awal sebagai baseline, kemudian menambahkan insight yang didapat pada masing-masing region.

Pada bagian bawah Tableau terdapat pilihan untuk menambahkan Story. Berikut adalah tampilan awal dari tab Story.

Kita bisa memasukkan worksheet dan dashboard kedalam Story. Namun kita tidak bisa menambahkan lebih dari satu worksheet seperti pada dashboard. Story bisa memiliki beberapa halaman, tetapi satu halaman hanya bisa diisi dengan satu visualisasi. Kelebihan Story adalah terdapat caption pada bagian atas untuk memberi judul atau memberi keterangan pada visualisasi yang ditampilkan.

nb: klik link berikut untuk melihat Story yang telah saya buat: Recreate — Story of the Bank Customer

7. Advanced Data Preparation

Sebelum membahas tentang data preparation, kita perlu mengatahui seperti apa format data yang mudah dibaca oleh mesin. Format data yang ditampilkan untuk dibaca oleh manusia, berbeda dengan format data yang akan diolah oleh mesin. Oleh karena itu dalam data preparation kita harus megubah data agar lebih mudah diolah oleh mesin.

Mesin atau software untuk mengolah data akan lebih mudah mengolah data yang dikelompokkan pada kolom-kolom tertentu. Satu kolom untuk satu jenis data yang sama. Dalam proses data preparation kita mengenal istilah standarisasi agar satu tabel tidak memuat terlalu banyak jenis informasi. Satu jenis informasi biasanya disimpan dalam satu tabel. Misalnya tabel customer, seller, product, sales, dan lain sebagainya.

7.1 Contoh data yang bisa dibaca oleh mesin namun sulit dibaca oleh manusia

7.2 Contoh data yang bisa dibaca oleh manusia namun sulit dibaca oleh mesin

Gambar 7.1 adalah contoh data yang dibuat agar mudah dibaca oleh mesin. Sedangkan pada Gambar 7.2 adalah data yang dibuat agar mudah dibaca oleh manusia. Ketika kita ingin menganalisis data pada Gambar 7.2 maka kita harus mengubah datanya agar mudah dibaca oleh mesin. Misalnya memisahkan kolom Region dan Country serta melakukan pivot pada kolom tahun.

Data Interpreter
Tableau memiliki fitur Data Interpreter untuk membaca data, menentukan header dan isi data pada tabel. Data pada Gambar 7.2 memiliki judul pada bagian atas, dibawahnya baru berisi tabel. Sedangkan saat kita menganalisis data, kita hanya perlu data yang ada pada tabel saja dan mengabaikan judul. Dengan fitur Data Interpreter proses diatas bisa dilakukan secara otomatis.

7.3 tampilan data sebelum dilakukan Data Interpreter

Sebelum dilakukan Data Interpreter judul pada excel worksheet menjadi header (Gambar 7.3). Setelah dilakukan Data Interpreter judul diabaikan dan menjadikan kolom region dan tahun menjadi header (Gambar 7.4).

7.4 tampilan data setelah dilakukan Data Interpreter

Pivot
Data yang kita gunakan merupakan data yang dirancang agar mudah dibaca oleh manusia. Mari kita ubah agar datanya mudah diolah oleh mesin dengan cara melakukan pivot pada kolom tahun.

Awalnya data tiap tahun disimpan dalam kolom yang berbeda. Dengan fitur pivot kita bisa mengubahnya menjadi dua kolom saja, kolom tahun dan kolom nilai. Jadi setelah melakukan pivot kita akan memiliki 4 kolom. Region, Country, Year, dan Sales.

Cara membuat pivot cukup sederhana. Pilih kolom yang akan dikenakan pivot (kolom tahun) kemudian klik kanan, pilih pivot.

Setelah berhasil melakukan pivot, maka tabelnya akan menjadi seperti berikut:

Tableau juga memiliki fitur untuk melakukan split atau memisahkan kolom. Misalnya kolom nama lengkap ingin dipisah menjadi nama depan dan nama belakang.

Connecting to PDF and Spatial Data
Jika kita perhatikan pada opsi Connect pada Tableau terdapat pilihan untuk menghubungkan dengan PDF file dan Spatial file. Kali ini kita akan mencoba keduanya sebagai alternatif lain selain data Excel file dan Text file.

Ketika ingin memasukkan PDF file kita bisa menentukan halaman mana saja yang ingin dimasukkan kedalam Tableau.

7.7 Pilihan untuk menentukan halaman yang akan dimasukkan pada tableau

Setelah terkoneksi data dari PDF file akan ditampilkan perhalaman. Jika kita memasukkan PDF file yang berisi beberapa halaman, kita perlu melakukan Union pada PDF file agar semua halamannya menjadi satu.

Klik halaman yang ingin dimasukkan, kemudian letakkan dibawah tabel yang pertama sampai muncul tulisan Union. Perhatikan gambar berikut:

Setelah berhasil melakukan Union selanjutnya adalah melakukan data preparation sesuai kebutuhan analisis.

Tableau juga bisa dikoneksikan dengan data spasial, diantaranya:
- Shapefiles (ESRI) = .shp .shx .dbf
- MapInfo tables = .TAB ,DAT ,MAP .ID
- Keyhole Markup Lenguange (KML) = .kml
- GeoJSON = .geojson

8. Clusters, Custom Territories, Design Features

Pada bagian ini kita akan mencoba menyelesaikan tantangan bisnis dengan menganalisis data menggunakan Tableau. Anda adalah seorang Data Scientist yang diminta untuk menganalisis data untuk sebuat perusahaan Start-up dibidang laundry. Perusahaan ingin membuat jaringan di kota yang relatif kecil, karena di kota-kota besar sudah ada kompetitor yang lebih unggul. Perusahaan memiliki 140 cabang dan baru saja membuka 10 cabang baru, yang terbagi ke dalam dua wilayah (region).

Anda ditugaskan untuk membuat analisis mengenai dua hal berikut:

Mengidentifikasi wilayah (region) mana yang paling menguntungkan berdasarkan:
- Rata-rata Revenue di tiap wilayah
- Rata-rata Marketing spend di tiap wilayah
- Rata-rata ROMI (Return on Marketing Investment) di tiap wilayah

2. Mengidentifikasi tiga lokasi dari 10 lokasi baru yang memiliki potensi untuk dikembangkan

Data yang kita gunakan adalah P1-StartupExpansion.xlsx yang berisi kolom Store ID, City, State, Sales Region, New Expansion, Marketing Spend, dan Revenue.

Custom Territories
Kita akan belajar tentang Custom Territories untuk menggabungkan beberapa lokasi menjadi satu wilayah. Pada tantangan bisnis sebelumnya, kita diminta menganalisis wilayah (region) mana yang paling menuntungkan. Sedangkan penentuan wilayah ini tidak sesuai dengan kaidah geografi, tetapi penentuan wilayah ini sesuai dengan ketentuan perusahaan. Pada tabel terdapat kolom Sales Region yang menunjukkan suatu kota masuk ke wilayah mana (Region 1 atau Region 2).

Masukkan kolom State untuk membuat peta. Letakkan kolom Sales Region pada color untuk melihat pembagian wilayah antara Region 1 dan Region 2. Letakkan kolom Revenue pada label untuk melihat revenue pada setiap State.

7.9 Visualisasi revenue pada setiap state

Pada gambar diatas revenue ditampilkan pada setiap State. Sedangkan kita ingin menganalisis untuk setiap Region. Disini kita akan menggunakan fitur Territory untuk menggabungkan beberapa state menjadi satu wilayah.

Ada dua cara untuk membuat Territory, dengan cara Grouping dan Geographic Roles.

Cara membuat Territory dengan Grouping adalah sebagai berikut:
- klik state yang akan dikelompokkan menjadi Territory
- pilih Group
- pilih All Dimension

7.10 Cara membuat terrotory dengan group

Setelah berhasil akan muncul kolom group yang bisa digunakan untuk membuat visualisasi data. Hapus kolom state dari working area, maka visualisasinya akan menjadi seperti berikut:

7.11 Hasil visualisasi dengan territiry yang telah dibuat

Cara kedua untuk membuat Territory adalah dengan memanfaatkan Geographic Roles. Kali ini kita akan membuat kolom Sales Region yang awalnya tipe data teks menjadi tipe data Geopraphic atau map agar bisa digunakan untuk membuat peta.

Cara membuat geographic roles adalah sebagai berikut:
- klik tanda panah kewabah pada kolom Sales Region
- pilih Geographic Roles
- pilih Create from
- pilih State

Langkah-langkah diatas bertujuan untuk menjadi kolom Sales Region sebagai data Geopraphic berdasarkan kolom State. Jadi penentuan Region 1 atau Region 2 berdasarkan kolom State. Sehingga pada visualisasi dengan tipe Map datanya bisa dibaca dengan baik.

7.13 Hasil visualisasi dengan territiry dengan geographic roles

Selanjutnya kita tambahkan label dengan kolom Revenue, Marketing Spend, serta membuat membuat kolom ROMI dengan memanfaatkan fitur Calculated Fields.

7.14 Visualisasi untuk membandingkan pendapatan di tiap region

Dari visualisasi diatas kita tahu bahwa Region 1 memiliki performa yang lebih baik dibandingkan Region 2. Revenue lebih banyak, Marketing yang dikeluarkan lebih sedikit, sehingga prosentase keuntungannya lebih banyak.

Sampai disini tantangan bisnis pertama telah terselesaikan. Mari kita lanjutkan ke tantangan kedua. Mengindentifikasi tiga lokasi dari 10 lokasi baru yang paling potensial. Tantangan bisnis ini akan bisa diselesaikan dengan menggunakan fitur Clustering pada Tableau.

Buat Scatterplot untuk melihat hubungan Revenue dan Marketing Spend pada masing-masing lokasi.

7.15 Scatter plot hubungan revenue dengan marketing spend

Dari gambar kita bisa melihat ada dua kelompok data. Kelompok data di bagian bawah memiliki sedikit Revenue dengan Marketing Spend yang besar. Kelompok data di bagian atas cenderung eksponensial, semakin banyak Marketing Spend yang dikeluarkan semakin banyak pula Revenue.

Kita bisa lebih mudah menganalisis data dengan memanfaatkan fitur clustering. Pada tab Analytics, pilih Cluster. Kemudian masukkan ke dalam working area.

7.17 Visualisasi data setelah ditambahkan cluster

Setelah ditambahkan cluster, secara otomatis akan dibuatkan kelompok data menggunakan konsep K-Mean. Dengan ini kita bisa melihat lebih jelas perbedaan antar masing-masing kelompok (lihat gambar 7.17).

Pada analisis kali ini kita menambahkan data jumlah penduduk tiap kota untuk memperoleh hasil analisis yang lebih baik. Masukkan data jumlah penduduk kedalam cluster, lalu sesuaikan bentuk label.

7.18 Visualisasi data setelah ditambahkan data populasi

Setelah ditambahkan data penduduk tiap kota, visualisasi berubah menjadi tiga cluster. Pada cluster bawah (warna biru) diketahui merupakan kota-kota dengan penduduk relatif sedikit (100.000–110.000 penduduk) dibanding kota-kota di cluster lainnya (<>150.000 penduduk).

Selanjutnya kita tambahkan Trend Line untuk melihat seperti trend pada masing-masing cluster. Pada tab Analytics, pilih Trend Line.

7.19 Menambahkan trend line pada visualisasi

Dari Trend Line ini kita bisa mengetahui kecenderungan tiap-tiap cluster. Cluster warna biru cenderung landai, artinya semakin banyak dana marketing yang dikeluarkan revenue yang didapatkan tidak akan jauh berubah. Hal ini juga bisa dilihat dari koefisiennya yang bernilai 0,94. Cluster merah dan Cluster orange sama-sama menunjukkan peningkatan. Namun pada Cluster merah nilai peningkatannya lebih besar dibanding dengan Cluster orange. Hal ini juga bisa dilihat dari koefisien Cluster orange (7,32) yang lebih tinggi dari koefisien Cluster merah(3,17). Dari sini kita tahu kalau Cluster orange lebih potensial untuk dikembangkan karena memiliki trend penginkatan revenue yang lebih besar.

Tantangan bisnis kita adalah untuk melihat tiga lokasi yang potensial dari sepuluh lokasi baru. Tambahkan Highlight untuk menyorot data sepuluh lokasi baru.

7.20 Highlight untuk melihat lokasi baru

Dari sini kita bisa melihat sepuluh lokasi baru pada data kita. Cluster potensial berada pada cluster warna merah, jadi kita bisa mengambil tiga lokasi teratas dari cluster merah untuk dikembangkan lebih lanjut.

Cluster yang telah kita buat bisa disimpan dan digunakan untuk melakukan analisis selanjunya. Klik dan seret Cluster ke data tab untuk menyimpan Cluster. Setelah itu Cluster bisa digunakan untuk membuat visualisasi.

Bar chart ini menguatkan analisis kita kalau cluster warna biru memiliki rata-rata jumlah penduduk yang rendah.

Sekian ulasan tentang “Tableau for Data Science”. Semoga bermanfaat.

Rangkuman “Tableau for Data Science” — Part II

6. Table Calculations, Advanced Dashboard, Storytelling

7. Advanced Data Preparation

8. Clusters, Custom Territories, Design Features

Written by Ahmad Ilham Habibi

No responses yet