Statistika Data Berkelompok

Menggali informasi data dengan cara mengelompokkannya
Menggali informasi data dengan cara mengelompokkannya.

Penyajian Data

Ada cara lain ketika kita ingin menyajikan data yang jumlahnya banyak sehingga penyajiannya menjadi lebih sederhana, yaitu dalam bentuk suatu interval tertentu. Misal kita punya data berupa berat badan 40 siswa-siswi kelas XII, penyajian data tersebut dapat kita bagi-bagi berdasarkan kelas-kelasnya.

Seperti contoh kelas 43-48\,\text{kg}, kelas 49-54\,\text{kg}, dan lainnya, kemudian dari data yang kita miliki, kita perhatikan seberapa sering muncul (frekuensi) berat badan pada interval tersebut, termasuk batas atas dan bawahnya, contoh batas bawah pada interval sebelumnya 43 dan 49, batas atasnya yaitu 48 dan 54.

Kita langsung coba implementasi aja, misal data berat badan siswa-siwi kelas XII tersebut yaitu

4851756043568363
5352437567817549
6679516370476659
5761488064705762
7863576579466773

Jika kita inginkan terdapat sebanyak 5 buah interval, maka masing-masing rentang pada interval tersebut mempunyai selisih sebesar rentang antara nilai terbesar dan terkecil dibagi dengan banyak intervalnya, \frac{83 - 43}{5}=8. Dan rentang-rentang tersebut yaitu

KelasFrekuensi f
43-519
52-608
61-6912
70-787
79-874

Kalau sekilas memang terlihat lebih nyaman untuk diamati penyajian data seperti ini, itulah kelebihan dari penyajian data dalam bentuk distribusi frekuensi, kira-kira ada yang tau kekurangannya gak? Coba perhatikan bahwa, misal pada kelas 52-60 kita melihat terdapat 12 data pada interval tersebut.

Nah, namun kita tidak mengetahui rincian datanya, maksudnya, dari 12 data tersebut kita gak tahu persebaran datanya. Bisa aja 12 data tersebut, ternyata berisi 53\,\text{kg} semua, atau bisa juga berisi 60\,\text{kg} semua, dan lainnya.

Ukuran Pemusatan Data

Kita ikhlaskan aja fakta tersebut, sekarang kita fokus buat mengamati serta menggali (mengekstrak) informasi dari penyajian data tersebut. Kali ini kita tertarik untuk mengetahui rata-rata berdasarkan penyajian sebelumnya. Idenya adalah, kita gunakan nilai tengah dari masing-masing interval.

Setelah kita dapat nilai tengahnya, kita asumsikan nilai tersebut sebagai nilai yang merepresentasikan rentang tersebut, kemudian kita kalikan dengan banyak data pada rentang tersebut. Contoh, nilai tengah pada interval 43-51 yaitu \frac{51+43}{2} = 49 (nilai yang berada di tengah-tengah antara nilai atas dan nilai bawah).

Kita hitung semua nilai tengah untuk masing-masing interval, yakni sebagai berikut

KelasFrekuensi fNilai Tengah x_i
43-51949
52-60856
61-691265
70-78774
79-87483

Konsep rata-rata sendiri yang kita ketahui sejauh ini yaitu jumlahan dari suatu data kemudian dibagi dengan banyaknya data tersebut. Nah, dalam kasus ini jumlahan data tersebut diwakili oleh nilai tengah dikalikan dengan frekuensinya, kemudian untuk banyak datanya yaitu jumlahan semua frekuensi.

Secara matematis rata-ratanya ditulsikan seperti berikut

\bar x = \frac{x_1f_1 + x_2f_2 + \cdots+x_nf_n}{f_1+f_2+\cdots+f_n}
\bar x = \frac{\Sigma_{n}x_if_i}{\Sigma_{n} f_i}

, dan dalam hal ini rata-ratanya adalah 62.975

Selain itu, ada cara yang lainnya, yaitu dengan memanfaatkan penlaran kita. Maksudnya, secara nalar kita berspekulasi bahwa data tersebut kemungkinan rata-ratanya berada di interval 61-69, nah nilai tengah dari interval tersebut akan kita jadikan rata-rata sementara.

Secara matematis, rumus untuk rata-rata yang dimaksud yaitu

\bar x = x_s + \frac{\Sigma_n f_i d_i}{\Sigma_n f_i} .

Apa maksudnya dari persamaan tersebut? Artinya kurang lebih seperti ini, dengan mengasumsikan x_s sebagai rata-rata sementara, kemudian rata-rata datanya diketahui berdasarkan pembobotan berdasarkan interval yang memiliki frekuensi terbanyak kedua.

Jika interval yang nilainya kurang dari interval rata-rata sementara lebih banyak ketimbang yang lebih besar, maka akan membuat \frac{\Sigma_n f_i d_i}{\Sigma_n f_i} menjadi negatif, alhasil \bar x akan kurang dari x_s, dan sebaliknya.

Untuk data sebelumnya, kita sajikan kembali datanya menjadi

KelasFrekuensi fNilai Tengah x_id_i=x_i-x_s
43-51949-16
52-60856-9
61-6912650
70-787749
79-8748316

, dan rata-ratanya adalah 62.775.

Kemudian untuk mengetahui modusnya (data yang sering muncul), kita dapat memanfaatkan rumus berikut

M_o = t_b + k\frac{d_1}{d_1+d_2}

, di mana t_b merupakan tepi bawah kelas modus, d_1 selisih frekuensi kelas modus dengan kelas sebelumnya, sedangkan d_2 dengan kelas sesudahnya, dan k panjang kelas.

Untuk data kita sebelumnya, kelas modus kita yaitu 61-69 (frekuensi terbanyak), sehinggat_b = 61 - 0.5 = 60.5, d_1 = 12 - 8=4, d_2 = 12 -7=5, dan k = (69-61)+1=9. Dengan demikian modusnya adalah

M_o = 60.5 + 9\frac{4}{4+5}
\rightarrow M_o = 64.5

Perhatikan bahwa, ada yang menarik di sini, ingat lagi pada fakta-fakta sebelumnya, bisa saja interval 52-60 meskipun mempunyai frekuensi 8 tapi isinya 55 sebanyak 8 buah, sedangkan pada 69-61 isinya beragam semua.

Selanjutnya, kita akan coba mencari mediannya alias nilai tengah dari keseluruhan data, untuk mengetahuinya kita bisa manfaatkan rumus sebagai berikut

M_e = t_m+k\frac{\frac{n}{2}-F}{f_m}

, di mana t_m merupakan tepi bawah kelas median, n banyak data, F frekuensi kumulatif tepat sebelum kelas median, f_m frekuensi kelas median, dan k panjang kelas.

Untuk data sebelumnya, kelas median berada di interval 61-69, dengan t_m = 61-0.5=60.5, n = 40, F = 9+8=17, f_m = 12, dan k = (69-61)+1 = 9, mediannya

M_e = 60.5 + 9\frac{\frac{40}{2}-17}{12}
\rightarrow M_e = 67.25

Ukuran Persebaran Data

Konsep paling sederhana untuk melihat seberapa menyebar suatu data adalah rentang data atau jangkauan (range). Untuk data tunggal kita tinggal mencari selisih antara data tertinggi dengan data terendah.

Pada data berdistribusi, jangkauan R merupakan selisih antara nilai tengah pada kelas tertinggi dengan kelas terendah. Pada data sebelumnya, jangkauannya adalah

R = \frac{87+79}{2} - \frac{51+43}{2} = 36.

Nampaknya, jangkauan saja tidak cukup untuk merepresentasikan persebaran data, ingat! Bisa saja data berkumpul disekitar nilai tertentu, kita perlu konsep lainnya. Oke kita lanjutkan dengan konsep simpangan rata-rata, untuk data berdistribusi simpangan rata-ratanya yaitu

S_R = \frac{\Sigma^{n} f_i\lvert x_i - \bar x\rvert}{\Sigma^{n} f_i}

, di mana x_i nilai tengah pada kelas ke-i, \bar x rata-rata data.

Dari rumus tersebut kita bisa melihat bahwa, semakin tersebar datanya maka akan semakin besar selisihnya (simpangannya) terhadap rata-ratanya.

Namun perlu diperhatikan lagi, karena ada yang menarik di sini, misal pada rentang yang jauh dari rata-rata mempunyai frekuensi kecil, sedangkan yang dekat mempunyai frekuensi yang besar, ada kemungkinan kita tidak bisa membedakkan ketika hal yang terjadi sebaliknya.

Perbedaan antara simpangan rata-rata dengan simpangan baku

Kita bisa gunakan konsep lain yang disebut sebagai simpangan baku atau standar deviasi, di mana selisih (simpangan) nilai tengah dengan rata-rata dihitung berdasarkan bentuk kuadrat, rumusnya yakni seperti berikut

S_B = \sqrt{\frac{1}{n}\Sigma^{n}f_i\cdot(x_i-x_n)^2}

, dengan penjelasan variabel-variabel yang sama seperti sebelumnya.

Apa yang berbeda di sini? Yang berbeda yaitu, simpangan yang lebih jauh akan memiliki bobot yang lebih besar karena selisihnya dikuadratkan. Dengan demikian kita lebih mudah membedekkan mana distribusi yang tersebar hanya disekitar nilai tertentu dengan yang benar-benar tersebar.

Label
< Materi SebelumnyaSistem Pertidaksamaan Dua Variabel (SPtDV)
Search icon