Metodologi Pada Data Mining : SEMMA

By : Kelompok 1

1.R. ANDIKA CIPTO

2.FAJAR PRIYO HUTOMO W

3.RAGIL AHMAD F

4.MUHAMMAD FATHUR

5.HELMI SYAHRIL AKBAR

6.GILANG FADILAH

Data mining merupakan proses untuk menggali (mining) pengetahuan dan informasi baru dari data yang berjumlah banyak pada data warehouse, dengan menggunakan kecerdasan buatan (Artificial Intelligence), statistik dan matematika. Data mining merupakan teknologi yang diharapkan dapat menjembatani komunikasi antara data dan pemakainya

Dalam proses penggalian informasi dari sebuah data tentunya memerlukan metode sebagai panduan untuk membuat alur penggalian informasi menjadi jelas sehingga menghasilkan insight yang bermanfaat. Pada artikel ini akan membahas salah satu metodologi data mining yaitu, SEMMA

SEMMA adalah akronim atau singkatan dari Sample, Explore, Modify, Model, Asses yang merupakan metodologi data mining yang dikembangkan oleh SAS Institute untuk membantu praktisi data mengubah data menjadi pengetahuan. Metodologi ini menyediakan panduan langkah demi langkah untuk melakukan proyek data mining secara sistematis dan terstruktur.

Unsur pembentuk akronim SEMMA sendiri merupakan tahapan-tahapan pada metodologi ini, berikut penjelasan beserta contoh kasus :

Tahapan pada metode SEMMA di implementasikan dalam penelitian Analisis Prediksi Mood Genre Musik Pop Menggunakan Algoritma K-Means dan C4.5 karya Lia Nurhalimah, Teguh Iman Hermanto, dan Ismi Kaniawulan.

Sample

Proses pengumpulan data (sample) dilakukan dengan menggunakan API Spotify. Data yang diambil bersifat mentah dan
berisikan keseluruhan atribut yang ada pada lagu di spotify seperti artist_name, artis_id, energy, track_name hingga
key_mode. Lagu yang diambil berdasarkan kata kunci genre “pop” yang menghasilkan data sebanyak 3.962 data dan 39
atribut. Berikut hasil pengumpulan data musik genre pop dapat dilihat pada gambar 2.

Gambar 2 : Data Musik Genre Pop di Spotify

2. Explore

Setelah melakukan pengumpulan data maka selanjutnya melakukan eksplorasi struktur dataset. Seperti yang dijelaskan
pada bab sebelumnya, dataset yang diperoleh sebanyak 39 atribut.

3. Modify

Tahap ini melakukan modifikasi data dengan menciptakan, memilih dan mengubah variable untuk fokus pada proses
pemilihan model menjadi data akhir. Pada tahap ini atribut yang awalnya 39 menjadi 4 atribut dengan tujuan untuk
memudahkan dalam pemilihan model menjadi data akhir. Untuk hasil akhir atribut yang akan digunakan yaitu dancebility,
energy, tempo dan valence. Dari keempat atribut tersebut yang akan digunakan dalam tahap pengkategorian adalah
valance dengan menjadikan label mood.

4. Model

Tahap ini melakukan pemodelan dengan menggunakan tools RapidMiner. Data hasil preprocessing dan transfromasi data
kemudian disimpan dengan format Microsoft Excel (xlxs.). Data yang diambil adalah 3.962 data dan 4 atribut data yang
sudah melewati proses Pre-Processing meliputi data dancebility, energy, tempo dan valence. Setelah dilakukan analisis
data yang sesuai dengan kebutuhan sistem, yaitu melakukan klastering dengan algoritma K-Means dan klasifikasi dengan
algoritma C4.5.

Hasil Pohon Keputusan Secara Keseluruhan

Dari pohon keputusan dapat diambil suatu informasi berdasarkan atribut bahwa label valance ditetapkan hanya 1
mood yaitu Angry. Untuk label valance jika mood Sad berada diantara nilai 0.601. Untuk label valance jika mood Happy
berada diantara nilai kurang dari 0.800 . Untuk label valance jika mood Cheerful berada diantara nilai lebih dari 0.800.

5. Asses

Setelah melakukan pemodelan, pada tahapan assess akan dilakukan proses evaluasi terhadap model yang sudah dibuat
menggunakan Confusion Matrix.

Berdasarkan hasil pengujian dengan Confusion Matrix maka didapatkan hasil dengan mood paling baik adalah cheerful
dan nilai akurasi sebesar 91,9% class precision Angry 100%, class precision Sad 90.83%, class precision Happy 82.63%
dan class precision Cheerfull 92.97%. Serta class recall Angry 91.06%, class recall Sad 92.04%, class recall Happy
100% dan class recall Cheerful 87.82%.

Metode SEMMA adalah metodologi data mining yang powerful dan mudah digunakan yang dapat membantu praktisi data mengubah data menjadi pengetahuan. Dengan mengikuti langkah-langkah dalam metode SEMMA, Anda dapat meningkatkan peluang keberhasilan proyek data mining dan mendapatkan wawasan berharga dari data Anda.

Referensi :

Nurhalimah, L., Hermanto, T. I., & Kaniawulan, I. (2022). Analisis Prediksi Mood Genre Musik Pop Menggunakan Algoritma K-Means dan C4.5. Jurnal Riset Komputer, 1006–1013.

http://stmik-budidarma.ac.id/ejurnal/index.php/jurikom/article/view/4597

Cari Blog Ini

Helmi Syahril Akbar

Metodologi Pada Data Mining : SEMMA

Komentar

Posting Komentar

Postingan populer dari blog ini

PERTENTANGAN-PERTENTANGAN SOSIAL DAN INTEGRASI MASYARAKAT