Dimensionality Reduction dan Clustering Analysis pada Dataset Heart Disease menggunakan PCA/UMAP dan GMM/K-Means
DOI:
https://doi.org/10.31849/7jq17t49Keywords:
Dimensionality Reduction, Clustering, Heart Disease, PCA, UMAP, K-Means, GMM, Silhouette ScoreAbstract
Penyakit jantung merupakan salah satu penyebab kematian utama di dunia. Dalam studi ini, dilakukan pendekatan kombinasi reduksi dimensi (PCA dan UMAP) dengan algoritma klastering (K-Means dan Gaussian Mixture Model) untuk mengidentifikasi pola tersembunyi pada dataset penyakit jantung. Hasil evaluasi menggunakan silhouette score menunjukkan bahwa kombinasi UMAP dan K-Means menghasilkan segmentasi yang paling efektif. UMAP menunjukkan keunggulan signifikan dalam penelitian ini karena mampu merepresentasikan struktur laten yang lebih dalam dan kompleks pada data penyakit jantung. Hal ini tercermin dari hasil klasterisasi yang lebih akurat, klaster yang lebih bermakna, dan kemampuan untuk mendeteksi subgrup pasien secara lebih efektif. Temuan ini berpotensi diterapkan untuk segmentasi pasien dan pendeteksian dini risiko penyakit.
References
[1] L. McInnes, J. Healy, and J. Melville, “UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction,” arXiv preprint arXiv:1802.03426, 2018.
[2] M. Shinde and V. Kadam, “Heart Disease Prediction using PCA and SVM,” International Journal of Engineering Research & Technology (IJERT), vol. 9, no. 12, 2020.
[3] A. Ramesh, et al., “Clustering Medical Data with K-Means for Heart Disease Prediction,” Journal of Medical Systems, vol. 45, no. 5, 2021.
[4] F. Pedregosa, et al., “Scikit-learn: Machine Learning in Python,” Journal of Machine Learning Research, vol. 12, pp. 2825–2830, 2011.
[5] UMAP Documentation. [Online]. Available: https://umap-learn.readthedocs.io/
[6] Plotly Documentation. [Online]. Available: https://plotly.com/python/
[7] V. V. Baligodugula and F. Amsaad, “Unsupervised Learning: Comparative Analysis of Clustering Techniques on High-Dimensional Data,” arXiv preprint arXiv:2503.23215, 2025. [Online]. Available: https://arxiv.org/abs/2503.23215
[8] E. Becht, L. McInnes, J. Healy, C.-A. Dutertre, I. W. H. Kwok, L. G. Ng, F. Ginhoux, and E. W. Newell, “Dimensionality reduction for visualizing single-cell data using UMAP,” Nature Biotechnology, vol. 37, no. 1, pp. 38–44, 2019. [Online]. Available: https://pmc.ncbi.nlm.nih.gov/articles/PMC8021860
[9] Y. Guo, C. Wang, Y. Xu, and J. He, “Comparison of dimensionality reduction techniques for high-dimensional data visualization,” Information Fusion, vol. 99, p. 101805, 2024.
[10] Avi Chawla , “KMeans vs Gaussian Mixture Models: A Practical Comparison,” Daily Dose of Data Science, 2023.
