
PENDAHULUAN
Perkembangan teknologi, terutama internet, telah mengubah cara komunikasi dengan pesat. Banyak platform, termasuk media sosial, telah dikembangkan untuk berkomunikasi secara online. Indonesia memiliki 191 juta pengguna aktif media sosial pada Januari 2022, meningkat 12,35% dari tahun sebelumnya (Fachriza & Munawar, 2023). Platform media sosial seperti Twitter telah menjadi sarana yang populer bagi masyarakat untuk mengekspresikan opini, pandangan, dan sentimen mereka terhadap berbagai topik, termasuk pandangan terhadap Generasi Z (Gen Z). Generasi Z mencakup individu yang lahir dari tahun 1996 hingga 2010 (Bencsik, 2016) menjadi kelompok demografis yang kian menonjol dalam peta perkembangan sosial ekonomi (Muaviah et al., 2023). Pada bulan Juli 2023, Twitter resmi berganti nama menjadi platform X setelah diakuisisi oleh Elon Musk. Perubahan ini tidak hanya mencakup pergantian nama dan logo, tetapi juga memengaruhi sejumlah fitur serta istilah yang sebelumnya telah dikenal luas. Misalnya, istilah “tweet” kini digantikan menjadi “post”, dan “retweet” berubah menjadi “repost”.
Analisis sentimen disebut juga dengan opinion mining, yaitu suatu proses untuk menentukan apakah suatu ekspresi bersifat positif, negatif, atau netral. Tujuan analisis sentimen adalah menganalisis opini, sikap, evaluasi, dan emosi seseorang terhadap topik, produk, layanan, atau kegiatan tertentu, serta pendekatan berbasis aspek digunakan untuk mengklasifikasikan ulasan mengenai suatu topik secara spesifik dan akurat (Oktaviani Enjela Putri , Viktor H Pranatawijaya, 2024). Teknik ini dapat dimanfaatkan untuk memahami persepsi masyarakat terhadap Gen Z melalui konten yang diunggah di platform X. Dalam konteks ini, penggunaan algoritma machine learning seperti Random Forest dan Naive Bayes dapat meningkatkan akurasi dalam analisis sentiment.
Random Forest adalah metode klasifikasi ensemble yang terdiri dari kumpulan pohon keputusan acak (decision tree) (Susanto et al., 2023). Sementara itu Naive Bayes sebuah metode yang tidak memiliki aturan dan menggunakan cabang matematika yang sering disebut dengan teori probabilitas untuk mendapatkan peluang setinggi mungkin dengan melihat kemunculan jumlah setiap klasifikasi dalam data yang digunakan (Peni et al., 2024). Kedua metode ini telah terbukti efektif dalam analisis sentimen pada berbagai konteks dan dapat digunakan untuk mengklasifikasikan sentimen teks data dari platform X.
Tujuan dari riset ini adalah untuk menganalisis sentimen masyarakat terhadap Generasi Z di platform X dengan menggunakan metode machine learning yaitu Random Forest dan Naive Bayes. Riset ini diharapkan dapat memberikan wawasan mengenai persepsi masyarakat terhadap Gen Z, baik dalam aspek positif, negatif, maupun netral.
METODE RISET
Riset ini melibatkan beberapa tahap, mulai dari pengumpulan data dari platform X, penyaringan dan prapemrosesan post, hingga pelabelan menggunakan teknik Inset Lexicon. Selanjutnya, hasil divisualisasikan, diikuti dengan proses pembobotan dan evaluasi melalui perbandingan antara model Naïve Bayes dan Random Forest. Tahapan kerangka riset ditunjukkan pada Gambar 1.

Gambar 1 Kerangka Riset
Tahap awal dalam riset ini adalah pengumpulan dataset melalui metode crawling menggunakan Tweet Harvest dan Autentikasi API Cookie di platform X. Media ini dipilih karena dinilai sebagai sumber informasi tercepat dibandingkan media sosial lainnya.
Dalam proses ini, sebanyak 6392 entri dengan kata kunci “Gen Z” berhasil dikumpulkan dalam rentang waktu 10–20 Februari 2025. Data tersebut dikumpulkan untuk memperoleh wawasan terkait topik yang sedang banyak dan hangat diperbincangkan.
Langkah-langkah pengumpulan data dimulai dengan pembuatan akun X, dilanjutkan dengan ekstraksi auth token melalui tab “Application” di menu “Inspect“. Selain itu, Node.js dipasang karena Tweet Harvest dibangun menggunakan teknologi tersebut. Setelah itu, Tweet Harvest versi 2.6.1 diinstal di Google Colaboratory untuk menjalankan proses crawling. Setelah semua persiapan selesai, pencarian dilakukan dengan memasukkan kata kunci “gen z” serta menetapkan rentang waktu yang telah ditentukan.
Proses filtering dan preprocessing dataset dilakukan untuk memastikan kualitas data yang baik, sehingga model dapat menghasilkan output yang lebih akurat. Adapun tahapan yang dilakukan dalam penelitian ini adalah sebagai berikut.
- Tahap filtering post dilakukan untuk memastikan bahwa hanya post yang relevan yang digunakan dalam penelitian ini. Tahapan penyaringan meliputi penghapusan post yang tidak mengandung kata kunci “gen z”, post yang tidak berbahasa Indonesia, serta duplikasi post. Setelah proses ini dilakukan, jumlah post yang awalnya berjumlah 6.392 berkurang menjadi 3.677 post.
- Tahap case folding dilakukan untuk menyamakan format teks dalam dataset dengan mengonversi seluruh huruf dalam post menjadi huruf kecil, sehingga memastikan konsistensi dalam pemrosesan data.
- Tahap cleaning teks dilakukan untuk membersihkan data dengan menghapus URL, mention/hashtag, karakter khusus, angka, tanda baca, serta menghilangkan spasi berlebih agar teks lebih terstruktur dan siap untuk diproses lebih lanjut.
- Tahap tokenizing dilakukan dengan memecah teks menjadi kata-kata agar lebih mudah dianalisis. Dengan cara ini, setiap kata bisa diproses secara terpisah untuk langkah selanjutnya.
- Tahap normalization dilakukan dengan mengatasi kata-kata singkatan dan slang dalam bahasa Indonesia. Proses ini menggunakan daftar kata colloquial-indonesian-lexicon.csv dari nasalsabila yang tersedia di GitHub untuk mengonversi kata tidak baku menjadi bentuk standar.
- Tahap filtering dilakukan dengan menghapus kata-kata yang tidak memiliki makna penting (stopword) dalam teks berbahasa Indonesia. Proses ini menggunakan daftar stopwords-id.txt dari genediazjr yang tersedia di GitHub untuk menghilangkan kata-kata yang tidak berkontribusi pada analisis.
- Tahap stemming dilakukan dengan mengubah kata berimbuhan ke bentuk dasarnya menggunakan paket katadasaR.
Langkah berikutnya adalah melakukan pelabelan pada post menggunakan pendekatan lexicon dengan kamus INSET (Indonesian Sentiment), yang berisi daftar kata bermuatan positif dan negatif. Proses ini memanfaatkan daftar kata INSET dari fajri91 yang tersedia di GitHub. Setiap kata dalam dataset dibandingkan dengan entri dalam kamus tersebut. Jika kata ditemukan, maka akan diberikan bobot sesuai polaritasnya, yaitu positif (+1 hingga +5) atau negatif (-1 hingga -5). Sementara itu, kata yang tidak terdaftar dalam kamus akan diberi bobot 0 atau dikategorikan sebagai netral. Hasil dari tahap ini adalah dataset yang telah diklasifikasikan dan siap untuk analisis sentimen lebih lanjut.
Selanjutnya, hasil pelabelan sentimen divisualisasikan dalam bentuk pie chart dan word cloud. Pie chart digunakan untuk membandingkan persentase masing-masing kategori sentimen, sehingga memudahkan dalam memahami distribusi sentimen secara keseluruhan. Selain itu, pie chart juga membantu mengidentifikasi kecenderungan sentimen yang dominan dalam dataset. Sementara itu, word cloud digunakan untuk menampilkan kata-kata yang paling sering muncul dalam setiap kategori sentimen, di mana frekuensi kemunculan ditandai dengan ukuran font yang lebih besar.
Langkah berikutnya adalah melakukan pembobotan dengan metode Term Frequency-Inverse Document Frequency (TF-IDF). TF-IDF merupakan suatu statistik numerik yang mengukur seberapa penting sebuah kata dalam sebuah dokumen. Metode ini menjadi salah satu teknik ekstraksi fitur yang paling umum digunakan dalam berbagai bidang, termasuk klasifikasi teks. Dalam text mining, TF-IDF sering dimanfaatkan sebagai faktor pembobotan dengan menentukan tingkat keterkaitan suatu kata terhadap dokumen. Tujuan dari pembobotan ini adalah untuk memberikan nilai pada setiap kata sehingga dapat digunakan sebagai input dalam proses klasifikasi.
Tahap terakhir adalah evaluasi model Naïve Bayes dan Random Forest. Pada tahap ini, data akan dibagi menjadi data latih dan data uji dengan tiga skenario perbandingan, yaitu 60:40, 70:30, 80:20, dan 90:10. Tujuan dari evaluasi ini adalah untuk membandingkan performa kedua model guna menentukan kombinasi perbandingan data yang menghasilkan tingkat akurasi tertinggi. Pengukuran kinerja model dilakukan dengan menggunakan confusion matrix, yang membantu dalam menilai sejauh mana model mampu mengklasifikasikan data dengan benar.
HASIL DAN PEMBAHASAN
Data yang diperoleh melalui proses crawling dengan kata kunci ‘Gen Z’ pada rentang waktu 10–20 Februari 2025 mencakup 6.392 post. Selanjutnya, dilakukan tahap filtering post dengan menghapus post yang tidak mengandung kata kunci, post yang bukan berbahasa Indonesia, serta post yang terduplikasi. Setelah proses ini, tersisa 3.677 post yang dianggap relevan.
Setelah tahap filtering, dilakukan preprocessing untuk menyelaraskan format dan membersihkan data. Proses ini mencakup case folding, cleaning, tokenizing, normalisasi, filtering, dan stemming. Hasil akhir dari tahapan preprocessing diilustrasikan pada Tabel 1.
Table 1 Hasil Preprocessing Data
Seblum Preprocessing | Emang begini ya cara kerja anak Gen Z. Giliran dia yg gak masuk gak bisa diganggu sama sekali giliran aku yg lagi sakit ditelponin terus. Ya Tuhaan gimana caranya biar aku punya kesabaran setebel skripsi 2000 halaman https://t.co/O7zdlrAHPC |
Case Folding | emang begini ya cara kerja anak gen z. giliran dia yg gak masuk gak bisa diganggu sama sekali giliran aku yg lagi sakit ditelponin terus. ya tuhaan gimana caranya biar aku punya kesabaran setebel skripsi 2000 halaman https://t.co/o7zdlrahpc |
Cleaning | emang begini ya cara kerja anak gen z giliran dia yg gak masuk gak bisa diganggu sama sekali giliran aku yg lagi sakit ditelponin terus ya tuhaan gimana caranya biar aku punya kesabaran setebel skripsi halaman |
Tokenization | [”emang” ”begini” ”ya” ”cara” ”kerja” ”anak” ”gen” ”z” ”giliran” ”dia” ”yg” ”gak” ”masuk” ”gak” ”bisa” ”diganggu” ”sama” ”sekali” ”giliran” ”aku” ”yg” ”lagi” ”sakit” ”ditelponin” ”terus” ”ya” ”tuhaan” ”gimana” ”caranya” ”biar” ”aku” ”punya” ”kesabaran” ”setebel” ”skripsi” ”halaman”] |
Normalization | [”memang” ”begini” ”ya” ”cara” ”kerja” ”anak” ”gen” ”z” ”giliran” ”dia” ”yang” ”tidak” ”masuk” ”tidak” ”bisa” ”diganggu” ”sama” ”sekali” ”giliran” ”aku” ”yang” ”lagi” ”sakit” ”ditelponin” ”terus” ”ya” ”tuhan” ”bagaimana” ”caranya” ”biar” ”aku” ”punya” ”kesabaran” ”setebel” ”skripsi” ”halaman”] |
Filtering | [”cara” ”kerja” ”anak” ”gen” ”z” ”giliran” ”masuk” ”diganggu” ”giliran” ”sakit” ”ditelponin” ”tuhan” ”caranya” ”kesabaran” ”setebal” ”skripsi” ”halaman”] |
Stemming | [”cara” ”kerja” ”anak” ”gen” ”z” ”giliran” ”masuk” ”ganggu” ”giliran” ”sakit” ”telepon” ”tuhan” ”cara” ”sabar” ”tebal” ”skripsi” ”halaman”] |
Setelah Preprocessing | cara kerja anak gen z giliran masuk ganggu giliran sakit telepon tuhan cara sabar tebal skripsi halaman |
Setelah tahap preprocessing data selesai, langkah berikutnya adalah melakukan pelabelan sentimen menggunakan pendekatan lexicon dengan kamus INSET (Indonesian Sentiment). Hasil analisis menunjukkan bahwa sentimen masyarakat terhadap Generasi Z cenderung negatif sebesar 37,6%, diikuti oleh sentimen positif sebesar 31,7%, dan sentimen netral sebesar 30,7%. Visualisasi hasil analisis ditampilkan dalam bentuk diagram pie chart pada Gambar 2.

Gambar 2 Persentase Sentimen Positif, Negatif, dan Netral
Proporsi ini menunjukkan bahwa lebih dari sepertiga opini yang dianalisis memiliki sentimen negatif terhadap Generasi Z, sementara sentimen positif dan netral hampir seimbang. Visualisasi yang lebih baik dengan word cloud untuk masing-masing kategori sentimen seperti terlihat pada Gambar 3.

Gambar 3 Word cloud Sentimen Negatif
Berdasarkan visualisasi word cloud sentimen negatif di atas, kata yang dapat disoroti adalah “kerja” dan “salah”. Kemunculan kedua kata ini menunjukkan adanya pandangan negatif yang cukup sering muncul dalam opini masyarakat tentang Generasi Z.
Kata “kerja” kemungkinan muncul karena banyaknya perbincangan terkait dunia kerja, seperti pola kerja, etos kerja, atau tantangan yang dihadapi. Bisa jadi ada anggapan bahwa Generasi Z memiliki cara kerja yang berbeda dari generasi sebelumnya, yang kadang menimbulkan pro dan kontra.
Sementara itu, kata “salah” mungkin muncul dalam berbagai konteks, seperti kesalahan dalam mengambil keputusan, perbedaan pendapat, atau anggapan bahwa Generasi Z sering disalahkan dalam berbagai situasi. Kata ini bisa mencerminkan adanya ketidaksepakatan atau kritik terhadap pandangan atau tindakan mereka. Pandangan yang lebih jelas mengenai karakteristik dari sentimen negatif diperlihatkan pada Gambar 4.

Gambar 4 Top 20 kata yang paling sering muncul dalam sentimen negatif
Gambar ini memperlihatkan kata-kata yang paling sering muncul dalam komentar dengan sentimen negatif. Dari perspektif yang lebih luas, grafik ini mampu menyoroti beberapa kata yang mungkin kurang terlihat dalam word cloud. Selain kata “kerja” dan “salah”, muncul juga kata “tua” dan “milenial” yang mengindikasikan adanya komentar yang mengaitkan Gen Z dengan gen Milenial. Hal ini kemungkinan menunjukkan adanya perbandingan antar generasi, terutama dalam konteks kerja. Selain itu, kemunculan kata “milenial” juga dapat menunjukkan bahwa komentar tersebut berasal dari sudut pandang milenial yang menyampaikan opininya terhadap Gen Z di platform X, dalam konteks sentimen negatif.

Gambar 5 Word cloud Sentimen Netral
Kata-kata yang dapat disoroti dalam word cloud sentimen netral di atas adalah “anak” dan “lagu”. Kemunculan kata-kata ini menunjukkan bahwa opini masyarakat mengenai Generasi Z dalam konteks ini bersifat netral, tanpa kecenderungan positif atau negatif.
Kata “anak” kemungkinan digunakan untuk merujuk pada Generasi Z secara umum, baik dalam pembahasan mengenai karakteristik, gaya hidup, maupun kebiasaan mereka. Adapun kata “lagu”, kemungkinan berkaitan dengan kebiasaan Generasi Z dalam mengonsumsi musik, baik dalam hal selera, tren musik yang sedang populer, maupun diskusi mengenai artis atau genre tertentu yang sering dikaitkan dengan preferensi musik mereka sendiri.

Gambar 6 Word cloud Sentimen Positif
Berdasarkan visualisasi word cloud sentimen positif pada gambar di atas, terdapat beberapa kata yang menonjol, yaitu “banget”, “tau”, “lagu”, dan “kerja”. Kemunculan kata-kata ini mencerminkan persepsi positif masyarakat terhadap Generasi Z dalam berbagai aspek.
Kata “banget” digunakan sebagai ekspresi yang menegaskan karakteristik khas Generasi Z. Frasa seperti “Gen Z banget“ sering digunakan untuk menggambarkan pola pikir, kebiasaan, atau gaya hidup mereka yang unik dan mencolok dibandingkan generasi lainnya. Sementara itu, kata “tau” menunjukkan bahwa Generasi Z tumbuh di era yang dikelilingi oleh teknologi, sehingga mereka memiliki akses yang luas terhadap informasi. Kemampuan mereka dalam memperoleh dan memahami informasi dengan cepat membuat mereka lebih terinformasi dan sadar akan berbagai tren serta isu sosial. Kata “lagu”, seperti dalam konteks sentimen netral, mungkin menggambarkan bahwa banyak individu dari Generasi Z memiliki selera musik yang dianggap bagus atau unik. Selain itu, generasi ini juga berkontribusi dalam industri musik, baik sebagai penulis lagu, penyanyi, maupun pemusik, dengan karya-karya yang banyak disukai oleh masyarakat. Terakhir, kata “kerja” dalam perspektif positif mengindikasikan bahwa Generasi Z memiliki tingkat adaptasi yang tinggi terhadap teknologi. Melek teknologi yang mereka miliki memungkinkan mereka untuk memanfaatkan berbagai inovasi digital guna meningkatkan efisiensi dan produktivitas dalam dunia kerja.
Setelah tahap preprocessing dan pelabelan, langkah selanjutnya adalah menghitung bobot kata menggunakan metode Term Frequency-Inverse Document Frequency (TF-IDF) dengan fungsi weightTfIdf pada paket tm. Hasil perhitungan ini kemudian disimpan dalam bentuk data frame dan digunakan sebagai input untuk proses klasifikasi.
Tahap akhir dalam penelitian ini adalah mengevaluasi performa model Naïve Bayes dan Random Forest dengan skenario pembagian data 60:40, 70:30, 80:20, dan 90:10. Hasil evaluasi tersebut disajikan dalam tabel di bawah ini.
Table 2. Perbandingan Kinerja Model Naive Bayes (NB) dan Random Forest (RF) pada Berbagai Pembagian Data
Pembagian | Model | Accuracy | Precision | Recall | F1 Score |
60% : 40% | NB | 60.84% | 58.54% | 58.54% | 57.71% |
RF | 66.00% | 65.10% | 65.10% | 65.48% | |
70% : 30% | NB | 60.69% | 58.23% | 58.23% | 57.93% |
RF | 66.66% | 65.51% | 65.51% | 65.85% | |
80% : 20% | NB | 61.82% | 59.30% | 59.30% | 58.44% |
RF | 67.26% | 66.16% | 66.16% | 66.44% | |
90% : 10% | NB | 63.32% | 60.35% | 60.35% | 59.56% |
RF | 69.29% | 68.05% | 68.05% | 68.23% |
Berdasarkan hasil evaluasi, model Random Forest (RF) secara konsisten memiliki performa lebih baik dibandingkan Naïve Bayes (NB) dalam semua skenario pembagian data. Akurasi model meningkat seiring dengan bertambahnya proporsi data latih, dengan akurasi tertinggi dicapai oleh RF pada skenario 90:10 sebesar 69.29%, sementara NB hanya mencapai 63.32% pada skenario yang sama. Hal ini menunjukkan bahwa RF lebih efektif dalam mempelajari pola dari data yang tersedia.
Dari segi Precision, yang mengukur ketepatan model dalam mengklasifikasikan suatu kategori, RF juga unggul dalam setiap skenario dibandingkan denga NB. Precision tertinggi ditemukan pada skenario 90:10 dengan nilai 68.05%. Nilai precision yang lebih tinggi menandakan bahwa RF lebih baik dalam menghindari kesalahan klasifikasi, terutama dalam menentukan sentimen tertentu.
Selain itu, nilai Recall, yang menunjukkan kemampuan model dalam menangkap seluruh data yang relevan, RF kembali menunjukkan performa lebih baik dibandingkan NB di setiap skenario pembagian data. Recall tertinggi juga terdapat pada skenario 90:10, dengan nilai 68.05% untu RF.
Terakhir, jika melihat F1 Score, yang merupakan keseimbangan antara precision dan recall, RF tetap lebih unggul dibandingka NB. F1 Score tertinggi ditemukan pada skenario 90:10 dengan nilai 68.23%. Hal ini menunjukkan bahwa RF mampu menjaga keseimbangan antara ketepatan klasifikasi dan kemampuan menangkap data relevan, menjadikannya model yang lebih andal untuk tugas klasifikasi sentimen.
Untuk melihat lebih dalam bagaimana performa masing-masing model dalam tiap kategori sentimen, analisis selanjutnya akan dijabarkan berdasarkan jenis sentimen, dimulai dari sentimen negatif, netral, dan positif.
1. Sentimen Negatif
Pada sentimen negatif, Recall NB (89%, 86%, 88%, 91%) selalu lebih tinggi dibandingkan RF (78%, 79%, 81%, 82%) di semua skenario. Hal ini menunjukkan bahwa NB lebih baik dalam menangkap seluruh data dengan sentimen negatif, meskipun Precision NB (54%, 56%, 57%, 58%) lebih rendah dibandingkan RF (62%, 64%, 64%, 71%). Sementara itu, RF memiliki Precision lebih tinggi, yang berarti model ini lebih akurat dalam mengklasifikasikan suatu teks sebagai negatif. Jika dilihat dari F1 Score, yang merupakan keseimbangan antara Precision dan Recall, RF (69%, 71%, 71%, 76%) tetap lebih unggul dibanding NB (67%, 68%, 69%, 71%), terutama pada skenario 90:10 dengan F1 Score sebesar 76% dibandingkan 71% pada NB.
2. Sentimen Netral
Pada sentimen netral, kinerja kedua model relatif seimbang, namun RF cenderung lebih stabil dengan nilai Precision (61%, 59%, 62%, 58%) dan Recall (55%, 55%, 56%, 57%) yang lebih merata. Sementara itu, NB memiliki nilai Precision (59%, 53%, 56%, 55%) dan Recall (30%, 33%, 30%, 29%) yang cukup rendah, yang menunjukkan bahwa model ini kurang mampu mengenali semua teks dengan sentimen netral. Di sisi lain, RF memiliki Precision dan Recall yang lebih baik dibandingkan NB, terutama pada skenario 80:20 dan 90:10. F1 Score tertinggi untuk RF (58%, 57%, 58%, 57%) dalam kategori ini adalah 58%, dibandingkan dengan NB (39%, 41%, 39%, 38%) yang hanya mencapai 41% di skenario terbaiknya.
3. Sentimen Positif
Untuk sentimen positif, RF kembali menunjukkan performa yang lebih baik secara keseluruhan. Precision kedua model cukup tinggi, dengan NB (79%, 78%, 77%, 82%) sedikit unggul di skenario 90:10 dengan Precision 82% dibandingkan RF (80%, 79%, 78%, 79%) yang memiliki 80% di skenario 60:40. Namun, dari segi Recall, RF (62%, 62%, 62%, 65%) lebih baik dengan nilai tertinggi 65% di skenario 90:10, dibandingkan dengan NB (57%, 56%, 56%, 60%) yang hanya 60% di skenario 90:10. F1 Score tertinggi untuk sentimen positif juga ditemukan pada skenario 90:10 dengan RF (69%, 70%, 69%, 71%) mencatatkan 71%, lebih baik dibandingkan NB (66%, 65%, 67%, 70%) yang memperoleh 70%.
KESIMPULAN
Penelitian ini menganalisis sentimen masyarakat terhadap Generasi Z menggunakan data dari platform X yang dikumpulkan melalui proses crawling. Setelah melalui tahap preprocessing dan pelabelan menggunakan kamus INSET, hasil analisis menunjukkan bahwa sentimen negatif mendominasi sebesar 37,6%, diikuti oleh sentimen positif 31,7%, dan sentimen netral 30,7%. Hal ini mengindikasikan bahwa persepsi masyarakat terhadap Generasi Z cenderung lebih banyak bernada negatif.
Lebih jauh, analisis terhadap kata-kata yang sering muncul dalam sentimen negatif mengungkapkan bahwa istilah seperti “kerja”, “salah”, dan “milenial” cukup dominan. Kemunculan kata-kata ini mengarah pada opini-opini yang membandingkan Generasi Z dengan generasi milenial, khususnya dalam konteks dunia kerja. Misalnya, beberapa komentar negatif seperti “Menghadapi Gen Z lebih ribet ketimbang menghadapi Gen Milenial…” dan “Eh ini anak-anak milenial yang kerja bareng Gen Z. Ini Gen Z emang tipenya nggak suka ditegur ya? Ngerasa benar terus.” memperlihatkan adanya stereotip negatif terhadap sikap atau etos kerja Gen Z.
Dalam evaluasi model klasifikasi sentimen, Random Forest terbukti lebih unggul dibandingkan Naïve Bayes dalam semua skenario pembagian data (60:40, 70:30, 80:20, 90:10). Model Random Forest mencapai akurasi tertinggi sebesar 69,29% pada skenario 90:10, sementara Naïve Bayes hanya mencapai 63,32%.
Berdasarkan evaluasi model, Random Forest menunjukkan performa lebih baik dibandingkan Naïve Bayes dalam klasifikasi sentimen Generasi Z. Pada sentimen negatif, Naïve Bayes memiliki Recall lebih tinggi, tetapi Precision lebih rendah, sedangkan Random Forest lebih akurat dalam klasifikasi dengan F1 Score lebih tinggi (76% vs. 71%).
Untuk sentimen netral, Random Forest lebih stabil dengan Precision dan Recall yang lebih seimbang, sementara Naïve Bayes cenderung kesulitan mengenali teks netral dengan Recall hanya 29-33%. F1 Score Random Forest mencapai 58%, jauh di atas Naïve Bayes yang hanya 41%.
Pada sentimen positif, Precision kedua model cukup tinggi, tetapi Random Forest memiliki Recall lebih baik, menghasilkan F1 Score tertinggi sebesar 71% dibandingkan 70% pada Naïve Bayes. Secara keseluruhan, Random Forest lebih andal dalam menjaga keseimbangan antara Precision dan Recall, terutama dalam sentimen netral dan positif, menjadikannya model yang lebih efektif dalam analisis sentimen Generasi Z.
DAFTAR PUSTAKA
Fachriza, M., & Munawar. (2023). Analisis Sentimen Kalimat Depresi Pada Pengguna Twitter Dengan Naive Bayes, Support Vector Machine, Random Forest. Jurnal Teknik Universitas Muhammadiyah Ponorogo, 49–58. http://studentjournal.umpo.ac.id/index.php/komputek
Muaviah, E., Dewi, A. A., & Febriani, N. (2023). Generasi Z : Melangkah di Era Digital dengan Bijak dan Terencana Pendahuluan Era revolusi digital telah mendorong penggunaan teknologi digital di semua bidang kehidupan ( Yang et al ., 2023 ). Generasi Z mencakup individu yang lahir dari tahun 1996 perkem. 1(2), 63–81.
Oktaviani Enjela Putri , Viktor H Pranatawijaya, N. K. (2024). Analisis Sentimen Berbasis Aspek Pada. 4(3), 67–77.
Peni, P., Suarna, N., & Prihartono, W. (2024). Analisis Sentimen Generasi Z Terhadap Pengetahuan Tentang Kehidupan Gay Menggunakan Algoritma Naïve Bayes. JATI (Jurnal Mahasiswa Teknik Informatika), 8(3), 2901–2907. https://doi.org/10.36040/jati.v8i3.9579
Susanto, A., Agung Dzulkarnain, I., Studi Statistika, P., & Matematika Dan Ilmu Pengetahuan Alam, F. (2023). Analisis Sentimen Data Twitter Topik Ekonomi Dan Industri Dengan Metode Naive Bayes Dan Random Forest. Jurnal Ilmiah Wahana Pendidikan, Oktober, 9(20), 59–65. https://doi.org/10.5281/zenodo.8398895