Syntax Literate: Jurnal Ilmiah Indonesia pï¿½ISSN: 2541-0849 e-ISSN: 2548-1398

Vol. 7, No. 12, Desember 2022

DETEKSI PLAGIARISME BERBASIS PARAFRASE PADA TEKS BAHASA INDONESIA

Fauziyah Amini, ï¿½Cahyo Crysdyanï¿½

Magister Informatika UIN Maulana Malik Ibrahim Malang, Indonesia

Email: [email protected], [email protected]

Abstrak

Sistem pendeteksi plagiarisme konvensional perlu modifikasi agar mendapatkan hasil yang maksimal. Penelitian ini mengeksplorasi berbagai algoritma machine learning untuk memodelkan teks yang di parafrase dengan teks yang lain. Tujuan penelitian ini adalah untuk menganalisa kompleksitas masalah plagiarisme berdasarkan parafrase pada teks bahasa Indonesia dan membandingkan keunggulan metode-metode klasifikasi dalam mendeteksi plagiarisme berdasarkan parafrase pada teks bahasa Indonesia. Pada penelitian ini ada beberapa tahapan, yaitu : pengumpulan data, kemudian desain sistem, pada tahap desain sistem ini meliputi data extraction, text pre processing, dan term weighting. Berdasarkan hasil pengujian yang telah diuraikan maka dapat disimpulkan bahwa algoritma KNN dan SVM cukup optimal untuk mengklasifikasi dataset dalam penelitian ini karena menhasilkan akurasi yang memuaskan pada penelitian ini.

Kata Kunci: Deteksi Plagiarisme, Parafrase, Bahasa Indonesia.

Conventional plagiarism detection systems need modifications in order to get maximum results. This research explores various machine learning algorithms to model paraphrased text with other texts. The purpose of this study is to analyze the complexity of plagiarism problems based on paraphrasing on Indonesian texts and compare the advantages of classification methods in detecting plagiarism based on paraphrasing on Indonesian texts. In this study there are several stages, namely: data collection, then system design, at the design stage this system includes data extraction, text pre-processing, and term weighting. Based on the test results that have been described, it can be concluded that the KNN and SVM algorithms are quite optimal for classifying datasets in this study because they produce satisfactory accuracy in this study.

Keywords: Plagiarism Detection, Paraphrasing, Indonesian.

Pendahuluan

Ketersediaan informasi digital yang semakin luas dan semakin mudah memberikan dampak peningkatan terhadap plagiarism (Iswara, 2020). Berdasarkan hasil dari beberapa survei penelitian menunjukkan peningkatan kasus plagiarisme baik dalam karya akademis maupun literatur ilmiah (Aziz, 2015). Plagiarisme dipandang sebagai pelanggaran ilmiah yang serius, pencurian terhadap ide-ide intelektual (Yudhana et al., 2017). Salah satu bentuk plagiarisme yang sering ditemukan saat ini adalah menjiplak karya orang lain dan menuliskannya dengan susunan kata yang berbeda atau yang biasa kita sebut dengan parafrase kalimat (Amini, 2022).

Penelitian yang membahas tentang plagiarisme sudah dilakukan sejak tahun 1990-an. Namun deteksi plagiarisme hanya didasarkan pada kata-kata yang sama kemudian dihitung presentase kemiripan antar dokumen (Yudiantoko, 2016). Metode seperti ini masih belum maksimal untuk menangani plagiarisme yang semakin marak saat ini (Damanik et al., 2021). Karena saat ini bentuk tindakan plagiarisme tidak hanya menjiplak karya orang lain, namun pelaku plagiarisme saat ini mengambil karya ilmiah atau ide orang lain kemudian dituliskan Kembali dengan makna yang sama tetapi dengan susunan kata yang berbeda (Isnaini, 2019). Tindakan plagiarisme seperti ini biasa kita sebut dengan parafrase kalimat.

Identifikasi Parafrase atau Natural Language Sentence Machine (NLSM) adalah salah satu hal yang menantang dalam pemrosesan teks. Dimana peneliti harus mengidentifikasi apakah sebuah kalimat adalah parafrase dari kalimat lain di pasangan kalimat yang diberikan (Julianto et al., 2017). Parafrase kalimat menyampaikan arti yang sama tetapi struktur dan urutan kata-katanya bervariasi. Ini adalah suatu hal menantang karena sulit untuk menyimpulkan konteks yang tepat dalam sebuah kalimat. Parafrase terjadi ketika teks dimodifikasi secara leksikal atau sintaksis (Clough & Stevenson, 2011) agar terlihat berbeda dari sumbernya, tetapi tetap memiliki makna yang sama. Parafrase itu sendiri legal bila dilakukan dengan benar seperti dalam penggunaan kembali teks Jurnalistik (Haryanto et al., 2020), tetapi ketika teks dimodifikasi dan digunakan tanpa menyebutkan sumbernya dengan benar, itu adalah termasuk tindakan plagiarisme.

Penelitian ini menghasilkan sistem pendukung keputusan yang membantu manajer dalam mempromosikan pegawai secara objektif. Aplikasi ini menghasilkan system pendukung keputusan yang menyajikan hasil nilai pegawai berupa grafik dengan menggunakan metode Multifactor Evalution Process (MFEP) (Handhika & Hendrawan, 2021).

Berdasarkan permasalahan yang telah diuraikan sebelumnya, sistem pendeteksi plagiarisme konvensional perlu modifikasi agar mendapatkan hasil yang maksimal. Penelitian ini mengeksplorasi berbagai algoritma machine learning untuk memodelkan teks yang di parafrase dengan teks yang lain. Dengan adanya penelitian ini diharapkan menjadi solusi untuk mencegah tindakan plagiarisme yang semakin marak terjadi pada saat ini. Masalah dalam penelitian ini adalah plagiarisme berdasarkan parafrase pada teks Bahasa Indonesia sulit untuk diidentifikasi dan metode apa yang dapat secara optimal mendeteksi plagiarisme berdasarkan parafrase pada teks Bahasa Indonesia.

Tujuan penelitian ini adalah untuk menganalisa kompleksitas masalah plagiarisme berdasarkan parafrase pada teks bahasa Indonesia dan membandingkan keunggulan metode-metode klasifikasi dalam mendeteksi plagiarisme berdasarkan parafrase pada teks bahasa Indonesia.

Ada pun manfaat penelitian ini adalah dapat membantu instansi pendidikan dalam mencegah praktik plagiarisme dalam lingkungan instansi pendidikan, deteksi plagiarisme memberikan dukungan kepada pelaku akademik untuk membangun nilai-nilai kejujuran, keadilan, dan kepercayaan dalam mengejar integritas akademik. dapat membantu instansi pendidikan dalam mengembangkan konsep integritas pendidikan yang salah satunya mencakup deteksi plagiarisme.

Metode Penelitian

Pada penelitian ini ada beberapa tahapan, yaitu : pengumpulan data, kemudian desain sistem, pada tahap desain sistem ini meliputi data extraction, text pre processing, dan term weighting. Kemudian dilanjutkan dengan uji coba terhadap data menggunakan algoritma K-Nearest Neighbor & Support Vector Machine. Selanjutnya, kedua algoritma dikomparasi untuk melakukan analisis dan terakhir diambil kesimpulan dari penelitian ini. Alur proses desain penelitian dapat dilihat pada Gambar 1.

Gambar 1. Flowchart Prosedur Penelitian

ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½

Tahap pengumpulan data ini dilakukan untuk memperoleh informasi yang dibutuhkan dalam rangka mencapai tujuan pada penelitian ini. Dalam penelitian ini data berbentuk teks, yang didapatkan dari abstrak tugas akhir mahasiswa. Data primer ini didapat melalui e-theses uin malang yang diakses melalui (http://etheses.uin-malang.ac.id). Sample dataset yang digunakan dalam penelitian ini dapat dilihat pada Tabel 1.

Tabel 1. Sample Dataset

Id	qid1	qid2	Dok1	Dok2	Parafrase
0	1	2	Metode fuzzy Sugeno untuk membantu Arduino Uno mengolah data menjadi suatu acuan suhu dan kelembaban yang ideal untuk perkembangan optimal jamur tiram. NodeMCU untuk membantu Arduino Uno mengirimkan data hasil pengolahan di website monitoring.	Tata cara fuzzy Sugeno buat menolong Arduino Uno mencerna informasi jadi sesuatu acuan temperatur serta kelembaban yang sempurna buat pertumbuhan maksimal jamur tiram. NodeMCU buat menolong Arduino Uno mengirimkan informasi hasil pengolahan di web monitoring.	1
1	3	4	Berkumpulnya orang di suatu tempat sehingga membentuk sebuah kerumunan merupakan hal yang lumrah saat ini. Memperkirakan jumlah orang dalam kerumunan merupakan masalah penting untuk berbagai tujuan mulai dari keselamatan umum hingga strategi industri.	Berkumpulnya orang di sesuatu tempat sehingga membentuk suatu kerumunan ialah perihal yang lumrah dikala ini. Memperkirakan jumlah orang dalam kerumunan ialah permasalahan berarti buat bermacam tujuan mulai dari keselamatan universal sampai strategi industri.	1
2	5	6	Sebagai sarana ujian saringan masuk pada perguruan tinggi islam, Pelaksanaan SSE-UMPTKIN tentu perlu mempersiapkan infrastruktur yang berhubungan dengan proses pelaksanannya. Sehingga faktor yang mempengaruhi terjadinya kendala pada pelaksanaan SSE-UMPTKIN dapat dicegah dan diatasi.	Selaku fasilitas tes saringan masuk pada akademi besar islam, Penerapan SSE- UMPTKIN pasti butuh mempersiapkan infrastruktur yang berhubungan dengan proses pelaksanannya. Sehingga aspek yang pengaruhi terbentuknya hambatan pada penerapan SSE- UMPTKIN bisa dicegah serta diatasi.	1
3	7	8	Proses penyusunan aksi rekontruksi rehabilitasi pasca terjadinya bencana merupakan hal penting, karena kegiatan ini dilakukan untuk mengetahui tingkat kerusakan dan tindakan yang perlu dilakukan setelah terjadinya bencana alam sesuai dengan data dilapangan langsung, maka perlunya dilakukan penelitian dengan metode Fuzzy-VIï¿½ekriterijumsko KOmpromisno Rangiranje (Fuzzy-VIKOR).	Proses penataan aksi rekontruksi rehabilitasi pasca terbentuknya musibah ialah perihal berarti, sebab aktivitas ini dicoba buat mengenali tingkatan kehancuran serta aksi yang butuh dicoba sehabis terbentuknya musibah alam cocok dengan informasi dilapangan langsung, hingga perlunya dicoba riset dengan tata cara Fuzzy- VIï¿½ekriterijumsko KOmpromisno Rangiranje( Fuzzy- VIKOR).	1
ï¿½	ï¿½	ï¿½	ï¿½	ï¿½	ï¿½
30	61	62	Di dalam kecerdasan buatan, agen cerdas (AI) adalah sebuah entitas otonom yang mengamati dan bertindak atas suatu lingkungan dan mengarahkan aktivitasnya tersebut untuk mencapai tujuan.	ï¿½Chatbot merupakan sebuah program komputer yang dibangun untuk menampilkan percakapan atau komunikasi interaktif dengan pengguna (manusia) melalui teks, ucapan, dan atau Gambar.	0
31	63	64	Proses pemilihan aplikasi Point of Sale harus didasarkan pada kemampuan dan kebutuhan pembeli.	Ketika pembeli dihadapkan pada banyak pilihan merk POS dan berbagai spesifikasinya kebanyakan pembeli jadi kebingungan memilih aplikasi yang sesuai untuk usahanya.	0
32	65	66	Toko Orisha Beauty merupakan toko yang menjual produk kecantikan yang berlokasi di Batu, Malang.	Toko ini khusus menjual produk bermerek Nu-Skin selain toko offline juga online, sehingga membutuhkan sebuah sistem yang mampu memudahkan dalam merekapitulasi pembelian dari konsumen.	0
33	67	68	Indonesia merupakan negara tropis dan rentan dengan bencana alam. Bencana alam di Indonesia sangat sering terjadi seperti gempa bumi, banjir, kebakaran, Angin Topan dan lain-lain.	Bencana alam menimbulkan dampak bagi warga terdampak, infrastruktur ataupun sektor yang terdapat di Indonesia. Pemerintah pusat, daerah, maupun kota berupaya untuk memberikan rehabilitasi pasca terjadinya bencana alam.	0

Dalam melakukan klasifikasi teks, penelitian ini menggunakan Algoritma K-Nearest Neighbor dan Support Vector Machine.

Hasil dan Pembahasan

A. Desain & Implementasi

K-Nearest Neighbor merupakan salah satu metode klasifikasi digunakan dalam data mining dan machine learning (Baharuddin et al., 2019). Kinerja klasifikasi dari KNN sangat bergantung pada metrik yang digunakan untuk menghitung jarak berpasangan antara titik data (Muflikhah & Mahmudy, 2021). Untuk menghitung k titik data tetangga terdekat yang diinginkan, pada penelitian ini menggunakan cosine similarity sebagai metrik kesamaan (Surenggana et al., 2022). Aturan klasifikasi KNN dibuat oleh sampel pelatihan saja, tanpa data tambahan lainnya. Klasifikasi k-NN, menemukan sekelompok k objek dalam set pelatihan yang paling dekat dengan objek uji, dan mendasarkan penetapan label pada dominasi kelas tertentu di lingkungan ini. Algoritma K-Nearest Neighbor (k-NN) adalah metode untuk mengklasifikasikan objek berdasarkan contoh pelatihan terdekat dalam ruang fitur (Zuhdi et al., 2019). Seperti yang telah disebutkan sebelumnya, pada penelitian ini menggunakan algoritma dalam melakukan klasifikasi teks. Berikut ini adalah Flowchart proses klasifikasi KNN ditunjukan pada Gambar 2.

ï¿½Gambar 2. Flowchart Algoritma KNN

B. Uji Coba

Pada penelitian ini untuk melakukan uji coba algoritma K-Nearest Neighbor digunakan skenario eksperimen sebagai berikut :

1. Menentukan Nilai K yang paling optimal menggunakan Elbow Method

Pada bagian sebelumnya telah diimplementasikan penentuan nilai K menggunakan Elbow Method. Hasil dari metode elbow method meunjukan bahwa nilai K yang paling optimal adalah K=4. Maka selanjutnya akan digunakan nilai K=4.

2. Menggunakan 4 metode pengukuran jarak, yaitu:

a) Klasifikasi teks berdasarkan pengukuran Manhattan Distance

b) Klasifikasi teks berdasarkan pengukuran Euclidean Distance

c) Klasifikasi teks berdasarkan pengukuran Minkowsky Distance

d) Klasifikasi teks berdasarkan pengukuran Chebyshev Distance

Adapun hasil pengukuran jarak pada setiap metode pada pengujian penelitian ini di visualisasikan pada Tabel 4.12.

Tabel 2. Pengukuran Euclidean, Manhattan, Minkowsky, Cebyshev Distance

K	Euclidean	Manhattan	Minkowsky	Chebyshev
1	0.3400778	0.3400778	0.3400778	0.3400778
2	0.	0.	0.	0.
3	0.00461328	0.00461328	0.00461328	0.00461328
4	0.07810293	0.07810293	0.07810293	0.07810293

Berdasarkan Tabel 2 dapat dilihat bahwa pengukuran kedekatan jarak antar obyek dengan 4 metode menghasilkan jarak yang sama dalam setiap perhitungan jarak setiap pasangan kalimat. Maka dapat disimpulkan bahwa pada penelitian ini pemilihan pengukuran jarak tidak memberikan pengaruh yang signifikan terhadap performa algoritma knn dan menghasilkan performa yang sama pada setiap metode pengukuran jarak.

3. Evaluasi performa dari masing- masing algoritma K-Nearest Neighbor akan dihitung Menggunakan Confusion Matrix. Kemudian dari Tabel Confusion Matrix akan dihitung nilai akurasi, precision, recall dan ï¿½f1score. Adapun rumus Confusion Matrix dituliskan pada Tabel 3 :

Tabel 3. Tabel Confusion Matrix

		Actual Values
		Positif	Negatif
Predicted Value	Positive	TP	FP
Predicted Value	Negative	FN	TN

Keterangan :

TP : True Positive merupakan data positif yang diprediksi sebagai data positif.

TN : True Negative merupakan data negatif yang diprediksi sebagai data negative

FP : False Positive merupakan data positif yang diprediksi sebagai data negatif.

FN : False Negative merupakan data positif yang diprediksi sebagai data negatif.

a) Evaluasi hasil klasifikasi algoritma K-Nearest Neighbor berdasarkan pengukuran Manhattan distance

Hasil klasifikasi algoritma K-Nearest Neighbor dengan pengukuran jarak terdekat menggunakan metodeï¿½ Manhattan distance dalam penelitian ini dapat dilihat pada Tabel 4.14.

Dari hasil klasifikasi algoritma KNN dengan pengukuran jarak terdekat menggunakan metode Manhattan distance pada Tabel 4.14 dapat dilihat bahwa dari 60 pasangan data ada 22 data yang termasuk dalam true positif, 31 data termasuk true negative, 7 data termasuk false positif, dan tidak ada data yang termasuk false negative. Maka berdasarkan Tabel 4.14 dapat dihitung nilai akurasi, presisi, recall dan f1 measure.

b) Evaluasi hasil klasifikasi algoritma K-Nearest Neighbor berdasarkan pengukuran Euclidean distance

Hasil klasifikasi algoritma K-Nearest Neighbor dengan pengukuran jarak terdekat menggunakan metode Euclidean distance pada Tabel 4.15 dapat dilihat bahwa dari 60 pasangan data ada 22 data yang termasuk dalam true positif, 31 data termasuk true negative, 7 data termasuk false positif, dan tidak ada data yang termasuk false negative. Maka dapat dihitung nilai akurasi, presisi, recall dan f1 measure.

c) Evaluasi hasil klasifikasi algoritma K-Nearest Neighbor berdasarkan pengukuran Minkowsky distance

Hasil klasifikasi algoritma KNN dengan pengukuran jarak terdekat menggunakan metode Minkowsky distance bahwa dari 60 pasangan data ada 22 data yang termasuk dalam true positif, 31 data termasuk true negative, 7 data termasuk false positif, dan tidak ada data yang termasuk false negative. Maka dapat dihitung nilai akurasi, presisi, recall, dan f1 measure.

d) Evaluasi hasil klasifikasi algoritma K-Nearest Neighbor berdasarkan pengukuran Cebyshev distance

Hasil klasifikasi algoritma KNN dengan pengukuran jarak terdekat menggunakan metode Cebyshev distance pada Tabel 4.17 dapat dilihat bahwa dari 60 pasangan data ada 22 data yang termasuk dalam true positif, 31 data termasuk true negative, 7 data termasuk false positif, dan tidak ada data yang termasuk false negative. Maka berdasarkan Tabel 4.17 dapat dihitung nilai akurasi, presisi, recall dan f1 measure.

5.1 ï¿½ï¿½ï¿½ï¿½ï¿½ Desain & Implementasi

ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ Support Vector Machine (SVM) adalah metode yang mempelajari area yang memisahkan antar kategori dalam sebuah observasi. Dalam terminologi SVM, kita membahas jarak atau margin antar kategori. Setiap kategori memiliki observasi dimana nilai variabel targetnya sama (Williams, 2011). SVM juga dikenal sebagai sistem pembelajaran yang menggunakan hipotesis fungsi linear dalam ruang dimensi tinggi dan dilatih dengan algoritma berdasarkan teori optimasi dengan menerapkan learning bias yang berasal dari teori statistik. Tujuan dari metode ini adalah membangun pemisah optimum yang disebut OSH (Optimal Separating Hyperplane) sehingga dapat digunakan untuk klasifikasi.

Hyperplane terbaik antara kedua kelas dapat ditemukan dengan melakukan pengukuran margin hyperplane dan kemudian mencari titik maksimalnya. Margin adalah jarak antar hyperplane tersebut dengan data terdekat dari masing ï¿½ masing kelas. Data yang paling dekat ini, disebut dengan support vector (Kasim & Sudarsono, 2019). Ilustrasi hyperplane ditunjukan pada Gambar 5.1.

Gambar 5.1 Margin Hyperplane

Seperti pada Gambar 5.1, Support Vector Machine bekerja menemukan hyperplane dengan margin yang maksimal. Hyperplane klasifikasi linear memisahkan kedua kelas dengan persamaan 5.1.

Keterangan:

w = vector bobot

x = nilai masukan atribut

b = bias

Sehingga didapatkan persamaan untuk kelas positif dan kelas negatif. Maka, suatu data 𝑥i dapat diklasifikasikan sebagai kelas +1 jika :

dan dapat diklasifikasikan kedalam kelas -1 jika :

ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ Adapun pada algoritma SVM ï¿½flowchart proses klasifikasi Support Vector Machine pada penelitian ini ditunjukan pada Gambar 5.2.

Gambar 5.2 Flowchart Proses Klasifikasi SVM

5.2 Uji Coba

ï¿½ï¿½ï¿½ï¿½ Tahap uji coba algoritma support vector machine pada penelitian ini menggunakan fungsi kernel linear untuk melakukan klasifikasi data. Kernel linear adalah fungsi kernel yang paling sederhana. Kernel linear digunakan ketika data yang dianalisis sudah terpisah secara linear. Rumus persamaan untuk fungsi kernel linear dapat dilihat pada persamaan 5.1

ï¿½ï¿½ï¿½ï¿½ Berikut ini adalah cara kerja klasifikasi algoritma SVM dalam penelitian ini. Tabel 5.3 adalah sample dataset pasangan input dan output pada penelitian ini.

Table 5.3 Pasangan input dan output

No.	X	Y_i
1	0.97885132	1
2	-1.32669202	1
3	-0.19312049	-1
ï¿½	ï¿½	ï¿½
58	ï¿½ 0.09695081	-1
59	1.36382549	1
60	0.22459681	1

ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ Pada Tabel 5.3 terdapat atribut X yang akan menghasilkan nilai bobot w. Kemudian margin diminimalkan menggunakan Rumus 5.10.

dengan syarat

𝑦_𝑖(𝑥_𝑖ï¿½ ï¿½∙ 𝑤 + 𝑏) ≥ 1, 𝑖 = 1,2,3 ï¿½ , 𝑁ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ (5.11)

Sehingga dari persamaan diatas didapatkan persamaan berikut ini :

(1) 1(0.97885132 w + b ) ≥1→ (0.97885132 w + b ) ≥1 ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ ï¿½ï¿½(5.12)

(2) 1(-1.32669202 w + b ) ≥1→ (-1.32669202 w + b ) ≥1 ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ ï¿½ï¿½(5.13)

(3) -1(-0.19312049 w + b ) ≥1→ (0.19312049 w - b ) ≥1 ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ ï¿½ï¿½(5.14)

(4) -1(0.09695081 w + b ) ≥1→ (-0.09695081 w - b ) ≥1 ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ (5.15)

(5) 1(1.36382549 w + b ) ≥1→ (1.36382549 w + b ) ≥1 ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ (5.16)

(6) 1(0.22459681w + b ) ≥1→ (0.22459681 w + b ) ≥1ï¿½ ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ (5.17)

Selanjutnya mencari nilai w dan b dari persamaan 5.12 dan 5.14.

(0.97885132 w + b ) ≥1 ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½

(0.19312049 w - b ) ≥1

───────────────ï¿½ +

ï¿½1,17197181 w = 2

Dari persamaan diatas dihasilkan nilai w sebesar 1,72. Kemudian Langkah selanjutnya adalah mencari nilai b dengan mensubstitusikan nilai w ke dalam persamaan 5.12.

(0.97885132 w + b ) ≥1

(0.97885132 (1,72) ï¿½+ b ) ≥1

Maka Persamaan hyperplane menjadi seperti berikut ini :

ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½ Setelah mendapatkan garis hyperplane, maka langkah selanjutnya yaitu mengklasifikasikan data uji melalui hyperplane dengan menggunakan persamaan hyperplane pada persamaan 5.19 dengan 𝑔(𝑥) ≔ 𝑠𝑔𝑛(𝑓(𝑥)). Hasil klasifikasi menggunakan algoritma Support Vector Machine menggunakan kernel linear dapat dilihat bahwa dari 60 pasangan data ada 24 data yang termasuk dalam true positif, 26 data termasuk true negative, 5 data termasuk false positif, dan 5 data termasuk false negative. Maka berdasarkan Tabel 5.4 dapat dihitung nilai akurasi, presisi, recall dan f1 measure.

Kesimpulan

Setelah melakukan implementasi dan uji coba pada penelitian ini dapat ditemukan beberapa kesimpulan antara lain. Pemilihan nilai K paling optimal menggunakan metode elbow menunjukan hasil yang valid. Hal ini terbukti dengan hasil akurasi dari nilai K=4 menghasilkan akurasi yang paling tertinggi. Pada penelitian ini juga dilakukan pengukuran kedekatan jarak antar obyek dengan 4 metode, yaitu Manhattan Distance, Euclidean Distance, Minkowsky, Distance, dan Chebyshev Distance. Berdasarkan hasil pengujian yang telah diuraikan maka dapat disimpulkan bahwa algoritma KNN dan SVM cukup optimal untuk mengklasifikasi dataset dalam penelitian ini karena menhasilkan akurasi yang memuaskan pada penelitian ini.

BIBLIOGRAFI

Amini, F. (2022). Deteksi Plagiarisme berbasis parafrase pada teks Bahasa Indonesia. Universitas Islam Negeri Maulana Malik Ibrahim.

Aziz, L. A. (2015). Upaya perpustakaan dalam mengurangi plagiarisme pada karya ilmiah mahasiswa (Studi kasus di UPT Perpustakaan UNIKA Soegijapranata). Jurnal Ilmu Perpustakaan, 4(3), 131ï¿½140.

Baharuddin, M. M., Azis, H., & Hasanuddin, T. (2019). Analisis Performa Metode K-Nearest Neighbor Untuk Identifikasi Jenis Kaca. ILKOM Jurnal Ilmiah, 11(3), 269ï¿½274.

Clough, P., & Stevenson, M. (2011). Developing a corpus of plagiarised short answers. Language Resources and Evaluation, 45(1), 5ï¿½24.

Damanik, C. M., Widjaja, F. I., Tafonao, T., Evimalinda, R., Lahagu, A., & Hartono, H. (2021). Peningkatan Kemampuan Para Dosen dalam Melakukan Tridharma sebagai Syarat Menuju Standar Pendidikan Keagamaan yang Unggul di Sekolah Tinggi Teologi Bethel Medan. Jurnal Teologi Praksis, 1(2), 56ï¿½62.

Handhika, B. I., & Hendrawan, B. (2021). Implementasi Algoritma Multifactor Evaluation Process (MFEP) Untuk Penilaian Teknisi Promosi Karyawan Tetap Berbasis Web. Syntax Idea, 3(1), 30ï¿½38.

Haryanto, N. C., Krisnawati, L. D., & Chrismanto, A. R. (2020). Temu kembali dokumen sumber rujukan dalam sistem daur ulang teks. Jurnal Teknologi Dan Sistem Komputer, 8(2), 140ï¿½149.

Isnaini, R. L. (2019). Turn Back Plagiarism! Budaya Organisasi Anti Plagiarism. Jurnal Akuntabilitas Manajemen Pendidikan, 7(2), 174ï¿½187.

Iswara, A. F. (2020). Peran Mahasiswa dalam Gerakan Open Access. BIBLIOTIKA: Jurnal Kajian Perpustakaan Dan Informasi, 4(1), 64ï¿½71.

Julianto, B., Adiwijaya, A., & Mubarok, M. (2017). Identifikasi Parafrasa Bahasa Indonesia Menggunakan Naive Bayes. EProceedings of Engineering, 4(3).

Kasim, A. A., & Sudarsono, M. (2019). Algoritma Support Vector Machine (SVM) untuk Klasifikasi Ekonomi Penduduk Penerima Bantuan Pemerintah di Kecamatan Simpang Raya Sulawesi Tengah. SEMINAR NASIONAL APTIKOM (SEMNASTIK) 2019, 568ï¿½573.

Muflikhah, L., & Mahmudy, W. F. (2021). Machine Learning dalam Bioinformatika. Universitas Brawijaya Press.

Surenggana, F. F., Aranta, A., & Bimantoro, F. (2022). Klasifikasi Mood Musik Menggunakan K-Nearest Neighbor dan Mel Frequency Cepstral Coefficients. Jurnal Teknologi Informasi, Komputer, Dan Aplikasinya (JTIKA), 4(2), 263ï¿½276.

Yudhana, A., Djayali, A. D., & Sunardi, S. (2017). Sistem Deteksi Plagiarisme Dokumen Karya Ilmiah dengan Algoritma Pencocokan Pola. Jurnal Rekayasa Teknologi Informasi (JURTI), 1(2), 178ï¿½187.

Yudiantoko, A. (2016). Analisa Dampak Supply Chain Management Pada Kinerja Operasional Industri Kreatif (Studi Kasus Industri Kerajinan Batik di DI Yogyakarta).

Zuhdi, A. M., Utami, E., & Raharjo, S. (2019). Analisis sentiment twitter terhadap capres Indonesia 2019 dengan metode K-NN. Jurnal Informa: Jurnal Penelitian Dan Pengabdian Masyarakat, 5(2), 1ï¿½7.

Copyright holder:

Fauziyah Amini,ï¿½ Cahyo Crysdyan (2022)

First publication right:

Syntax Literate: Jurnal Ilmiah Indonesia

This article is licensed under: