Syntax Literate: Jurnal Ilmiah
Indonesia p�ISSN: 2541-0849 e-ISSN: 2548-1398
Vol. 7, No. 09, September 2024
MODEL
KLASIFIKASI LIGHTWEIGHT UNTUK DETEKSI HAMA PERTANIAN DENGAN EFFICIENT NET,
SPINAL NET FC, DAN SHARPNESS-AWARE MINIMIZATION
Naufal Ihsan
Pratama1*, Fityan Azizi2, Adila Alfa Krisnadhi3
1*,2,3 Universitas Indonesia, Indonesia
Email: 1*[email protected], 2[email protected],
3[email protected]
Abstrak
Petani Indonesia menghadapi
tantangan besar yang disebabkan oleh hama, yang menyebabkan
gagal panen, busuk batang, kerusakan daun, dan busuk buah. Mengembangkan model pendeteksian hama yang lightweight menjadi penting untuk membantu petani dalam peningkatan program pengendalian hama. Tujuan utama dari model ini adalah untuk mengklasifikasikan hama secara akurat
dengan memanfaatkan kumpulan
data berskala besar.
Kumpulan data ini mencakup berbagai spesies dengan beragam skala, bentuk, latar belakang kompleks, dan tingkat kesamaan
visual yang tinggi di antara
spesies serangga.
Penelitian ini menggunakan
model klasifikasi lightweight berbasis
Efficient Net. Model ini menggabungkan
Spinal Net FC sebagai classifier dan mengadopsi Sharpness-Aware Minimization sebagai optimizer
untuk meningkatkan kinerjanya.
Model yang dikembangkan mencapai akurasi
sebesar 68,2%. Selain itu,
dengan mengimplementasikan metode yang diusulkan, performa model mengalami peningkatan yang signifikan, menghasilkan peningkatan akurasi tambahan sebesar 4%.
Kata kunci: Efficient Net; Spinal Net; klasifikasi gambar fine-grained
Abstract
Indonesian farmers face major challenges caused by pests,
which cause crop failure, stem rot, leaf damage, and pod rot. Developing a
lightweight pest detection model is important to assist farmers in improving
pest control programs. The main goal of this model is to classify pests
accurately by leveraging large-scale data sets. This data set includes a wide
range of species with varying scales, shapes, complex backgrounds, and high
levels of visual similarity among insect species. This study uses a lightweight
classification model based on Efficient Net. This model combines SpinalNet FC as a classifier and adopts Sharpness-Aware
Minimization as an optimizer to improve its performance. The developed model
achieves an accuracy of 68.2%. In addition, by implementing the proposed
method, model performance was significantly improved, resulting in an
additional 4% increase in accuracy.
Keywords: Efficient Net; Spinal Net;
fine-grained image classification
Pendahuluan
Indonesia dikenal
sebagai negara agraris, di
mana mayoritas penduduknya
bekerja di bidang pertanian dan
memiliki lahan pertanian yang luas serta sumber daya alam yang beragam dan melimpah. Namun,
salah satu masalah utama yang dihadapi petani adalah hama. Hama merupakan penyebab
utama gagal panen, menyebabkan busuk batang, kerusakan daun, dan busuk buah sebelum masa panen. Oleh karena
itu, diperlukan sistem deteksi dini hama tanaman yang dapat membantu petani dalam program pengendalian
hama guna mengurangi masalah yang disebabkan oleh hama. Hal ini menjadikan
penting untuk membangun
model pendeteksian hama yang lightweight, efisien,
dan memiliki kinerja yang
baik agar petani dapat menggunakannya dengan mudah.
Klasifikasi hama serangga sulit dilakukan karena adanya keragaman spesies, sisik, bentuk, serta latar belakang yang kompleks di lapangan, sehingga seringkali terjadi kesamaan penampilan tinggi di antara spesies serangga. Untuk mengatasi tantangan ini, beberapa penelitian telah dilakukan
menggunakan deep learning, seperti Convolutional
Neural Network (CNN), MobileNetV2 (Sandler et al., 2018) dan
Transformer (Vaswani et al., 2017).
Ung et al. (2022) telah melakukan
penelitian terhadap beberapa teknik berbasis CNN untuk mengidentifikasi hama serangga, antara lain Residual Attention Network (RAN), Feature
Pyramid Network (FPN), Multi-Branch and Multi-Scale Attention Network
(MMAL-Net), dan Ensemble Technique (ET). Dengan menggabungkan model-model tersebut, teknik
ensemble mampu mencapai akurasi
sebesar 74,13% pada dataset
IP102.
Peng et al. (2022) mengusulkan arsitektur
Transformer dengan CNN sebagai backbone network dan
attention-based classification head untuk pengenalan hama serangga.
Selain itu, juga menjelajahi strategi pelatihan yang
lebih efektif, model pra-pelatihan,
dan metode augmentasi data
untuk mencapai akurasi klasifikasi
tertinggi. Kinerja klasifikasi
model dievaluasi pada dataset IP102 dan mencapai akurasi sebesar 74,89%.
Setiawan et al. (2022) menunjukkan
bahwa model yang lebih lightweight seperti Mobile Net
mampu menghasilkan akurasi yang menjanjikan dengan menggabungkan beberapa metode selama pelatihan. Dengan memanfaatkan augmentasi CutMix, sparse regularization, dan
learning rate dinamis, Mobile Net V2 unggul dibandingkan dengan model
lain dengan parameter lebih besar. Ketika ketiga metode tersebut digabungkan
selama pelatihan, akurasinya mencapai 71,32%, yang efisien karena menggunakan parameter
paling sedikit dibandingkan dengan model lain yang
lebih besar.
Dalam penelitian ini,
tujuan penulis adalah mengembangkan model deep-learning yang ringan
untuk mengklasifikasikan hama serangga dengan detail
lebih baik dan terintegrasi
dengan program pengendalian hama
terpadu. Kontribusi utama mencakup modifikasi pada model Efficient Net, yang merupakan model berbasis CNN paling efisien,
dengan menggunakan SpinalNet
FC sebagai classifier untuk mencapai akurasi yang
lebih tinggi. Selain itu, penelitian ini menerapkan metode
Sharpness-Aware Minimization (SAM) sebagai optimizer dalam model yang dikembangkan untuk meningkatkan generalisasi dengan efisien.
��������������������������������
Metode Penelitian
A.
Dataset
Dataset serangga
hama IP102 memiliki total 75.222 gambar yang mewakili
102 spesies hama serangga tanaman yang umum dan berbeda (Wu et al., 2019).
Contoh dari 12 kelas spesies ini dapat
dilihat pada Gambar 1 dalam dataset IP102. Penelitian ini
difokuskan pada pelatihan dan
pengujian model menggunakan
dataset IP102. Tugas klasifikasi dilakukan
dengan memanfaatkan 45.095 gambar untuk data latih, 7508 gambar untuk data validasi,
dan 22.619 gambar untuk data uji,
yang semuanya diambil dari pemisahan data set IP102. Dalam kumpulan
data IP102, terdapat beberapa tantangan praktis yang harus diatasi:
1.
Ketidakseimbangan jumlah sampel pada kelas-kelas tertentu, di mana beberapa kelas
memiliki jumlah sampel yang jauh lebih banyak daripada yang lain. Hal ini dapat mempengaruhi
kinerja model dan akurasi klasifikasi pada kelas-kelas yang
kurang representatif.
2.
Perbedaan kecil antara gambar spesies serangga yang mirip dan adanya banyak
gambar berkualitas rendah,
seperti gambar dengan tanda air atau gambar yang buram. Hal ini bisa menyulitkan model dalam membedakan
spesies yang serupa dan mempengaruhi akurasi keseluruhan.
3.
Kumpulan data mencakup
gambar-gambar dari berbagai
tahap siklus hidup hama,
termasuk telur, larva,
pupa, dan hama dewasa. Hal ini meningkatkan kesulitan dalam klasifikasi, terutama ketika
mengidentifikasi hama pada tahap larva yang sering memiliki perbedaan bentuk yang signifikan
dengan tahap dewasa.
Gambar 1. Contoh Gambar dalam Dataset IP102
B.
Arsitektur Model
Untuk membangun
model klasifikasi fine-grained yang mudah digunakan dan efisien, penelitian ini mengadopsi pendekatan yang menggabungkan model Efficient Net (Tan et al., 2019)
sebagai model backbone dengan pemanfaatan SpinalNet FC sebagai classifier (Kabir
et al., 2022) untuk meningkatkan kinerja model.
Selain itu, pelatihan model juga menggunakan
optimizer SAM (Bahri et al., 2022) untuk mencapai
hasil generalisasi yang lebih baik. Secara keseluruhan, ilustrasi arsitektur model yang diusulkan dapat dilihat pada Gambar 2.
Gambar 2. Arsitektur Model
1.
Image Preprocessing
Dalam penelitian ini,
metode pra-pemrosesan gambar digunakan untuk koreksi data dengan mengurangi distorsi yang tidak diinginkan dan meningkatkan fitur-fitur penting pada gambar
sebelum dilakukan proses lanjutan.
Untuk tahap pra-pemrosesan ini, digunakan pustaka TorchVision (Marcel et al., 2010) yang menyediakan
berbagai teknik, seperti pencerminan horizontal, rotasi,
penyesuaian kecerahan, dan
penyesuaian ukuran gambar agar berukuran 224x224
sesuai dengan ukuran yang disarankan.
2.
Efficient Net
Efficient Net adalah
arsitektur CNN dan metode penskalaan yang mengubah ukuran
semua dimensi kedalaman, lebar, atau resolusi secara seragam menggunakan koefisien majemuk. Pendekatan penskalaan ini didasarkan pada asumsi bahwa ketika
gambar input lebih besar, jaringan
memerlukan lebih banyak lapisan untuk memperluas bidang reseptif dan lebih banyak saluran untuk menangkap pola fine-grained pada
gambar yang lebih besar.
Dalam studi ini,
digunakan EfficientNetB0 sebagai backbone model, yang terdiri
dari 9 layer seperti yang terlihat
pada Tabel 1 dan memiliki 5.3M parameter. Model EfficientNetB0 telah dilatih terlebih dahulu pada
dataset ImageNet sebagai langkah pra-pelatihan, dan selanjutnya dilakukan
transfer knowledge.
Tabel 1
Layer
EfficientB0
Layer |
Resolusi |
# Channels |
Conv3x3 |
224x224 |
32 |
MBConv1, k3x3 |
112x112 |
16 |
MBConv6, k3x3 |
112x112 |
24 |
MBConv6, k5x5 |
56x56 |
40 |
MBConv6, k3x3 |
28x28 |
80 |
MBConv6, k5x5 |
14x14 |
112 |
MBConv6, k5x5 |
14x14 |
192 |
MBConv6, k3x3 |
7x7 |
320 |
Conv1x1 &
Pooling & FC |
7x7 |
1280 |
3.
Spinal Net FC
Spinal Net didesain
dengan mensimulasikan sistem
saraf chordate, yang secara unik menghubungkan
banyak titik data penginderaan dan membuat keputusan lokal. Struktur SpinalNet dibagi menjadi tiga bagian, yaitu input split, intermediate split, dan
output split, sebagaimana ditunjukkan
dalam Gambar 3. Penelitian yang dilakukan oleh Kabir et al. (2022) mengusulkan Spinal Net sebagai lapisan
Fully Connected (FC) pada VGG-5, dan berhasil mencapai kinerja state-of-the-art (SOTA) pada empat kumpulan data MNIST. Mereka menggunakan inisialisasi yang ditransfer
dengan lapisan SpinalNet
yang terhubung sepenuhnya
untuk mencapai kinerja SOTA pada kumpulan data
STL-10, Fruits 360, dan Caltech-101. Penelitian ini akan
menerapkan pendekatan serupa dengan menggunakan Spinal Net
FC untuk jaringan Efficient Net.
4. Sharpness
Aware Minimization
Penggunaan
model dengan jumlah parameter yang sangat besar
memberikan hanya sedikit jaminan
terhadap kemampuan generalisasi
model. Untuk
mengatasi hal ini, telah dikembangkan metode optimasi baru yang disebut
Sharpness-Aware Minimization (SAM) yang mencari parameter di lingkungan dengan loss rendah
yang seragam, formulasi ini dapat mengatasi
masalah optimisasi min-maks di mana penurunan gradien dapat dilakukan
secara efisien. Penggunaan SAM telah berhasil meningkatkan kemampuan generalisasi model pada
berbagai dataset benchmark dan
model, termasuk CIFAR-10, CIFAR-100, dan ImageNet (Bahri et al.,
2022). Dalam penelitian ini, SAM digunakan sebagai
optimizer untuk model.
Gambar 3. Arsitektur
Spinal Net FC
Sumber: (Kabir
et al., 2015)
5. Metrik Evaluasi
���� Model yang diusulkan
dievaluasi menggunakan
beberapa metrik yang cocok
untuk klasifikasi multi-kelas
dengan data IP102 yang tidak seimbang. Metrik-metrik
tersebut meliputi macro-average precision (MPre), macro-average
recall (MRec), macro-average F1 (MF1), dan accuracy (Acc) (Grandini et al., 2020).�
Untuk
memperlakukan
kelas secara setara, dilakukan perhitungan recall
untuk setiap kategori, kemudian
hasilnya dirata-ratakan untuk mendapatkan
nilai MRec, sebagaimana ditunjukkan di bawah ini:
�
�
C
mengacu pada jumlah kelas,
dalam penelitian ini yang dalam hal
ini pembelajaran berjumlah 102 kelas. Huruf �dan �mewakili true positive dan false negative dari kelas ,
masing-masing secara aktif. Demikian pula, Prec dan MPre dihitung sebagai
berikut:
�
�
di
mana �adalah false positive dari kelas .
MF1 adalah rata-rata harmonik
dari MRec dan MPre sebagai berikut:
�
Acc
dihitung dengan nilai
positif sebenarnya di antara semua kelas sebagai berikut:
di
mana N adalah jumlah sampel.
C. Konfigurasi dan
Skenario Pelatihan
Proses
training pada penelitian ini menggunakan
100 epoch, batch size 16, learning rate 1e-3, dan fungsi loss cross-entropy. Proses pelatihan menggunakan GPU Nvidia 1650
dengan kapasitas memori
4GB. Terdapat tiga skenario
pelatihan yang dilakukan. Pertama, dilakukan pelatihan model EfficientNetB0 tanpa menambahkan SpinalNet FC dan tanpa menggunakan optimizer
SAM.� Kedua, dilakukan pelatihan model EfficientNetB0 menggunakan optimizer SAM, tetapi
tanpa menambahkan SpinalNet
FC. Terakhir, dilakukan pelatihan model
EfficientNetB0 dengan menambahkan SpinalNet
FC dan menggunakan
optimizer SAM. Optimizer dalam skenario pertama menggunakan optimizer Adam. Ketiga skenario
menggunakan pre-trained model dari
ImageNet.
Hasil dan Pembahasan
����������� Performa
model diukur menggunakan metrik akurasi, macro-average F1,
macro-average precision, dan macro-average recall.
Hasil kinerja model pada ketiga skenario yang telah ditentukan ditampilkan dalam Tabel 2. Model EfficientNetB0 mencapai akurasi
sebesar 64.74%, dengan macro-average F1 sebesar 56.86%, macro-average
precision sebesar 59.27%, dan
macro-average recall sebesar 55.56%.� Selanjutnya, model EfficientNetB0 yang menggunakan optimizer SAM mencapai akurasi
sebesar 67.7%, dengan macro-average F1 sebesar 60.1%, macro-average precision sebesar
63.01%, dan macro-average recall sebesar
58.46%.� Terakhir, model EfficientNetB0
yang ditambahkan SpinalNet FC sebagai classifier dan menggunakan optimizer SAM memperoleh hasil tertinggi dengan
akurasi sebesar 68.22%,
macro-average F1 sebesar 60.52%, macro-average
precision sebesar 63.28%, dan
macro-average recall sebesar 59.19%. Berdasarkan percobaan yang telah dilakukan, penggunaan SpinalNet FC sebagai classifier dan
penggunaan optimizer SAM terbukti
mampu meningkatkan performa model EfficientNetB0 secara signifikan
dengan meningkatkan akurasi
sekitar 4%.
Selanjutnya,
Tabel 3 menunjukkan kinerja
model dibandingkan dengan penelitian sebelumnya.
Dalam perbandingan ini,
kinerja model hanya dapat dibandingkan berdasarkan nilai akurasi, karena tidak semua penelitian sebelumnya memberikan hasil
kinerja selain akurasi. Hasil yang tercantum dalam Tabel 3 menunjukkan bahwa model yang diusulkan pada penelitian ini
tidak menghasilkan kinerja terbaik jika dibandingkan dengan hasil dari ketiga penelitian sebelumnya.
Tabel 2
Perbandingan Ketiga Skenario
Model |
Acc |
MF1 |
MRec |
MPre |
EfficientNetB0 |
64.74% |
56.86% |
55.56% |
59.27% |
EfficientNetB0 + SAM |
67.7% |
60.1% |
58.46% |
63.01% |
EfficientNetB0 + Spinal Net FC + SAM |
68.22% |
60.52% |
59.19% |
63.28% |
Hasil
terdekat dari model yang diusulkan adalah hasil penelitian
dari Setiawan et al.
(2022), yang memodifikasi model MobileNetV2 dan mencapai nilai akurasi sebesar 71.32%. Sedangkan, model MobileNetV2 tanpa modifikasi
mencapai nilai akurasi sebesar 67.04%. Hasil ini menunjukkan perbedaan nilai yang signifikan dibandingkan dengan model EfficientNetB0 pada Tabel 3. Oleh karena
itu, model MobileNetV2 dapat dipertimbangkan
untuk penelitian selanjutnya karena memiliki jumlah parameter yang sama
kecilnya dengan EfficientNetB0.
Tabel 3
Perbandingan Model Usulan dengan Penelitian Sebelumnya
Model |
Acc |
Params |
Referensi |
MobileNetV2 |
67.02% |
4.2M |
(Setiawan et al., 2022) |
MobileNetV2 + Regularization |
71.32% |
||
Ensemble CNN |
74.13% |
25M |
(Ung et al., 2022) |
Transformer + CNN |
74.89% |
28M |
(Peng et al., 2022) |
EfficientNetB0 + Spinal Net FC + SAM |
68.22% |
5.3M |
|
Gambar
4 menunjukkan hasil misklasifikasi
oleh model yang diusulkan,
di mana sisi kiri adalah gambar input dari data uji yang salah diklasifikasikan, dan sisi kanan adalah gambar aktual dari hasil klasifikasi, atau kelas prediksi benchmark. Dua contoh
pada Gambar 4 menunjukkan kesamaan
objek antara kelas aktual dan
kelas prediksi, membuat
model sulit untuk mengklasifikasikannya dengan benar.
Contoh pada gambar kiri atas merupakan gambar masukan yang seharusnya tergolong ke dalam kelas Lytta Polita. Namun,
model memprediksi gambar tersebut sebagai kelas Xylotrechus. Contoh pada
gambar di kanan atas adalah salah
satu gambar yang seharusnya
dari kelas Xylotrechus. Dapat dilihat bahwa terdapat kesamaan bentuk objek antara kedua
kelas tersebut. Selanjutnya, contoh
pada gambar kiri bawah merupakan gambar masukan yang seharusnya tergolong ke dalam kelas Brown
Plant Hopper. Model memprediksi gambar tersebut
sebagai kelas Cicadellidae.
Contoh pada gambar kanan bawah adalah gambar dari kelas Cicadellidae.
Seperti yang dijelaskan sebelumnya, kelas Brown Plant Hopper dan Cicadellidae juga memiliki kesamaan.
Gambar 4. Contoh
Gambar yang Salah Klasifikasi
Kesimpulan
Dalam
penelitian ini, model EfficientNetB0 dikembangkan dengan menambahkan SpinalNet FC sebagai classifier dan
menggunakan optimizer SAM untuk membangun
model klasifikasi fine-grained yang lightweight.
Model tersebut kemudian dilatih
dan diuji menggunakan dataset IP102, menghasilkan
akurasi sebesar 68.22%.
Penambahan Spinal Net FC dan penggunaan
optimizer SAM terbukti meningkatkan
kinerja model secara signifikan dengan peningkatan sekitar 4% dalam akurasi. Disarankan agar
penelitian di masa mendatang mengadopsi
model lightweight lainnya, seperti MobileNetV2, untuk mencapai hasil yang lebih
baik.
BIBLIOGRAFI
Bahri,
D., Mobahi, H., & Tay,
Y. (2022). Sharpness-aware minimization improves language model generalization.
In Proceedings of the 60th Annual Meeting of the Association for Computational
Linguistics (Volume 1: Long Papers, pp. 7360-7371). Association for
Computational Linguistics.
Grandini,
M., Bagli, E., & Visani,
G. (2020). Metrics for multi-class classification: An overview.
Kabir,
H. M. D., Abdar, M., Khosravi,
A., Jalali, S. M. J., Atiya,
A. F., Nahavandi, S., & Srinivasan, D. (2022). SpinalNet: Deep neural network with gradual input. IEEE
Transactions on Artificial Intelligence, 1-13.
Marcel, S., & Rodriguez, Y. (2010). Torchvision the machine-vision package of torch. In
Proceedings of the 18th ACM International Conference on Multimedia (MM '10, pp.
1485-1488). ACM.
Peng, Y., & Wang, Y. (2022). CNN and transformer
framework for insect pest classification. Ecological Informatics, 72, 101846.
Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., & Chen, L.-C. (2018). MobileNetV2:
Inverted residuals and linear bottlenecks. Retrieved from
https://arxiv.org/abs/1801.04381
Setiawan,
A., Yudistira, N., & Wihandika,
R. C. (2022). Large scale pest classification using efficient convolutional
neural network with augmentation and regularizers.
Computers and Electronics in Agriculture, 200, 107204.
Tan, M., & Le, Q. (2019). EfficientNet:
Rethinking model scaling for convolutional neural networks. In K. Chaudhuri
& R. Salakhutdinov (Eds.), Proceedings of the
36th International Conference on Machine Learning (Vol. 97, pp. 6105-6114).
PMLR.
Ung, H. T., Ung, H. Q., Nguyen, T. T., & Nguyen,
B. T. (2022). An efficient insect pest classification using multiple
convolutional neural network-based models. Frontiers in Artificial Intelligence
and Applications.
Vaswani,
A., Shazeer, N., Parmar,
N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser,
L., & Polosukhin, I. (2017). Attention is all you
need. In I. Guyon, U. V. Luxburg,
S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, & R. Garnett (Eds.), Advances in Neural
Information Processing Systems (Vol. 30, pp. 5998-6008). Curran Associates,
Inc.
Wu, X., Zhan, C., Lai, Y.-K., Cheng, M.-M., &
Yang, J. (2019). IP102: A large-scale benchmark dataset for insect pest
recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition (CVPR).
Copyright holder: Naufal Ihsan Pratama, Fityan
Azizi, Adila Alfa Krisnadhi (2022) |
First publication right: Syntax Literate: Jurnal Ilmiah
Indonesia |
This article is licensed under: |