Pengukuran Kesamaan Semantik Pasangan Kalimat Sitasi Menggunakan Convolutional Neural Network

  • Janjan Nurjaman Universitas Jenderal Ahmad Yani
  • Ridwan Ilyas Institut Teknologi Bandung
  • Fatan Kasyidi Universitas Jenderal Ahmad Yani

Abstract

Parafrasa merupakan salah satu istilah dalam linguistik yang berisi kalimat atau frasa untuk menyampaikan makna yang sama menggunakan kata-kata yang berbeda. Parafrasa juga digunakan untuk menguraikan suatu teks dalam bentuk atau susunan kata yang lain agar makna yang tersembunyi dalam teks tersebut dapat dijelaskan, namun untuk mengetahui makna suatu kalimat tidaklah mudah. Oleh karena itu, dibutuhkan model komputasi yang dapat mengukur kesamaan semantik pada pasangan kalimat sitasi. Kalimat sitasi diperoleh dari kumpulan sitasi hasil dari paper karya tulis ilmiah yang sudah dikumpulkan dan dilabeli oleh anotator. Pengukuran dilakukan menggunakan Convolutional Neural Network (CNN) dengan representasi vektor menggunakan Word2vec. Representasi kata yang terbentuk dari dua kalimat sebanyak 10.000 vektor menjadi masukan pada arsitektur CNN. Vektor yang terbentuk menjadi masukan untuk proses pelatihan pada MLP. Hasil pengukuran terdiri dari enam jenis kategori kelas hubungan pasangan kalimat sitasi yaitu Equivalent, Similar, Spesific, No Alignment, Related dan Opposite. Hal tersebut dikarenakan setiap pasangan kalimat memiliki kata yang berbeda namun memiliki makna yang sama. Hasil penelitian menunjukan hasil uji semantik pasangan kalimat sitasi dengan 1600 dataset latih menghasilkan akurasi sebesar 91% dan dengan menggunakan 400
dataset uji menghasilkan akurasi 79% dengan F1-Score 66%.

Downloads

Download data is not yet available.
Published
2020-09-15