Internet menyediakan
data dalam berbagai
format, salah satunya adalah tabel yang
dapat dalam format HTML. Suatu ekstraksi
semi otomatis pada tabel
dibutuhkan untuk mengambil data, sehingga dapat digunakan untuk proses
lebih lanjut bersama dengan data lain. Hal ini dapat dilakukan dengan cara copy-paste,
tetapi tidak efektif karena membutuhkan lebih banyak waktu dan pekerjaan berulang untuk
melakukannya. Tabel terdiri
dari struktur fisik
dan struktur logik. Jurnal ini menyajikan ekstraksi
tabel dilihat dari struktur logik-nya yaitu dengan algoritma yang
sudah dikembangkan pada tabel HTML dan suatu tinjauan
pustaka yang akan
digunakan untuk penelitian selanjutnya dalam mengembangkan algoritma ekstraksi dari struktur logik tabel HTML. Melalui Jurnal ini, menelaah
algoritma yang sudah dikembangkan untuk ekstraksi
struktur logik dari tabel HTML dan akan menjadi
acuan dalam mengembangkan metode/pendekatan untuk ekstraksi
tabel dalam format HTML.
Kata Kunci : Ekstraksi tabel,struktur
logik tabel, tabel HTML
PENDAHULUAN
Tabel merupakan salah satu cara yang digunakan
untuk menampilkan data dalam bentuk baris dan kolom yang saling berhubungan.
Menurut Liu et.al. (2008) tabel menampilkan data struktur dan informasi yang
berhubungan dalam bentuk dua dimensi dan meringkaskan isinya.
Data yang tersaji di Internet, dalam hal ini
adalah tabel dapat dalam format HTML (Hypertext Markup Language). HTML adalah
bahasa yang digunakan untuk membuat website yang terdiri dari kumpulan tag.
(Ronggobramantyo,2007)
Pengambilan data di internet untuk
digunakan pada proses lebih lanjut yang tersaji pada tabel dalam bentuk HTML
dan PDF dapat dilakukan dengan cara copy-paste, tetapi hal ini membutuhkan
banyak waktu dalam mengerjakannya. Sehingga dibutuhkan suatu teknik ekstraksi
tabel secara semi otomatis.
Data di web yang disajikan dalam bentuk tabel berbasis
HTML, merupakan data terstruktur sehingga isi tabel tersebut dapat diambil
datanya untuk dipergunakan untuk pengolahan lebih lanjut. Saat ini, sudah
banyak tool yang dapat digunakan untuk melakukan ekstraksi tabel di web secara
otomatis, salah satunya adalah web page table extractor dari Advanced Neural
Network Investing/ANNI yang melakukan
ekstraksi tabel dalam format HTML diubah ke bentuk dokumen HTML yang baru atau
menjadi bentuk file csv atau menjadi teks dasar.
Alat konversi format dokumen sudah banyak di
kembangkan saat ini, sehingga di lakukan survei terhadap alat konversi ysng
sudah ada untuk mendapatkan hasil konversi yang sesuai dengan format HTML yang
memang asli di buat dengan aplikasi khusus HTML.
Tabel 1. Transformasi pada
Struktur Logik Tabel
|
TINJAUAN PUSTAKA
Tabel terdiri
dari dua struktur, yaitu : i). Struktur fisik, menjelaskan tempat tabel berada
pada gambar atau file teks, dan ii). struktur logik, menjelaskan tipe dari
lokasi tabel dan bagaimana pembentukan tabel, serta dapat dikodekan menggunakan
Markup language seperti HTML. (Zanibbi, 2003).
Pada tabel 1. disajikan transformasi yang dapat
dilakukan pada struktur logik tabel., beberapa diantaranya adalah
merging/splitting untuk cell/table, transformasi graf/tree untuk memperbaiki
struktur yang salah, filtering untuk mengurangi gangguan/noise, sorting dan
indexing, serta translation untuk mengubah HTML ke bentuk matriks. Transformasi
pada struktur logik merupakan salah satu proses yang dilakukan untuk menyusun
ulang tabel.
Pada salah satu algoritma yang sudah dikembangkan
mengenai ekstraksi tabel HTML adalah dengan memperhatikan adanya merging pada
sel. Pengambilan data jika dari satu tabel yang berasal dari
satu sumber maka proses dengan copy-paste sudah memadai, maka ekstraksi tabel
pada HTML akan bermanfaat jika mengambil beberapa tabel dari berbagai sumber di
Internet, ilustrasi dapat di lihat pada Gambar 1. (Purnamasari, et.al., 2012)
Pada Gambar 1. terdapat dua bentuk tabel yang
memberikan informasi harga tiket dengan nama property yang berbeda tetapi
mempunyai arti yang sama, yang kemudian isi kedua tabel tersebut digabungkan
menjadi satu tabel saja.
Dikembangkan suatu algoritma untuk melakukan ekstraksi
tabel dalam format HTML sederhana menjadi bentuk database denganmempertimbangkan
factor property dan record. (Purnamasari, et.al., 2012)
Craven (2003) dan Gatterbauer et.al. (2007) melakukan
ekstraksi tabel di web. Pohon Document Object Model (DOM) merupakan penyusun
suatu halaman web yang digunakan dalam pengembangan metode ekstraksi tabel yang
ada di web, salah satunya digunakan oleh Lin et.al.(2009), serta Gultom et.al.
(2011) dengan aplikasi Xtractors-nya, dimana selain untuk mengekstrak tabel
juga untuk mashup. Algoritma dibuat menggunakan teknik rekursif dengan GUI yang
user-friendly.
Ekstraksi dokumen PDF dilakukan oleh beberapa peneliti
diantaranya: Chao (2003), Dejean, et.al. (2006), dan Liu, et. al. (2006).
Penelitian yang dilakukan oleh Ramel, et.al (2003)
mengembangkan metode untuk deteksi dan ekstrak tabel dengan melakukan analisa
graphic lines, dimana penelitian Ramel et.al ini juga dapat menjadi salah satu
acuan dalam mengembangkan metode ekstraksi tabel dalam bentuk PDF.
PEMBAHASAN
Ekstraksi Tabel HTML
Penelitian yang pernah dikembangkan sebelumnya pada
ekstraksi tabel HTML adalah algoritma untuk melakukan ekstraksi untuk tiga
bentuk tabel, yaitu : tabel bentuk standar, tabel bentuk penggabungan baris,
dan tabel bentuk penggabungan cell/kolom. (Purnamasari, et.al., 2012).
Kemudian, penelitian dilanjutkan dengan menggunakan
bentuk tabel yang lebih kompleks, memperhitungkan sampai baris ke berapa
disebut property, dan mana yang disebut sebagai isi tabel atau record, selain
itu isi tabel tersebut juga ada yang mengalami penggabungan baris dan
penggabungan kolom.
Proses
penggabungan baris dan kolom diilustrasikan dengan menggunakan pohon class
logika.
Ada empat algoritma yang dikembangkan, yaitu :
i).menghitung jumlah total kolom dan baris sebenarnya, ii).mencari nilai
rowspan terbesar, dan jumlah baris sebagai batas property, iii).mencari isi
property, dan iv). mendapatkan isi record.
Berikut ini adalah algoritma yang sudah dikembangkan, detail
dapat dilihat pada (Purnamasari, 2012).
1. Tag dan string yang
ditemukan setelah tag <table> dan sebelum tag </table> merupakan
penyusun tabel.
2. Cari nilai rowspan
terbesar dari tiap tag <td>...</td> pada tag
<tr>...</tr> ke-s sampai tidak ditemukan nilai rowspan > 1 untuk
mendapatkan jumlah baris sebagai property. (rowmax_pro = batas baris property)
3. Mengambil isi property, dilakukan mulai dari batas
akhir tag <tr>...</tr> yang ke- rowmax_pro down to 1 untuk mendapatkan
posisi cell/kolom jika terjadi penggabungan kolom.
4. Isi record diambil mulai
dari baris terakhir pada tabel / tag <tr>...</tr> ke-RsTotal sampai dengan baris ke rowmaxpro + 1.
5.
Ada 3 kondisi yaitu : i). Jika colspan = 1 dan rowspan = 1, ii). Jika colspan
= 1 dan rowspan >1, iii). Jika colspan >1 dan rowspan =
1.
Dengan menggunakan empat algoritma dia
tas, maka data hasil ekstraksi dapat di simpan ke
database dan data yang diekstraksi sudah berdasarkan pada property-nya.
KESIMPULAN
Ekstraksi tabel dengan melihat struktur logik, pada
penelitian terdahulu telah dikembangkan algoritma untuk melakukan ekstraksi
tabel HTML dengan memperhatikan faktor property dan record, selain itu juga
melihat adanya merge/join padabaris dan kolom. Data hasil ekstraksidapat
tersimpan berdasarkan pada property-nya, sehingga mudah jika akan digunakan
pada proses selanjutnya.
Pada ekstraksi tabel bentu PDF, penelitian yang telah
dilakukan oleh para peneliti adalah dengan menggunakan suatu aplikasi tertentu
untuk merubah format PDF ke format yang mempermudah untuk melakukan ekstraksi.
Berdasarkan pada tinjauan pustaka mengenai ekstraksi pada PDF, maka penelitian
selanjutnya yang akan dilakukan adalah mengembangkan suatu algoritma untuk
melakukan ekstraksi pada tabel PDF. Selain itudengan adanya ide dasar ekstraksi
tabel PDF, akan membantu dalam penelitian selanjutnya.Penelitian lanjutan yang
perlu dilakukan adalah dengan mengembangkan aplikasi real sampai dengan tahapan
penggabugan tabel dari berbagai sumber dan direpresentasikan dalam model data teknologi
saat ini akan mengadapsi dari model XML dan RDF.
DAFTAR PUSTAKA
Purnamasari, D. Wicaksana, W.S. Bnowosari, L.Y. 2015 Ekstraksi Tabel di Internet : dalam Format HTML
dan PDF. http://repository.gunadarma.ac.id/263/ di unduh pada 01 Juli 2015.
Purnamasari, Detty. Wicaksana, I Wayan Simri. Ruhama,
Syamsi. 2014. Algoritma untuk Ekstraksi
Tabel HTML di WEB. http://repository.gunadarma.ac.id/102/ di unduh
pada 01 Juli 2015.
Purnamasari, Detty. Banowoari, Lintang Yuniar. Wijaya, Ardo Rama. Riesvicky, Hifshan. 2003. Pemilihan Alat Konversi Tabel Format Pdf Menjadi Format Html Untuk Proses Ekstraksi Tabel http://publication.gunadarma.ac.id/handle/123456789/6776 di unduh pada Juli 2015.