Minggu, 12 Juli 2015

REVIEW Ekstraksi Tabel di Internet : dalam Format HTML


ABSTRAK
Internet menyediakan data dalam berbagai format, salah satunya adalah tabel yang dapat dalam format HTML. Suatu ekstraksi semi otomatis pada tabel dibutuhkan untuk mengambil data, sehingga dapat digunakan untuk proses lebih lanjut bersama dengan data lain. Hal ini dapat dilakukan dengan cara copy-paste, tetapi tidak efektif karena membutuhkan lebih banyak waktu dan pekerjaan berulang untuk melakukannya. Tabel terdiri dari struktur fisik dan struktur logik. Jurnal ini menyajikan ekstraksi tabel dilihat dari struktur logik-nya yaitu dengan algoritma yang sudah dikembangkan pada tabel HTML dan suatu tinjauan pustaka yang akan digunakan untuk penelitian selanjutnya dalam mengembangkan algoritma ekstraksi dari struktur logik tabel HTML. Melalui Jurnal ini, menelaah algoritma yang sudah dikembangkan untuk ekstraksi struktur logik dari tabel HTML dan akan menjadi acuan dalam mengembangkan metode/pendekatan untuk ekstraksi tabel dalam format HTML.


Kata Kunci : Ekstraksi tabel,struktur logik tabel, tabel HTML


PENDAHULUAN

            Tabel merupakan salah satu cara yang digunakan untuk menampilkan data dalam bentuk baris dan kolom yang saling berhubungan. Menurut Liu et.al. (2008) tabel menampilkan data struktur dan informasi yang berhubungan dalam bentuk dua dimensi dan meringkaskan isinya.

Data yang tersaji di Internet, dalam hal ini adalah tabel dapat dalam format HTML (Hypertext Markup Language). HTML adalah bahasa yang digunakan untuk membuat website yang terdiri dari kumpulan tag. (Ronggobramantyo,2007)

Pengambilan data di internet untuk digunakan pada proses lebih lanjut yang tersaji pada tabel dalam bentuk HTML dan PDF dapat dilakukan dengan cara copy-paste, tetapi hal ini membutuhkan banyak waktu dalam mengerjakannya. Sehingga dibutuhkan suatu teknik ekstraksi tabel secara semi otomatis.

Data di web yang disajikan dalam bentuk tabel berbasis HTML, merupakan data terstruktur sehingga isi tabel tersebut dapat diambil datanya untuk dipergunakan untuk pengolahan lebih lanjut. Saat ini, sudah banyak tool yang dapat digunakan untuk melakukan ekstraksi tabel di web secara otomatis, salah satunya adalah web page table extractor dari Advanced Neural Network Investing/ANNI  yang melakukan ekstraksi tabel dalam format HTML diubah ke bentuk dokumen HTML yang baru atau menjadi bentuk file csv atau menjadi teks dasar.
Alat konversi format dokumen sudah banyak di kembangkan saat ini, sehingga di lakukan survei terhadap alat konversi ysng sudah ada untuk mendapatkan hasil konversi yang sesuai dengan format HTML yang memang asli di buat dengan aplikasi khusus HTML.


Tabel 1. Transformasi pada Struktur Logik Tabel


STRUKTUR TABEL
TRANSFORMASI
KOMPONEN
Struktur logik










1. merging/splitting of region
1. cells
2. tables
3. splitting region at detected separators
2. graph/tree transformation
1. to correct structural errors
2. join regions into a table region
3. filtering
1. small region for noise reduction
2. texture, images and half-tones
4. sorting and indexing
1. sorting (ex : boxes by geometric attributes)
2. indexing (ex : of cell)
5. translation
1. HTML to character matrix
2. map strings to regular expression
3. transform token of a single class to a uniform representation
4. encoding recognized form data
5. indexing relation of a table

 
 








TINJAUAN PUSTAKA
 Tabel terdiri dari dua struktur, yaitu : i). Struktur fisik, menjelaskan tempat tabel berada pada gambar atau file teks, dan ii). struktur logik, menjelaskan tipe dari lokasi tabel dan bagaimana pembentukan tabel, serta dapat dikodekan menggunakan Markup language seperti HTML. (Zanibbi, 2003).
Pada tabel 1. disajikan transformasi yang dapat dilakukan pada struktur logik tabel., beberapa diantaranya adalah merging/splitting untuk cell/table, transformasi graf/tree untuk memperbaiki struktur yang salah, filtering untuk mengurangi gangguan/noise, sorting dan indexing, serta translation untuk mengubah HTML ke bentuk matriks. Transformasi pada struktur logik merupakan salah satu proses yang dilakukan untuk menyusun ulang tabel.
Pada salah satu algoritma yang sudah dikembangkan mengenai ekstraksi tabel HTML adalah dengan memperhatikan adanya merging pada sel. Pengambilan data jika dari satu tabel yang berasal dari satu sumber maka proses dengan copy-paste sudah memadai, maka ekstraksi tabel pada HTML akan bermanfaat jika mengambil beberapa tabel dari berbagai sumber di Internet, ilustrasi dapat di lihat pada Gambar 1. (Purnamasari, et.al., 2012)

Pada Gambar 1. terdapat dua bentuk tabel yang memberikan informasi harga tiket dengan nama property yang berbeda tetapi mempunyai arti yang sama, yang kemudian isi kedua tabel tersebut digabungkan menjadi satu tabel saja.
Dikembangkan suatu algoritma untuk melakukan ekstraksi tabel dalam format HTML sederhana menjadi bentuk database denganmempertimbangkan factor property dan record. (Purnamasari, et.al., 2012)
Craven (2003) dan Gatterbauer et.al. (2007) melakukan ekstraksi tabel di web. Pohon Document Object Model (DOM) merupakan penyusun suatu halaman web yang digunakan dalam pengembangan metode ekstraksi tabel yang ada di web, salah satunya digunakan oleh Lin et.al.(2009), serta Gultom et.al. (2011) dengan aplikasi Xtractors-nya, dimana selain untuk mengekstrak tabel juga untuk mashup. Algoritma dibuat menggunakan teknik rekursif dengan GUI yang user-friendly.
Ekstraksi dokumen PDF dilakukan oleh beberapa peneliti diantaranya: Chao (2003), Dejean, et.al. (2006), dan Liu, et. al. (2006).
Penelitian yang dilakukan oleh Ramel, et.al (2003) mengembangkan metode untuk deteksi dan ekstrak tabel dengan melakukan analisa graphic lines, dimana penelitian Ramel et.al ini juga dapat menjadi salah satu acuan dalam mengembangkan metode ekstraksi tabel dalam bentuk PDF.

PEMBAHASAN
Ekstraksi Tabel HTML
Penelitian yang pernah dikembangkan sebelumnya pada ekstraksi tabel HTML adalah algoritma untuk melakukan ekstraksi untuk tiga bentuk tabel, yaitu : tabel bentuk standar, tabel bentuk penggabungan baris, dan tabel bentuk penggabungan cell/kolom. (Purnamasari, et.al., 2012).
Kemudian, penelitian dilanjutkan dengan menggunakan bentuk tabel yang lebih kompleks, memperhitungkan sampai baris ke berapa disebut property, dan mana yang disebut sebagai isi tabel atau record, selain itu isi tabel tersebut juga ada yang mengalami penggabungan baris dan penggabungan kolom.
            Proses penggabungan baris dan kolom diilustrasikan dengan menggunakan pohon class logika.
Ada empat algoritma yang dikembangkan, yaitu : i).menghitung jumlah total kolom dan baris sebenarnya, ii).mencari nilai rowspan terbesar, dan jumlah baris sebagai batas property, iii).mencari isi property, dan iv). mendapatkan isi record.
Berikut ini adalah algoritma yang sudah dikembangkan, detail dapat dilihat pada (Purnamasari, 2012).
1. Tag dan string yang ditemukan setelah tag <table> dan sebelum tag </table> merupakan penyusun tabel.
2. Cari nilai rowspan terbesar dari tiap tag <td>...</td> pada tag <tr>...</tr> ke-s sampai tidak ditemukan nilai rowspan > 1 untuk mendapatkan jumlah baris sebagai property. (rowmax_pro = batas baris property)
3. Mengambil isi property, dilakukan mulai dari batas akhir tag <tr>...</tr> yang ke- rowmax_pro down to 1 untuk mendapatkan posisi cell/kolom jika terjadi penggabungan kolom.
4. Isi record diambil mulai dari baris terakhir pada tabel / tag <tr>...</tr> ke-RsTotal sampai dengan baris ke rowmaxpro + 1.
5. Ada 3 kondisi yaitu : i). Jika colspan = 1 dan rowspan = 1, ii). Jika colspan = 1 dan rowspan >1, iii). Jika colspan >1 dan rowspan = 1.

Dengan menggunakan empat algoritma dia
tas, maka data hasil ekstraksi dapat di simpan ke database dan data yang diekstraksi sudah berdasarkan pada property-nya.
KESIMPULAN
Ekstraksi tabel dengan melihat struktur logik, pada penelitian terdahulu telah dikembangkan algoritma untuk melakukan ekstraksi tabel HTML dengan memperhatikan faktor property dan record, selain itu juga melihat adanya merge/join padabaris dan kolom. Data hasil ekstraksidapat tersimpan berdasarkan pada property-nya, sehingga mudah jika akan digunakan pada proses selanjutnya.
Pada ekstraksi tabel bentu PDF, penelitian yang telah dilakukan oleh para peneliti adalah dengan menggunakan suatu aplikasi tertentu untuk merubah format PDF ke format yang mempermudah untuk melakukan ekstraksi. Berdasarkan pada tinjauan pustaka mengenai ekstraksi pada PDF, maka penelitian selanjutnya yang akan dilakukan adalah mengembangkan suatu algoritma untuk melakukan ekstraksi pada tabel PDF. Selain itudengan adanya ide dasar ekstraksi tabel PDF, akan membantu dalam penelitian selanjutnya.Penelitian lanjutan yang perlu dilakukan adalah dengan mengembangkan aplikasi real sampai dengan tahapan penggabugan tabel dari berbagai sumber dan direpresentasikan dalam model data teknologi saat ini akan mengadapsi dari model XML dan RDF.
DAFTAR PUSTAKA
Purnamasari, D. Wicaksana, W.S. Bnowosari, L.Y. 2015 Ekstraksi Tabel di Internet : dalam Format HTML dan PDF. http://repository.gunadarma.ac.id/263/ di unduh pada 01 Juli 2015.

Purnamasari, Detty. Wicaksana, I Wayan Simri. Ruhama, Syamsi. 2014. Algoritma untuk Ekstraksi Tabel HTML di WEB. http://repository.gunadarma.ac.id/102/ di unduh pada 01 Juli 2015.

Purnamasari, Detty. Banowoari, Lintang Yuniar. Wijaya, Ardo Rama. Riesvicky, Hifshan. 2003. Pemilihan Alat Konversi Tabel Format Pdf Menjadi Format Html Untuk Proses Ekstraksi Tabel http://publication.gunadarma.ac.id/handle/123456789/6776  di unduh pada Juli 2015.