Structured Data Extractor (SDE) adalah implementasi dari DEPTA (Data Extraction based on Partial Tree Alignment), sebuah metode untuk mengekstrak data dari halaman web (dokumen HTML). DEPTA dirancang oleh Yanhong Zhai dan Bing Liu dari University of Illinois at Chicago dan dipublikasikan dalam paper mereka “Structured Data Extraction from the Web based on Partial Tree Alignment” (IEEE Transactions on Knowledge and Data Engineering, 2006). Dengan masukan berupa suatu halaman web, SDE akan mendeteksi adanya data records pada halaman web tersebut dan mengekstraknya ke dalam struktur tabel (baris dan kolom).

Program ini saya buat sebagai bagian dari skripsi saya pada tahun 2009, namun baru sempat saya rilis ke publik saat ini. Anda bisa mengunduhnya pada tautan berikut: Download Structured Data Extractor. Saya juga telah mengunggah presentasi saya mengenai Structured Data Extractor.

Penggunaan

  1. Ekstrak file sde.zip.
  2. Pastikan Java Runtime Environment (versi 5 ke atas) sudah terinstal dalam komputer Anda.
  3. Buka aplikasi command prompt (Windows) atau shell (UNIX).
  4. Masuk ke direktori tempat anda mengekstrak file sde.zip.
  5. Jalankan perintah berikut: java -jar sde-runnable.jar URI_input path_to_output_file
  6. Parameter URI_input bisa berupa file di komputer lokal maupun di Internet. Sesuai format URI, Untuk file lokal harus diawali dengan “file:///”. Misalnya pada Windows: “file:///D:/Development/Proyek/structured_data_extractor/bin/input/input.html” atau pada UNIX: “file:///home/seagate/input/input.html”.
  7. Parameter path_to_output_file ditulis sesuai format path yang valid pada sistem operasi di mana aplikasi dijalankan seperti “D:\Data\output.html” (Windows) atau “/home/seagate/output/output.html” (UNIX).
  8. Data yang berhasil diekstrak dapat dilihat pada output file. Output file merupakan dokumen HTML dan data yang diekstrak disajikan dalam bentuk tabel HTML.

Source Code

Kode sumber SDE tersedia di GitHub.

Dependensi

SDE dibangun menggunakan library berikut:

  • Neko HTML Parser karya Andy Clark and Marc Guillemot. Dirilis menggunakan Apache License Version 2.0.
  • Xerces karya The Apache Software Foundation. Dirilis menggunakan Apache License Version 2.0.

Lisensi

SDE dirilis menggunakan lisensi MIT.

Author

Sigit Dewanto, sigitdewanto11[at]yahoo[dot]co[dot]uk, 2009.

No related posts.