Web Mining

Techniques used to block web crawlers

There are many techniques used these days by websites that want to keep crawlers away from their pages. Here is summary of the most common ones and how they work. Suspicious Cookies Most websites set cookies which are sent by the web client on every HTTP request they make. Those cookies can be used by [...]

senja_solo_pse_yk_price_history_regular_days

Proyek Iseng: Pergerakan Harga Tiket Kereta

alam 3 bulan terakhir ini, saya mengerjakan sebuah proyek iseng: mengumpulkan data pergerakan harga tiket kereta (kereta jarak jauh, bukan KRL atau kereta lokal). Kenapa kereta? Alasannya sederhana, saya merupakan pengguna setia angkutan umum tersebut :D . Jika saya mudik dari Jakarta ke kampung halaman di Yogyakarta, saya lebih memilih naik kereta dibanding bus atau pesawat.

Untuk mengumpulkan data pergerakan harga tiket kereta tersebut, saya membuat sebuah perangkat lunak yang mampu melakukan pencarian tiket dan mengekstrak informasi tiket secara otomatis. Perangkat lunak semacam ini lazim dikenal dengan istilah web scraper. Informasi tiket yang diekstrak kemudian disimpan ke basisdata.

Informasi harga dan ketersediaan tiket kereta dapat diperoleh di situs reservasi tiket PT KAI. Untuk mengumpulkan data, saya membuat sebuah perangkat lunak yang dapat secara otomatis melakukan pencarian dan mengekstrak informasi tiket dari situs tersebut. Perangkat lunak semacam ini lazim dikenal dengan istilah web scraper. Informasi tiket yang diekstrak kemudian disimpan ke basisdata.

Structured Data Extractor – Implementasi Metode Data Extraction based on Partial Tree Alignment (DEPTA)

Structured Data Extractor (SDE) adalah implementasi dari DEPTA (Data Extraction based on Partial Tree Alignment), sebuah metode untuk mengekstrak data dari halaman web (dokumen HTML). DEPTA dirancang oleh Yanhong Zhai dan Bing Liu dari University of Illinois at Chicago dan dipublikasikan dalam paper mereka “Structured Data Extraction from the Web based on Partial Tree Alignment” (IEEE Transactions on Knowledge and Data Engineering, 2006). Dengan masukan berupa suatu halaman web, SDE akan mendeteksi adanya data records pada halaman web tersebut dan mengekstraknya ke dalam struktur tabel (baris dan kolom).

Apa Itu Web Mining?

Saat ini World Wide Web (atau lebih sering disebut Web) merupakan sumber informasi yang sangat besar. Dahulu, sebelum adanya Web, jika kita ingin mencari informasi mengenai suatu hal maka kita akan bertanya pada orang lain atau mencarinya di buku. Saat ini, kita tinggal membuka web browser dan mencarinya di mesin pencari (seperti Google) menggunakan kata [...]