Posts tagged web scraping

Techniques used to block web crawlers

There are many techniques used these days by websites that want to keep crawlers away from their pages. Here is summary of the most common ones and how they work. Suspicious Cookies Most websites set cookies which are sent by the web client on every HTTP request they make. Those cookies can be used by [...]

senja_solo_pse_yk_price_history_regular_days

Proyek Iseng: Pergerakan Harga Tiket Kereta

alam 3 bulan terakhir ini, saya mengerjakan sebuah proyek iseng: mengumpulkan data pergerakan harga tiket kereta (kereta jarak jauh, bukan KRL atau kereta lokal). Kenapa kereta? Alasannya sederhana, saya merupakan pengguna setia angkutan umum tersebut :D . Jika saya mudik dari Jakarta ke kampung halaman di Yogyakarta, saya lebih memilih naik kereta dibanding bus atau pesawat.

Untuk mengumpulkan data pergerakan harga tiket kereta tersebut, saya membuat sebuah perangkat lunak yang mampu melakukan pencarian tiket dan mengekstrak informasi tiket secara otomatis. Perangkat lunak semacam ini lazim dikenal dengan istilah web scraper. Informasi tiket yang diekstrak kemudian disimpan ke basisdata.

Informasi harga dan ketersediaan tiket kereta dapat diperoleh di situs reservasi tiket PT KAI. Untuk mengumpulkan data, saya membuat sebuah perangkat lunak yang dapat secara otomatis melakukan pencarian dan mengekstrak informasi tiket dari situs tersebut. Perangkat lunak semacam ini lazim dikenal dengan istilah web scraper. Informasi tiket yang diekstrak kemudian disimpan ke basisdata.