Saat ini World Wide Web (atau lebih sering disebut Web) merupakan sumber informasi yang sangat besar. Dahulu, sebelum adanya Web, jika kita ingin mencari informasi mengenai suatu hal maka kita akan bertanya pada orang lain atau mencarinya di buku. Saat ini, kita tinggal membuka web browser dan mencarinya di mesin pencari (seperti Google) menggunakan kata kunci yang relevan. Web juga merupakan media komunikasi yang populer. Orang-orang berinteraksi melalui web forum atau jejaring sosial seperti Facebook dan Twitter. Peran lain Web adalah sebagai sarana untuk menjalankan bisnis. Banyak perusahaan yang telah memanfaat Web untuk promosi produk mereka atau bahkan menjualnya secara online.

Karena demikian pentingnya peranan Web, banyak penelitian telah dilakukan untuk mengekstrak informasi yang bermanfaat dari Web. Menurut Liu (2007), web mining bertujuan untuk menemukan informasi atau pengetahuan yang
bermanfaat dari struktur web hyperlinks, halaman web, dan data penggunaan web. Berdasarkan jenis data primer yang digunakan dalam proses penggalian informasi, web mining dapat dikategorikan menjadi 3 jenis,
yaitu: web structure mining, web content mining, dan web usage mining.

web mining diagram

Web Mining Diagram

Web Structure Mining

Web structure mining bertujuan untuk menemukan pengetahuan yang bermanfaat dari hyperlinks, di mana hyperlinks tersebut menggambarkan mengenai struktur Web. Hyperlink merupakan sebuah tautan yang terdapat pada suatu halaman web dan merujuk ke bagian lain pada halaman yang sama atau ke halaman lain. Pemanfaatan yang paling populer dari web structure mining adalah untuk menentukan tingkat otoritas suatu halaman web. Mesin pencari Google menggunakan informasi tersebut untuk menentukan urutan hasil pencariannya. Sebuah algoritma web structure mining, PageRank, ditemukan oleh dua pendiri Google: Larry Page dan Sergey Brin. Web structure mining dapat juga diaplikasikan untuk mengkluster atau mengklasifikasikan halaman web (Gomes dan Gong, 2005).

Web Content Mining

Web content mining bertujuan untuk mengekstrak informasi atau pengetahuan yang bermanfaat dari isi halaman web. Terdapat dua kategori dalam web content mining: ekstraksi data terstruktur dan text mining. Ide mengenai ekstraksi data terstruktur berasal dari hasil pengamatan bahwa kebanyakan situs web menampilkan informasi penting yang berasal dari basisdata mereka menggunakan suatu template tertentu. Kita dapat mengidentifikasi template tersebut dengan mencari pola-pola yang berulang dalam halaman web. Selain data terstruktur, halaman web juga mengandung banyak sekali teks yang tidak terstruktur yang ditulis dalam bahasa natural. Penggalian informasi dari teks seperti ini merupakan domain dari text mining. Salah satu hal yang penting untuk dilakukan dalam text mining adalah mengekstrak pendapat atau sentimen orang-orang dalam tinjauan produk, forum, jejaring sosial, dan blog.

Web Usage Mining

Web usage mining bertujuan untuk menangkap dan memodelkan pola perilaku dan profil dari pengunjung web. Pola-pola tersebut dapat digunakan untuk meningkatkan pemahaman mengenai perilaku dari segmen-segmen pengunjung web yang berbeda, untuk memaksimalkan tata letak dan struktur dari situs web, dan untuk memberikan informasi yang sesuai dengan profil pengunjung. Berbeda dengan dua jenis web mining sebelumnya, sumber data primer dari web usage mining adalah log akses web server, bukan halaman web.

Sumber

Gomes, M. and Gong, Z., 2005, Web Structure Mining: An Introduction, Proceedings of the 2005 IEEE International Conference on Information Acquisition

Liu, B., 2007, Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Springer

Related posts:

  1. Structured Data Extractor – Implementasi Metode Data Extraction based on Partial Tree Alignment (DEPTA)