Pages

Wednesday 1 May 2013

Web Crawler


Pengertian Web Crawler


Dalam rangka tugas softskil, kami ditugaskan untuk mencari beberapa ulasan seperti  Analisis Web, Search Engine, Web Archiving, dan Web Crawlers . Untuk Pembahasan yang pertama ini salah satunya yang akan kita bahas adalah Web Crawler. Mungkin kalian bertanya Tanya sebenernya Web Crawler itu apa sih ? trus fungsinya untuk apa ?    

Web Crawler bisa juga disebut sebagai bot pencarian atau spider ialah program yang berfungsi menelusuri web yang ada di dunia maya dan berkunjung ke web-web tersebut atas nama search engine, hasil dari spider ini untuk menemukan link baru dan halaman baru atau website baru. Biasanya pekerjaan bot adalah mengindex dan menyimpan data di database para pemilik botnya.

Tentu saja Web Crawler ini mempunyai fungsi pula, nah disini Ada dua fungsi utama Web Crawler, yaitu  :

Mengidentifikasikan Hyperlink.
Hyperlink yang ditemui pada konten akan ditambahkan pada daftar visit, disebut juga dengan istilah frontier.

Melakukan proses kunjungan/visit secara rekursif.
Dari setiap Hyperlink, web crawler akan menjelajahinya dan melakukan proses berulang, dengan ketentuan yang disesuaikan dengan keperluan aplikasi. Untuk gambarnya bisa dilihat dibawah :





Arsitektur Web Crawler



Cara Kerja Web Crawler
Crawler diawali dengan adanya daftar URL yang akan dikunjungi (seeds). Setelah crawler mengunjungi URL tersebut, kemudian mengidentifikasi semua hyperlink dari halaman itu dan menambahkan kembali ke dalam seeds (Crawl Frontier). Setelah web crawler mengunjungi halaman-halaman web yang ditentukan di dalam seeds, maka web crawler membawa data-data yang dicari oleh user kemudian menyimpannya ke sebuah storage.

Web crawler dapat dibuat untuk mencari informasi yang berhubungan dengan topic tertentu saja. Web crawler yang hanya mengumpulkan topic tertentu saja disebut topical web crawler. Web crawler dimulai dengan sekumpulan URL, kemudian di download setiap halamannya, mendapatkan link dari setiap page yang dikunjungi kemudian mengulangi kembali proses crawling pada setiap link halaman tersebut. Untuk gambar cara kerjanya lihat dibawah :



Beberapa Contoh dari Web Crawler :


1. Teleport Pro

Salah satu software web crawler untuk keperluan offline browsing, software ini cukup popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com/

2. HTTrack

Ditulis dengan menggunakan bahasa Pemrograman C, merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk, agar dapat dilihat secara offline. Yang menarik dari software ini free dan dapat didownload pada website resminya di http://www.httrack.com .

3. Googlebot

Web crawler untuk membangun index pencarian yang digunakan oleh search engine google. Bila website Anda ditemukan oleh orang lain melalui Google, bias jadi itu dari Googlebot.

4. Yahoo! Slurp

Ini merupakan search engine Yahoo, teknologinya dikembangkan oleh Inktomi Corporation yang diakusisi oleh Yahoo!.

5. YaCy

Berbeda dengan yang lain , YaCy dibangun atas prinsip P2P (peer-to-peer), di develop dengan java, dan didistribusikan pada beberapa ratus mesin komputer (YaCy peers). Tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central. Contoh search engine yang menggunakan YaCy ialah Sciencenet (http://sciencenet.fzk.de ), untuk pencarian dokumen di bidang sains.


Kelompok Softskill :

52411111 Dimas Fachrian
51411941 Devie Eviani
53411645 Intan Octaviani
53411659 Iqbal Maulana
54411502 Mirza Fahmi A.

No comments:

Post a Comment