Kombinasi internet dengan search engine memungkinkan semua orang bisa mendapatkan informasi yang mereka inginkan dengan mudah juga cepat. Namun agar informasi ini sampai ke pembaca, terdapat serangkaian proses yang kompleks. Ketika suatu informasi terunggah ke dunia maya, misalnya postingan artikel, mesin pencari lalu akan melakukan crawling terlebih dahulu. Oleh karena itu, artikel ini akan membahas apa itu crawler dan indexing, bagaimana keduanya berfungsi, serta dampaknya terhadap SEO.
Crawler atau crawling adalah proses oleh search engine untuk menelusuri (baca: merayapi) seluruh informasi yang ada di internet sesuai dengan kueri yang kita berikan. Proses ini berlangsung dengan bantuan bot yang kita kenal dengan crawler.
Setelah melakukan perayapan, web crawler akan mengindeks/menggabungkan halaman web tersebut dengan halaman web lain yang membahas informasi serupa.
Ketika ada pengguna yang mencari informasi tersebut, search engine akan dengan cepat menampilkan informasi yang mereka minta dari database halaman web yang telah terindeks.
Fungsi Crawler
Alat atau sistem ini berfungsi untuk mempelajari berbagai halaman web, informasi yang termuat di web tersebut sehingga web bisa terindeks. Hal ini agar ketika pengguna mencari suatu informasi, search engine lalu memberikan website yang relevan dengan permintaan yang pengguna mau.
Web crawler akan secara sistematis menelusuri halaman-halaman web secara berkala. Ketika ada perubahan pada suatu web, ia akan melakukan perayapan dan indexing kembali.
Misal, blog A membahas tentang herbal untuk pria paruh baya. Maka ketika pengguna mencari informasi mengenai herbal untuk pria paruh baya, maka blog A akan tampil di search engine.
Namun konten terbaru blog tersebut lebih banyak membahas tentang kuliner, web crawler pasti akan mengidentifikasi blog sebagai website khusus makanan.
Faktor-faktor Pertimbangan Oleh Crawler
SEO sangat memengaruhi kerja crawler. Website yang mengikuti prinsip SEO akan mudah crawler temukan.
Ketika website eror, crawler sulit menemukan web Anda. Akhirnya, rangking website di halaman pencarian (SERP) akan menurun juga akan menyebabkan website sulit pengguna temukan. # apa itu crawler #
Berikut faktor ataupun aturan crawler ketika merayapi suatu situs web:
Jumlah halaman yang tertaut
Crawler memiliki prioritas halaman situs web yang perlu terayapi terlebih dahulu, salah satunya adalah berdasarkan jumlah halaman lain yang tertaut ke halaman Anda (backlink).
Semakin sering suatu halaman dikutip oleh situs lain dan mendapatkan banyak pengunjung, maka menandakan halaman tersebut berisi informasi yang relatif berkualitas. Jadi penting bagi crawler untuk merayapi lalu segera mengindeksnya.
Konten sering terupdate
Konten web yang sering mendapat pembaharuan, terhapus, atau dipindahkan ke lokasi baru akan dikunjungi secara berkala oleh web crawler. Hal ini untuk memastikan versi konten terbaru terindeks dan bisa tampil ke pengunjung.
Persyaratan robot.txt
Sebelum merayapi, crawler memeriksa terlebih dahulu file robot.txt yang ada di hosting Anda.
File robot.txt berisi seperangkat aturan untuk tiap bot yang mengakses web yang di-hosting. Aturan ini menentukan halaman mana yang bisa terrayapi, dan tautan URL mana yang bisa diikuti.
Navigasi Situs
Kesempurnaan navigasi situs web akan memudahkan crawler untuk menjelajahi dan mengindeks halaman Anda. Sempurna dalam arti navigasi situs web Anda jelas dan mudah bot crawler pahami. Satu lagi untuk membantu navigasi yang sempurna adalah kehadiran peta situs (sitemap) serta struktur URL yang bersih dan teratur.
Contoh Kerja Crawler
Joko adalah blogger yang sudah lama aktif menulis. Blog-nya berfokus pada review herbal untuk manula, serta ia cukup aktif menulis di blog-nya.
Ketika Joko meng-upload konten yang membahas rekomendasi herbal terbaik untuk manula, web crawler secara otomatis merayapi blognya. Setelah penelusuran, bot akan mengindeksnya agar bisa tampil ke pengguna dengan mudah.
Jadi ketika ada pengguna mencari “Rekomendasi herbal untuk pria manula”, maka search engine akan menampilkan website Joko bersama dengan web lain yang membahas informasi sejenis.
FAQ (Frequently Asked Question) Tentang Apa Itu Crawler
Apa perbedaan crawling dan indexing?
Crawling serta indexing adalah proses memastikan bahwa konten situs web Anda dapat temukan dan tampil oleh mesin pencari. Crawling merupakan proses ketika robot merayapi/menelusuri halaman website. Selanjutnya, bot akan melakukan indexing.
Indexing merupakan menggabungkan serta menyimpan halaman website dengan halaman web lain yang membahas informasi serupa. Halaman-halaman tersebut kemudian tersusun dalam bentuk daftar, seperti daftar isi pada buku.
Ketika pengguna mencari informasi yang mereka inginkan, search engine lalu menampilkan daftar website yang membahas informasi yang paling relevan.
Apa perbedaan web scraping dengan web crawling ?
Web scraping memiliki konsep yang mirip-mirip dengan web crawling. Web scraping lebih kepada mengekstrak konten pada web tertentu tanpa seizin pemiliknya. Prosesnya tanpa aturan tertentu, sedangkan web crawling melakukan perayapan berdasarkan aturan yang telah tersetting terlebih dahulu agar tidak membebani server web yang mereka kunjungi.
Web scraping mungkin bertujuan analisis untuk membuat kumpulan data yang lebih bertarget. Salah satu contohnya yakni membantu membandingkan harga produk di beberapa penjual.
Namun sering kali penggunaan web scraping untuk tujuan negatif: mengorek data pribadi atau kekayaan intelektual seseorang.
Misal, perusahaan B menscrapping web perusahaan A. Tujuannya adalah untuk memperoleh seluruh akses informasi perusahaan A, baik bersifat publik maupun rahasia, sebut saja informasi produk, dan pembaruan real time harga dan promosi. # apa itu crawler #