Pages

Friday 3 May 2013

Web Archiving




Apa itu Web Archiving ?


Web Achiving atau pengarsipan adalah proses pengumpulan bagian dari World Wide Web (WWW) untuk memastikan informasi yang diawetkan dalam arsip bagi para peneliti di masa depan, sejarawan, dan masyarakat umum. Web terbesar pengarsipan organisasi berdasarkan pendekatan merangkak massal adalah Internet Archive yang berusaha untuk memelihara arsip dari seluruh Web Perpustakaan Nasional , Arsip Nasional dan berbagai konsorsium organisasi juga terlibat dalam pengarsipan konten Web budaya penting. Web komersial pengarsipan perangkat lunak tersedia untuk organisasi yang perlu arsip konten web.

Pengumpulan Web

Arsiparis web umumnya biasanya mengumpulkan arsip berbagai jenis konten web termasuk HTML halaman web, style sheet , JavaScript , gambar , dan video yang . Mereka juga arsip metadata tentang sumber daya dikumpulkan seperti waktu akses, tipe MIME , dan panjang konten. Metadata ini berguna dalam membangun keaslian dan asal dari koleksi arsip. Jangan lupa tak begitu saja arsiparis mengumpulkan arsip yang begitu banyak adanya, tentu saja ada metode-metodenya.

*maksudnya arsiparis diatas adalah orang yang mengelola, memelihara, dan memberikan informasi suatu dokumen/file. Oke silahkan simak metode dibawah ini :

Metode Pengumpulan web


1. Jauh panen

Yang paling umum teknik web pengarsipan bekerja sama dengan web crawler untuk mengotomatisasi proses pengumpulan halaman web . Web crawler biasanya mengakses halaman web dengan cara yang sama bahwa pengguna dengan browser melihat Web, dan karena itu menyediakan metode yang relatif sederhana konten web panen jauh. Contoh web crawler digunakan untuk web pengarsipan meliputi:

• Heritrix
• HTTrack
• Wget

2. On-Demand

Ada banyak layanan yang dapat digunakan untuk sumber arsip web "on-demand", namun menggunakan teknik web merangkak. Layanannya seperti berikut :

Aleph Arsip, layanan pengarsipan web untuk kepatuhan terhadap peraturan dan eDiscovery bertujuan untuk perusahaan industri hukum dan pemerintah.

Archive.is, sebuah layanan gratis yang menyimpan halaman dan semua gambar nya. Hal ini dapat menyimpan halaman Web 2.0.

Arsip-It, sebuah layanan berlangganan yang memungkinkan lembaga untuk membangun, mengelola dan mencari arsip web mereka sendiri.

Archivethe.net, shared web-platform pengarsipan dioperasikan oleh Internet Research Memory, spin-off dari memori internet dasar (sebelumnya Yayasan Arsip Eropa). IM Situs Web.

WatchDog oleh SiteQuest Teknologi, sebuah layanan berlangganan yang memungkinkan pengguna untuk menelusuri situs,  seperti yang muncul di masa lalu. Hal ini juga memonitor situs jika disitus tersebut terdapat perubahan.

Snapshot freezePAGE, sebuah layanan gratis / berlangganan. Untuk melestarikan snapshot.

NextPoint, menawarkan berbasis cloud otomatis, untuk kebutuhan terkait pemasaran, kepatuhan dan litigasi termasuk penemuan elektronik

Situs-Archive.com, layanan berlangganan. Menangkap layar-tembakan halaman, transaksi dan perjalanan pengguna menggunakan "browser yang sebenarnya". Layar-tembakan dapat dilihat secara online atau download dalam arsip bulanan. Menggunakan Pengujian Cloud teknologi.

• Dll, karna penyedia layanan situs archive ini sangatlah banyak.

Database Pengarsipan

Database pengarsipan mengacu pada metode untuk pengarsipan konten yang mendasari situs database-driven. Hal ini biasanya memerlukan ekstraksi dari basis data konten ke standar skema , sering menggunakan XML . Setelah disimpan dalam format standar, konten diarsipkan beberapa database kemudian dapat dibuat tersedia menggunakan sistem akses tunggal. Pendekatan ini dicontohkan oleh DeepArc dan Xinq alat yang dikembangkan oleh Bibliotheque nationale de France dan National Library of Australia.

Transaksional Pengarsipan

Transaksional pengarsipan merupakan pendekatan-event, yang mengumpulkan transaksi aktual yang terjadi antara server web dan browser web . Hal ini terutama digunakan sebagai sarana melestarikan bukti dari isi yang sebenarnya dilihat pada tertentu situs web , pada tanggal tertentu.

Sebuah sistem pengarsipan transaksional biasanya beroperasi dengan mencegat setiap HTTP request ke, dan respon dari, web server, penyaringan setiap respon untuk menghilangkan duplikat konten, dan secara permanen menyimpan tanggapan sebagai bitstreams. Sebuah sistem pengarsipan transaksional membutuhkan instalasi perangkat lunak pada server web, dan karenanya tidak dapat digunakan untuk mengumpulkan konten dari situs remote.

Crawler


Web arsip yang mengandalkan web merangkak sebagai sarana utama mereka mengumpulkan Web dipengaruhi oleh kesulitan merangkak web :

• Para robot protokol pengecualian dapat meminta crawler tidak dapat mengakses bagian dari sebuah situs web.

• Sebagian besar dari sebuah situs web mungkin tersembunyi di dalam Web . Misalnya, halaman hasil balik formulir web terletak pada dalam Web karena kebanyakan crawler tidak bisa mengikuti link ke halaman hasil.

• Perangkap Crawler, dapat menyebabkan crawler untuk men-download jumlah tak terbatas halaman, sehingga crawler biasanya dikonfigurasi untuk membatasi jumlah halaman dinamis sehingga tidak pesat kemajuannya.

Namun, penting untuk dicatat bahwa format web arsip asli, yaitu, dibrowse arsip web sepenuhnya, dengan link kerja, media, dll, hanya benar-benar mungkin menggunakan teknologi crawler.
Keterbatasan Umum

Tidak hanya harus arsiparis web menghadapi tantangan teknis web pengarsipan, mereka juga harus berhadapan dengan hukum kekayaan intelektual. Peter Lyman menyatakan bahwa "Meskipun Web Yang Populer Dianggap Sebagai Domain Publik Sumber Daya, Itu Hak Cipta , Dengan Demikian, Arsiparis Tidak Memiliki Hak Legal Untuk Menyalin Web ". Namun perpustakaan nasional di banyak negara memiliki hak legal untuk menyalin bagian-bagian dari web di bawah perpanjangan deposito hukum .

Beberapa arsip web nirlaba swasta yang dibuat dapat diakses publik seperti WebCite , yang Internet Archive atau memori internet memungkinkan pemilik konten untuk menyembunyikan atau menghapus konten diarsipkan bahwa mereka tidak ingin publik untuk memiliki akses ke. Arsip web lainnya hanya dapat diakses dari lokasi tertentu atau memiliki penggunaan diatur. WebCite mengutip gugatan baru terhadap caching Google.

Aspek Kurasi Web (menambahkan nilai dan memilih hanya konten yang paling relevan untuk pengguna spesifik)

Web yang memiliki kurasi, seperti kurasi digital, harus memiliki seperti :

• Sertifikasi kepercayaan dan integritas isi koleksi
• Mengumpulkan aset Web diverifikasi
• Menyediakan pencarian aset Web dan pengambilan
• Kontinuitas semantik dan ontologis dan komparatif dari isi koleksi

Dengan demikian, di samping membahas metode pengumpulan Web, mereka memberikan akses, sertifikasi, dan pengorganisasian harus disertakan. Ada satu set alat populer yang membahas langkah-langkah kurasi :

Sebuah suite alat untuk Web Kurasi oleh International Internet Preservation Consortium :

Heritrix - situs resmi - mengumpulkan aset Web
NutchWAX - pencarian Web arsip koleksi

Wayback (Open source Wayback Machine) pencarian koleksi arsip Web menggunakan NutchWax
Web Kurator Alat - Seleksi dan Pengelolaan Web Collection
• dll.


Kelompok Softskill :

52411111 Dimas Fachrian
51411941 Devie Eviani
53411645 Intan Octaviani
53411659 Iqbal Maulana
54411502 Mirza Fahmi A.

Wednesday 1 May 2013

Analisis Web


Analisis Web Mengukur Website Menggunakan 3 Tools


Pembahasan kali ini yaitu tentang Analisis Web. Seperti namanya, analisis web itu berarti menganalisa suatu web. Maksudnya menganalisa yaitu mengetahui ataupun mengukur suatu web berdasarkan traffic atau algoritma. Disini saya akan membahas 3 Tools untuk Mengukur Sebuah Website.

1). Page Rank ( http://www.prchecker.info/check_page_rank.php )


PageRank adalah sebuah algoritma yang telah dipatenkan yang berfungsi menentukan situs web mana yang lebih penting/populer. PageRank merupakan salah satu fitur utama mesin pencari Google dan diciptakan oleh pendirinya, Larry Page dan Sergey Brin yang merupakan mahasiswa Ph.D. Universitas Stanford.

Kelebihan Page Rank :


•  Page rank dapat lebih stabil. Walau dalam beberapa kasus ada juga blog doFollow yang pageranknya bagus dan stabil.

•  Semakin bagus posisi di SERP, ini berhubungan dengan PageRank, semakin baik pagerank sebuah blog semakin baik pula posisinya di SERP

•  Aman dari gangguan spammers yang mencari backlink asal-asalan jadi Untuk komentar yang masuk pasti lebih nyambung alias tidak keluar dari topik yang sedang dibahas.

Kekurangan PageRank :


1. Bisa dibilang Blog akan sepi pengunjung karna Pengunjung yang datang hanya mencari informasi dari blog kita

2. Jarang atau tidak ada yang memberi komentar, kecuali postingan yang berkualitas/bermanfaat. Walau terkadang postingan yang bermanfaat pun tidak menjamin banyak dikomentari. Tapi dalam beberapa kasus, tidak sedikit blog NoFollow yang postingannya ramai komentar.

Cara kerja :

PageRank, memiliki konsep dasar yang sama dengan link popularity, tetapi tidak hanya memperhitungkan “jumlah” inbound dan outbound link. Pendekatan yang digunakan adalah sebuah halaman akan diangap penting jika halaman lain memiliki link ke halaman tersebut. Sebuah halaman juga akan menjadi semakin penting jika halaman lain yang memiliki rangking (pagerank) tinggi mengacu ke halaman tersebut.

Dengan pendekatan yang digunakan PageRank, proses terjadi secara rekursif dimana sebuah rangking akan ditentukan oleh rangking dari halaman web yang rangkingnya ditentukan oleh rangking halaman web lain yang memiliki link ke halaman tersebut. Proses ini berarti suatu proses yang berulang (rekursif). Di dunia maya, ada jutaan bahkan milyaran halaman web. Oleh karena itu sebuah rangking halaman web ditentukan dari struktur link dari keseluruhan halaman web yang ada di dunia maya. Sebuah proses yang sangat besar dan komplek.

Biasanya saya memakai Google Pagerank untuk mengetahui blog saya sudah pada rank berapa di google.

2). Alexa ( www.alexa.com )


Tool ini akan menampilkan score website kalian di Alexa. Jika kalian memilih tampilan grafik, kalian bisa melihat grafik pengunjung Anda setiap bulannya. Alexa merupakan website penyedia traffic monitoring untuk Blog atau website kita. Alexa akan selalu memonitoring dan memperbaharui (meng-update) aktivitas dan perkembangan website kita. Semakin tinggi Rank yang kita dapatkan di alexa maka semakin tinggi pula indek pencarian blog kita di search engine. Tapi untuk mendapatkan Rank di alexa itu tidak mudah seperti yang di bayangkan karna ada tips dan trik yang harus di pelajari.

Sebagai contoh, blog saya yang telah dipasang alexa maka akan menampilan seperti ini : 


Kelebihan Alexa :


1. Alexa rank menghitung lebih syariah dan Google fokus kepada backlink sehingga para vendor dan webmaster lebih menyukai Alexa.

2. Alexa mempunyai ranking yang tidak terlalu lama updatenya dibandingkan Google yang update ± 3 bulan sekali.

3. Keuntungan menggunakan Alexa adalah Alexa memberikan data real yand didapat dari jumlah kunjungan yang bersifat unik dan sangat baik untuk memonitor prestasi website dalam jumlah kunjungan.

Kekurangan Alexa :


1. Alexa rank sebagai ukuran populeritas situs itu bohong , terbukti alexarank tidak bisa baca populeritas situs yang tidak di pasang baner alexa .

2. Alexa rank tidak up to date perkembangan situs , mulai dari konten, baik  artikel, keyword dan diskripsi, silahkan cek situs anda masing masing dan perhatikan keyword jaman dulu masih muncul .

3. Laporan backlink alexa rank tidak akurat, silahkan buktikan buat situs baru dengan satu backlink atau beberapa backlink, cek di sana pasti tidak sama.


3). Seomoz ( www.seomoz.org )


Website ini akan mengukur Page Strength website Anda dengan menggunakan berbagai macam parameter, seperti Page Rank, Umur Domain, Score di Alexa, dan lain lain. Untuk memasang tool ini di website Anda lakukan test Page Strength.Setelah muncul hasilnya Anda akan diberi kode untuk di paste di website Anda.

Kelebihan Seomoz :


1. Aman dari gangguan spammers yang mencari backlink asal-asalan jadi Untuk komentar yang masuk pasti lebih nyambung alias tidak keluar dari topik yang sedang dibahas.

2. Saat situs kita sepi maka situs kita masih dihargai oleh Google selama backlinknya masih ada.

3. Beberapa orang mengatakan bahwa Alexa hanya menghitung kunjungan website yang menggunakan Alexa toolbar dsb, namun beberapa orang meyakini bahwa tidak perlu menggunakan toolbar, Alexa akan tetap menghitung rank website, namun dengan menggunakan toolbar maka perhitungannya lebih maksimal dan lebih cepat.

Kekurangan Seomoz :


1. Bisa dibilang Blog akan sepi pengunjung karna Pengunjung yang datang hanya mencari informasi dari blog kita

2. Laporan backlink alexa rank tidak akurat, silahkan buktikan buat situs baru dengan satu backlink atau beberapa backlink, cek di sana heheheh pasti tidak sama.

3. Tidak bisa baca populeritas situs yang tidak di pasang baner Seomoz

Pendapat pribadi mengenai tools yang memungkinkan untuk digunakan adalah page rank karena tingkat kestabilan nya yang dapat di jadikan sebuah acuan.

Kelompok Softskill :

52411111 Dimas Fachrian
51411941 Devie Eviani
53411645 Intan Octaviani
53411659 Iqbal Maulana
54411502 Mirza Fahmi A.


Web Crawler


Pengertian Web Crawler


Dalam rangka tugas softskil, kami ditugaskan untuk mencari beberapa ulasan seperti  Analisis Web, Search Engine, Web Archiving, dan Web Crawlers . Untuk Pembahasan yang pertama ini salah satunya yang akan kita bahas adalah Web Crawler. Mungkin kalian bertanya Tanya sebenernya Web Crawler itu apa sih ? trus fungsinya untuk apa ?    

Web Crawler bisa juga disebut sebagai bot pencarian atau spider ialah program yang berfungsi menelusuri web yang ada di dunia maya dan berkunjung ke web-web tersebut atas nama search engine, hasil dari spider ini untuk menemukan link baru dan halaman baru atau website baru. Biasanya pekerjaan bot adalah mengindex dan menyimpan data di database para pemilik botnya.

Tentu saja Web Crawler ini mempunyai fungsi pula, nah disini Ada dua fungsi utama Web Crawler, yaitu  :

Mengidentifikasikan Hyperlink.
Hyperlink yang ditemui pada konten akan ditambahkan pada daftar visit, disebut juga dengan istilah frontier.

Melakukan proses kunjungan/visit secara rekursif.
Dari setiap Hyperlink, web crawler akan menjelajahinya dan melakukan proses berulang, dengan ketentuan yang disesuaikan dengan keperluan aplikasi. Untuk gambarnya bisa dilihat dibawah :





Arsitektur Web Crawler



Cara Kerja Web Crawler
Crawler diawali dengan adanya daftar URL yang akan dikunjungi (seeds). Setelah crawler mengunjungi URL tersebut, kemudian mengidentifikasi semua hyperlink dari halaman itu dan menambahkan kembali ke dalam seeds (Crawl Frontier). Setelah web crawler mengunjungi halaman-halaman web yang ditentukan di dalam seeds, maka web crawler membawa data-data yang dicari oleh user kemudian menyimpannya ke sebuah storage.

Web crawler dapat dibuat untuk mencari informasi yang berhubungan dengan topic tertentu saja. Web crawler yang hanya mengumpulkan topic tertentu saja disebut topical web crawler. Web crawler dimulai dengan sekumpulan URL, kemudian di download setiap halamannya, mendapatkan link dari setiap page yang dikunjungi kemudian mengulangi kembali proses crawling pada setiap link halaman tersebut. Untuk gambar cara kerjanya lihat dibawah :



Beberapa Contoh dari Web Crawler :


1. Teleport Pro

Salah satu software web crawler untuk keperluan offline browsing, software ini cukup popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com/

2. HTTrack

Ditulis dengan menggunakan bahasa Pemrograman C, merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk, agar dapat dilihat secara offline. Yang menarik dari software ini free dan dapat didownload pada website resminya di http://www.httrack.com .

3. Googlebot

Web crawler untuk membangun index pencarian yang digunakan oleh search engine google. Bila website Anda ditemukan oleh orang lain melalui Google, bias jadi itu dari Googlebot.

4. Yahoo! Slurp

Ini merupakan search engine Yahoo, teknologinya dikembangkan oleh Inktomi Corporation yang diakusisi oleh Yahoo!.

5. YaCy

Berbeda dengan yang lain , YaCy dibangun atas prinsip P2P (peer-to-peer), di develop dengan java, dan didistribusikan pada beberapa ratus mesin komputer (YaCy peers). Tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central. Contoh search engine yang menggunakan YaCy ialah Sciencenet (http://sciencenet.fzk.de ), untuk pencarian dokumen di bidang sains.


Kelompok Softskill :

52411111 Dimas Fachrian
51411941 Devie Eviani
53411645 Intan Octaviani
53411659 Iqbal Maulana
54411502 Mirza Fahmi A.

Search Engine


Search Engine


Macam-Macam Search Engine
Mesin pencari Internet adalah satu-satunya yang membebaskan kita dari kebingungan dan kekacauan menjelajah Internet. Saat ini terlalu banyak penyedia informasi di Internet, dan memeriksanya satu persatu tanpa mesin pencari adalah pekerjaan mustahil.

Lalu apa saja keunggulan masing-masing mesin pencari tersebut? Berikut uraian singkat mengenai perbandingkan mesin pencari yang cukup populer, yaitu Yahoo!, MSN, dan Google.

Yahoo!

(http://www.yahoo.com)
Salah satu portal terbesar di Internet, selain MSN., dan juga salah satu mesin pencaru tertua. Halaman utamanya sendiri tidak terlalu ramah untuk pencarian, tetapi Yahoo! menyediakan search.yahoo.com untuk itu. Yahoo! menggunakan jasa Google untuk mencari informasi di web, ditambah dengan informasi dari databasenya sendiri. Kelebihan Yahoo! adalah direktorinya. Yahoo! juga menyediakan pencarian yellow pages dan peta, yang masih terbatas pada Amerika Serikat. Yahoo juga menyediakan pencarian gambar.

Fitur yahoo :
1. Tampilan awal bagus
2. Update berita-berita dunia dihalaman awal
3. Menyediakan list berbagai macam fitur lainnya (messenger, game, travel, news, dll)
4. Kecepatan mencari yang lebih cepat dari mesin pencari lainnya

MSN

http://search.msn.com
Mesin pencari dari Microsoft Network ini menawarkan pencarian baik dengan kata kunci maupun dari direktori. Pemakai Internet Explorer kemungkinan besar sudah pernah menggunakan mesin pencari ini. Situs Search engine watch mencatat MSN sebagai mesin pencari ketiga populer setelah Google dan Yahoo! Tak ada pencarian image, atau news. Menyediakan pencarian peta, yellow pages, white pages, pencarian pekerjaan, rumah.

Fitur msn :
1. Tampilan awal ramai
2. Update news terbaru di halaman awal
3. Menggunakan mesin pencari bing

Google

http://www.google.com
Selain pencarian web, Google juga menyediakan jasa pencarian gambar, pencarian ?berita serta pencarian pada arsip USENET (newsgroup), serta direktori, seperti Yahoo! Kelemahannya terletak pada tidak tersedianya pencarian file, video, dan audio. Keunggulan Google terutama adalah pada pencarian teks, terutama dari algoritma PageRank, database-nya yang besar serta banyaknya jenis file yang diindeksnya.

Fitur pada Google :
1. Perhitungan matematika sederhana.
2. Tampilan awal sangat simple
3. Konversi mata uang.
4. Melihat waktu di berbagai kota di seluruh dunia.
5. Konversi unit.
6. Cek ejaan.
7. Google translate

NLP

Natural Language Processing (NLP) adalah salah satu bidang ilmu komputer, kecerdasan buatan, dan bahasa (linguistik) yang berkaitan dengan interaksi antara komputer dan bahasa alami manusia, seperti bahasa Indonesia atau bahasa Inggris. Tujuan utama dari studi NLP adalah membuat mesin yang mampu mengerti dan memahami makna bahasa manusia lalu memberikan respon yang sesuai. Yahoo, google, dan msn juga sudah menggunakan Natural Language Processing.

Kelompok Softskill : 

52411111 Dimas Fachrian
51411941 Devie Eviani
53411645 Intan Octaviani
53411659 Iqbal Maulana
54411502 Mirza Fahmi A.