Untuk kasus sederhana mengunduh konten halaman, gunakan curl atau wget . Keduanya adalah alat baris perintah yang dirancang untuk mengunduh file melalui HTTP dan memiliki banyak opsi. Dalam kasus Anda, Anda mungkin perlu membuat alat-alat ini lebih mirip browser; jawaban lutzky dan jawaban penguin359 menyebutkan beberapa opsi curl dan wget yang berguna dalam hal itu.
Terkadang, ketika Anda harus masuk , jauh lebih mudah untuk masuk secara manual di browser web, lalu ekspor cookie browser web (ekstensi seperti allcookies atau Ekspor Cookie untuk Firefox dapat membantu).
Jika Anda perlu mem-parsing konten beberapa halaman atau memposting formulir , Anda mungkin membutuhkan alat yang lebih bagus daripada menggulung dan meleset. Beberapa alat yang bagus ada Perl dengan LWP
(libwww) dan HTML::TreeBuilder
(HTML-Tree) atau Python dengan perpustakaan standar (terutama httplib
danhtmllib
).
Untuk interaksi yang lebih kompleks dengan situs web, rujukannya adalah Perl's WWW :: Mechanize . Perpustakaan Perl ini mendefinisikan fungsi tingkat tinggi untuk berinteraksi dengan situs web seperti yang dilakukan oleh browser web, termasuk POSTing, formulir, cookie, tetapi tidak Javascript. Jika Perl bukan secangkir teh Anda, perpustakaan ini memiliki tiruan dengan kemampuan serupa dalam bahasa lain, seperti Python mechanize dan Ruby Mechanize .
Akhirnya, ketika Anda membutuhkan Javascript , pendekatan yang biasa digunakan adalah menggunakan browser web yang digerakkan oleh kerangka kerja otomatisasi browser. Selenium dan Watir adalah pilihan populer; lihat juga Apakah ada alat yang bagus selain SeleniumRC yang dapat mengambil halaman web termasuk konten pasca-dicat oleh JavaScript?