Memulihkan situs web yang hilang tanpa cadangan?


262

Sayangnya, penyedia hosting kami mengalami kehilangan data 100%, jadi saya kehilangan semua konten untuk dua situs web yang di-host blog:

(Ya, ya, saya benar - benar harus melakukan backup di luar kantor. Sayangnya, semua cadangan saya ada di server itu sendiri. Jadi simpan kuliah; Anda 100% benar sekali, tetapi itu tidak membantu saya saat ini. Mari tetap fokus pada pertanyaan di sini!)

Saya memulai proses pemulihan situs web yang lambat dan menyakitkan dari cache perayap web.

Ada beberapa alat otomatis untuk memulihkan situs web dari internet web spider (Yahoo, Bing, Google, dll) cache, seperti Warrick , tetapi saya memiliki beberapa hasil buruk menggunakan ini:

  • Alamat IP saya dengan cepat diblokir dari Google untuk menggunakannya
  • Saya mendapatkan banyak kesalahan 500 dan 503 dan "menunggu 5 menit ..."
  • Pada akhirnya, saya dapat memulihkan konten teks lebih cepat dengan tangan

Saya lebih beruntung dengan menggunakan daftar semua posting blog, mengklik tembolok Google dan menyimpan setiap file sebagai HTML. Meskipun ada banyak posting blog, tidak ada yang banyak, dan saya pikir saya pantas beberapa menyalahi diri karena tidak memiliki strategi cadangan yang lebih baik. Bagaimanapun, yang penting adalah saya beruntung mendapatkan teks posting blog dengan cara ini, dan saya pasti bisa mendapatkan teks dari halaman web dari cache internet. Berdasarkan apa yang telah saya lakukan sejauh ini, saya yakin saya dapat memulihkan semua teks dan komentar posting blog yang hilang .

Namun, gambar yang masuk dengan setiap posting blog terbukti ... lebih sulit.

Adakah tip umum untuk memulihkan halaman situs web dari cache Internet, dan khususnya, tempat untuk memulihkan gambar yang diarsipkan dari halaman situs web ?

(Dan, sekali lagi, tolong, tidak ada kuliah cadangan. Anda benar-benar, sepenuhnya, benar sekali! Tapi menjadi benar tidak menyelesaikan masalah langsung saya ... Kecuali Anda memiliki mesin waktu ...)


96
Ketika seseorang seperti Jeff Atwood sendiri dapat kehilangan dua situs web sekaligus dalam satu gerakan ... Ya. Saya akan meninjau prosedur cadangan saya sendiri, untuk satu: P

240
@ Phoshi: Jeff memiliki beberapa artikel bagus tentang Coding Horror pada cadangan. Anda harus memberi mereka bacaan cepat.

34
joshhunt memenangkan satu (1) internet. Penawaran ini tidak dapat digabungkan dengan penawaran lain, ditukar, atau diganti. Tidak ada rainchecks.
Adam Davis

28
Panjang beberapa orang akan pergi ke, untuk mendapatkan perwakilan di SU ...

26
Harap jangan merujuk apa yang Anda lakukan sebagai "cadangan" - jika file-file itu ada di server yang sama, mereka sama sekali tidak "cadangan."

Jawaban:


220

Inilah tikaman liar saya di kegelapan: konfigurasikan server web Anda untuk mengembalikan 304 untuk setiap permintaan gambar, lalu kerumunan sumber pemulihan dengan memposting daftar URL di suatu tempat dan bertanya pada podcast agar semua pembaca Anda memuat setiap URL dan memanen gambar apa pun yang memuat dari cache lokal mereka. (Ini hanya dapat berfungsi setelah Anda mengembalikan halaman HTML itu sendiri, lengkap dengan <img ...>tag, yang tampaknya menyiratkan pertanyaan Anda bahwa Anda akan dapat melakukannya.)

Ini pada dasarnya adalah cara mewah untuk mengatakan, "dapatkan dari cache browser web pembaca Anda." Anda memiliki banyak pembaca dan pendengar podcast, sehingga Anda dapat secara efektif memobilisasi sejumlah besar orang yang cenderung telah melihat situs web Anda baru-baru ini. Tetapi menemukan dan mengekstraksi gambar secara manual dari berbagai cache web browser adalah sulit, dan seluruh pendekatan ini bekerja dengan baik jika cukup mudah sehingga banyak orang akan mencobanya dan menjadi sukses. Dengan demikian pendekatan 304. Yang diperlukan pembaca adalah mereka mengklik serangkaian tautan dan menarik gambar apa pun yang dimuat di browser web mereka (atau klik kanan dan simpan-seperti, dll.) Lalu kirim lewat email kepada Anda atau unggah ke lokasi pusat yang Anda atur, atau apa pun. Kelemahan utama dari pendekatan ini adalah bahwa cache browser web tidak kembali sejauh itu. Tetapi hanya perlu satu pembaca yang memuat pos dari tahun 2006 dalam beberapa hari terakhir untuk menyelamatkan bahkan gambar yang sangat lama. Dengan audiens yang cukup besar, segalanya mungkin terjadi.


52
+1 untuk pendekatan paling kreatif. Sebenarnya bisa bekerja karena CH memiliki beberapa pembaca.

16
diimplementasikan di sini? diovo.com/2009/12/...
Jeff Atwood

3
Saya pikir Anda bisa merangkak file statis Anda untuk tag gambar dan menyalin semua itu ke dalam satu halaman gambar raksasa, daripada meminta semua orang mengklik setiap tautan. Implementasi diovo.com terlihat sangat mengesankan, semoga berhasil untuk Anda.

2
WOW itu omong kosong sihir jahat I <3
Ahmad Alfy

4
Bahkan, Anda harus dapat mengambil gambar menggunakan canvasdan mengirimnya ke rumah oleh AJAX.
Tomáš Zato

65

Beberapa dari kami mengikuti Anda dengan pembaca RSS dan tidak menghapus cache. Saya memiliki posting blog yang tampaknya kembali ke 2006. Tidak ada gambar, dari apa yang saya lihat, tetapi mungkin lebih baik daripada apa yang Anda lakukan sekarang.


+1 pasti. Google Reader tidak, tetapi saya bertaruh yang berbasis desktop akan melakukannya.

2
Anda juga dapat meminta orang untuk memeriksa cache browser mereka. Mereka yang melihat gaya retro Coding Horror mungkin memiliki beberapa gambar di-cache.

Saya punya posting blog kembali ke 2005 di GReader, tapi sayangnya, mereka tidak memiliki gambar, dan mereka tidak akan membiarkan saya hanya mengekspornya sebagai serangkaian halaman ... Tapi saya bisa mengirim email kepada Anda, Jeff. ..
Glen Solsberry

Ya, ada yang tersirat, "Saya akan mengirimi Anda apa yang saya miliki jika Anda memintanya." dalam jawaban saya juga.

3
Terlalu banyak pembaca RSS menganggap gambar tidak akan pernah mati. Saya tahu saya tidak :(

62

(1) Ekstrak daftar nama file dari semua gambar yang hilang dari cadangan HTML. Anda akan dibiarkan dengan sesuatu seperti:

  • stay-puft-marshmallow-man.jpg
  • internet-properties-dialog.png
  • yahoo-homepage-small.png
  • kata sandi-show-animated.gif
  • tivo2.jpg
  • michael-abrash-graphics-program

(2) Lakukan Pencarian Gambar Google untuk nama file tersebut. Sepertinya BANYAK dari mereka telah, um, "dicerminkan" oleh blogger lain dan siap untuk mengambil karena mereka memiliki nama file yang sama .

(3) Anda bisa melakukan ini secara otomatis jika terbukti berhasil, misalnya, 10+ gambar.


Akan sangat ironis jika dia benar-benar mendapatkan gambar kembali seperti ini.
Hashim

51

Dengan pergi ke pencarian dan mengetik Gambar Googlesite:codinghorror.com Anda setidaknya dapat menemukan versi thumbnail dari semua gambar Anda. Tidak, itu tidak selalu membantu, tetapi memberi Anda titik awal untuk mengambil ribuan gambar itu.

Gambar codinghorror

Sepertinya Google menyimpan thumbnail yang lebih besar dalam beberapa kasus:

Google vs. Bing

Google di sebelah kiri, Bing di sebelah kanan.


2
ya, kasus terburuk, kita harus meningkatkan thumbnail dari Google. Saya mendengar Bing menyimpan thumbnail yang lebih besar?
Jeff Atwood

Saya tidak tahu; Saya bukan tipe pria sejati. Saya bahkan tidak tahu apakah mereka melakukan pencarian gambar seperti Google. Saya akan mencari tahu dan memperbarui tulisan tersebut.
George Stocker

18
Saya tidak tahu apakah ini Anda. Tapi Imageshack tampaknya memiliki banyak gambar blog Anda. profile.imageshack.us/user/codinghorror
Nick Berardi

Mereka tampaknya memiliki apa yang tampak seperti 456 gambar yang berukuran penuh. Ini mungkin taruhan terbaik untuk memulihkan semuanya. Mungkin mereka bahkan dapat memberi Anda dump.
Nick Berardi

28
Gunakan thumbnail Google sebagai permulaan, kemudian gunakan tineye.com untuk melihat apakah ada orang yang menyimpan salinan.
sep332

40

Maaf mendengar tentang blog. Tidak akan kuliah. Tapi saya memang menemukan apa yang tampak seperti gambar Anda di Imageshack. Apakah mereka benar-benar milik Anda atau seseorang telah menyimpan salinannya di sekitar Anda.

http://profile.imageshack.us/user/codinghorror

Mereka tampaknya memiliki apa yang tampak seperti 456 gambar yang berukuran penuh. Ini mungkin taruhan terbaik untuk memulihkan semuanya. Mungkin mereka bahkan dapat memberi Anda dump.


37

Jeff, aku telah menulis sesuatu untukmu di sini

Singkatnya apa yang saya usulkan Anda lakukan adalah:

  1. Konfigurasikan server web untuk mengembalikan 304 untuk setiap permintaan gambar. 304 berarti file tidak dimodifikasi dan ini berarti browser akan mengambil file dari cache jika ada di sana. (kredit: jawaban SuperUser ini )

  2. Di setiap halaman di situs web, tambahkan skrip kecil untuk mengambil data gambar dan mengirimkannya ke server.

  3. Simpan data gambar di server.

  4. Voila!

Anda bisa mendapatkan skrip dari tautan yang diberikan.


Jawaban Pengguna Super tidak ditautkan.
Nathaniel

@Nathaniel: TETAP
alexanderpas

28

Coba kueri ini di Mesin Wayback :

http://web.archive.org/web/*sa_re_im_/http://codinghorror.com/*

Ini akan memberi Anda semua gambar dari codinghorror.com diarsipkan oleh archive.org. Ini mengembalikan 3878 gambar, beberapa di antaranya adalah duplikat. Itu tidak akan lengkap, tetapi awal yang baik tidak kurang.

Untuk gambar yang tersisa, Anda dapat menggunakan thumbnail dari cache mesin pencari, dan kemudian melakukan reverse look-up menggunakan ini di http://www.tineye.com/ . Anda memberikan gambar thumbnail, dan itu akan memberi Anda pratinjau dan pointer ke gambar yang cocok cocok ditemukan di web.


1
mengembalikan 404 sekarang?
rogerdpack

Saya telah membuat alat untuk secara otomatis mendapatkan cadangan dari Wayback Machine: github.com/hartator/wayback-machine-downloader
Hartator

26

Memberi +1 pada ddrekomendasi jika (1) disk mentah tersedia di suatu tempat; dan (2) gambar adalah file sederhana. Kemudian Anda dapat menggunakan alat 'pahat data' forensik untuk (misalnya) menarik semua rentang yang kredibel yang tampaknya adalah JPG / PNG / GIF. Saya telah memulihkan 95% foto di iPhone yang dihapus dengan cara ini.

Alat open source 'terkemuka' dan 'pisau bedah' penggantinya dapat digunakan untuk ini:

http://foremost.sourceforge.net/

http://www.digitalforensicssolutions.com/Scalpel/


2
Photorec juga dapat digunakan setelah Anda mendapatkan gambar dd.

terpenting tersedia melalui yum pada Fedora

26

Untungnya, generasi masa depan akan baik-baik saja.

Bahkan dengan hanya beberapa batu besar ini, para ilmuwan / ahli bahasa menemukan banyak hal.

batu rosettta

Jika beberapa gambar hilang, serahkan pada seseorang untuk mencari tahu dalam beberapa ribu tahun.

Semoga Anda sedikit tertawa. :)


5
Ok, Anda mendapat cekikikan dari saya setidaknya ;-)

21

Anda selalu dapat mencoba archive.org juga. Gunakan mesin wayback. Saya menggunakan ini untuk memulihkan gambar dari situs web saya.


3
Tampaknya tidak memiliki banyak cache untuk CodingHorror, setidaknya. Saya melihat gambar untuk blog.stackoverflow.

i dibangun kembali sebuah situs web menggunakan mesin wayback internet sekali tapi saya mencoba beberapa kali sejak dan itu benar-benar tidak mengarsipkan sangat banyak situs ...
djangofan

Sepertinya itu kembali ke 2004 di sini web.archive.org/web * / codinghorror.com

Syukurlah tidak ada file robots.txt ya? :)
Synetech

14

Jadi, kasus terburuk absolut, Anda tidak dapat memulihkan apa pun. Sial.

Coba ambil yang google minified, dan letakkan di TinEye , mesin pencari gambar terbalik. Mudah-mudahan itu akan mengambil duplikat atau rehost yang dibuat orang.


14

Ini adalah pukulan panjang, tetapi Anda dapat mempertimbangkan:

  • Memposting daftar gambar yang Anda lewatkan
  • kerumunan-sumber proses pengambilan melalui cache internet semua pembaca Anda.

Misalnya, lihat Nirsoft Mozilla Cache Viewer :

teks alternatif
(sumber: nirsoft.net )

Itu dapat dengan cepat menggali gambar "blog.stackoverflow.com" yang masih ada melalui baris perintah sederhana:

MozillaCacheView.exe -folder "C:\Documents and Settings\Administrator\Local Settings\Application Data\Mozilla\Firefox\Profiles\acf2c3u2.default\Cache" 
/copycache "http://blog.stackoverflow.com" "image" /CopyFilesFolder "c:\temp\blogso" /UseWebSiteDirStructure 0

Catatan: mereka memiliki explorer cache yang sama untuk Chrome .

teks alternatif
(sumber: nirsoft.net )

(Saya harus memiliki 15 hari gambar blog.stackoverflow.com di dalamnya)

Dan Internet Explorer , atau Opera .


Kemudian perbarui daftar publik untuk mencerminkan apa yang dilaporkan pembaca temukan dalam cache mereka.


12

Di masa lalu saya telah menggunakan http://www.archive.org/ untuk menarik gambar cache. Ini semacam hit atau miss tapi itu berhasil untuk saya.
Juga, ketika mencoba memulihkan stok foto yang saya gunakan di situs lama, www.tineye.com bagus ketika saya hanya memiliki thumbnail dan saya membutuhkan gambar ukuran penuh.

Saya harap ini membantu Anda. Semoga berhasil.


Saya melihat melalui archive.org beberapa menit yang lalu untuk gambar codinghorror.com dan beberapa posting yang saya klik tidak memiliki tampilan.
George Stocker

Archive.org merilis data beberapa bulan setelah mereka pertama kali mengindeksnya.
Christian

10

Ini mungkin bukan solusi termudah atau paling lengkap, tetapi layanan seperti Evernote biasanya menyimpan teks dan gambar ketika mereka disimpan di dalam aplikasi - mungkin beberapa pembaca bermanfaat yang menyimpan artikel Anda dapat menyimpan gambar dan mengirimkannya kembali kepada Anda ?


10

Saya memiliki pengalaman hebat dengan archive.org . Bahkan jika Anda tidak dapat mengekstraksi semua posting blog Anda dari situs tersebut, mereka menyimpan snapshot berkala:

teks alternatif

Dengan cara ini Anda dapat memeriksa setiap halaman dan melihat posting blog yang Anda buat. Dengan nama semua posting Anda dapat dengan mudah menemukannya di cache Google jika archive.org tidak memilikinya. Arsip mencoba menyimpan gambar, cache Google akan memiliki gambar, dan saya belum mengosongkan cache saya baru-baru ini sehingga saya dapat membantu Anda dengan posting blog yang lebih baru :)


Saya mencoba untuk mendapatkan beberapa data dari situs web perusahaan yang saya gunakan untuk bekerja beberapa waktu yang lalu. Itu baik untuk teks, kurang untuk gambar. Tapi YMMV
ChrisF

Saya percaya cache web Google tidak menyimpan gambar.
Nathaniel


8

Saran untuk masa depan: Saya menggunakan Windows Live Writer untuk blogging dan menyimpan salinan posting lokal di mesin saya, selain menerbitkannya ke blog.


Plus, menggunakan Windows Live Writer hanya akal sehat.

7

Sekitar lima tahun yang lalu, inkarnasi awal hard drive eksternal tempat saya menyimpan semua foto digital saya gagal total. Saya membuat gambar dari hard drive menggunakan dddan menulis alat yang belum sempurna untuk memulihkan apa pun yang tampak seperti gambar JPEG. Dapatkan sebagian besar foto saya dari itu.

Jadi, pertanyaannya adalah, bisakah Anda mendapatkan salinan gambar disk mesin virtual yang menyimpan gambar?



7

Saya menyarankan kombinasi archive.org dan anonimizer permintaan seperti [Tor] [2]. Saya sarankan menggunakan anonimizer karena dengan cara itu setiap permintaan Anda akan memiliki IP dan lokasi acak dan dengan cara itu Anda dapat menghindari pemblokiran oleh archive.org (seperti Google) untuk jumlah permintaan yang luar biasa tinggi.

Semoga Sukses, ada banyak permata di blog itu.


Mengingat bahwa Jeff ingin memberikan donasi ke archive.org, maka menyalahgunakan anonim mungkin tidak sepenuhnya dapat diterima. Tapi saya masih ingin memberi Anda tendangan untuk itu. : - |

6

Mesin wayback akan memiliki beberapa. Google cache dan cache serupa akan memilikinya.

Salah satu hal paling efektif yang dapat Anda lakukan adalah mengirim email ke poster asli, meminta bantuan.

Sebenarnya saya punya beberapa rekomendasi infrastruktur, karena setelah ini semua dibersihkan. Masalah mendasar sebenarnya bukan cadangan, itu bukan replikasi situs dan kurangnya audit. Jika Anda mengirimi saya email di isian bidang email pribadi, nanti, ketika Anda kembali berdiri, saya ingin membahas masalah ini dengan Anda.


6

Jika gambar Anda disimpan pada layanan eksternal seperti Flickr atau CDN (seperti yang disebutkan dalam salah satu podcast Anda), Anda mungkin masih memiliki sumber gambar di sana.

Beberapa gambar dapat ditemukan mencari di Gambar Google dan klik "Cari gambar yang serupa" , mungkin ada salinan di situs lain.


5

archive.org terkadang menyembunyikan gambar. Dapatkan setiap URL secara manual (atau tulis skrip pendek) dan minta mereka seperti ini:

string.Format ("GET / * / {0}", nextUri)

Tentu saja itu akan sangat menyebalkan untuk dicari.

Saya mungkin memiliki beberapa di cache browser saya. Jika saya melakukannya saya akan menjadi tuan rumah mereka di suatu tempat.


4

Jika Anda berharap untuk mengikis cache pengguna, Anda mungkin ingin mengatur server untuk menanggapi 304 Not Modifiedsemua permintaan bersyarat-GET ('Jika-Dimodifikasi-Sejak' atau 'Jika-Tidak-Cocokkan'), yang digunakan browser untuk memvalidasi ulang materi cache mereka.

Jika tajuk caching awal Anda pada konten statis seperti gambar cukup liberal - memungkinkan hal-hal di-cache selama berhari-hari atau berbulan-bulan - Anda dapat terus mendapatkan permintaan validasi ulang untuk sementara waktu. Tetapkan cookie pada permintaan itu, dan minta pengguna untuk menjalankan skrip terhadap cache mereka untuk mengekstrak gambar yang masih mereka miliki.

Namun berhati-hatilah: saat Anda mulai memasang konten teks dengan sumber daya sebaris yang belum ada, Anda dapat menghapus versi yang di-cache saat revalidator mencapai 404s.



4

Dengan risiko menunjukkan yang sudah jelas, cobalah menambang cadangan komputer Anda sendiri untuk gambar. Saya tahu strategi cadangan saya cukup serampangan sehingga saya memiliki banyak salinan dari banyak file yang berkeliaran di drive eksternal, cakram yang dibakar, dan dalam file zip / tar. Semoga berhasil!


4

Saya telah berhasil memulihkan file-file ini dari cache Safari saya di Snow Leopard:

bad-code-offset-back.jpg
bad-code-offset-front.jpg
code-whitespace-invisible.png
code-whitespace-visible.png
coding-horror-official-logo-small.png
coding-horror-text.png
codinghorror-search-logo1.png
crucial-ssd-128gb-ct128m225.jpg
google-microformat-results-forum.png
google-microformat-results-review.png
kraken-cthulhu.jpg
mail.png
powered-by-crystaltech-web-hosting.png
ssd-vs-magnetic-graph.png

Jika ada orang yang ingin mencoba, saya telah menulis skrip Python untuk mengekstraknya ke ~ / codinghorror / nama file, yang telah saya tempatkan online di sini .

Saya harap ini membantu.


3

Apakah Anda mendapatkan kesempatan untuk melihat apakah, penyedia hosting Anda memiliki cadangan sama sekali (beberapa versi yang lebih lama)?


tidak terlihat bagus .. program cadangan mereka tidak dapat membuat cadangan file hard drive mesin virtual, sehingga tidak ada cadangan.
Jeff Atwood

2

Berapa nilai data ini bagi Anda? Jika nilainya sangat besar (ribuan dolar) maka pertimbangkan untuk meminta hard drive yang digunakan untuk menyimpan data untuk situs web Anda (jika terjadi kehilangan data karena kegagalan perangkat keras). Anda kemudian dapat mengambil drive untuk ontrack atau layanan pemulihan data lainnya untuk melihat apa yang bisa Anda dapatkan dari drive. Ini mungkin sulit untuk dinegosiasikan karena kemungkinan data orang lain yang belum pulih pada drive juga, tetapi jika Anda benar-benar peduli tentang hal itu, Anda mungkin dapat menyelesaikannya.


server adalah VM sejauh yang saya tahu.
splattne

1
@plattne demikian, ada peluang tidak-nol banyak data dapat dipulihkan.

Harus menjadi layanan yang sangat terspesialisasi.

2

Sangat menyesal mendengar ini dan saya sangat kesal untuk Anda, dan waktunya - Saya ingin salinan offline beberapa posting Anda dan melakukan HTTrack di seluruh situs Anda tetapi harus keluar (ini beberapa minggu yang lalu) dan Saya menghentikannya.

Jika host setengah keturunan - dan pada kenyataannya saya menduga Anda adalah pelanggan yang baik ... Saya akan meminta mereka untuk mengirimi Anda hard drive (karena saya kira mereka harus menggunakan RAID) atau melakukan pemulihan sendiri.

Walaupun ini mungkin bukan proses yang cepat, saya melakukan ini dengan satu host untuk klien dan dapat memulihkan seluruh database secara utuh (... pada dasarnya, host mencoba memutakhirkan untuk panel kontrol yang mereka gunakan dan mengacaukannya .. tapi tidak ada yang ditimpa).

Apa pun yang terjadi - Semoga sukses dari semua penggemar Anda di situs SO!

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.