Jenis konten yang valid untuk dokumen XML, HTML dan XHTML


123

Apa tipe konten yang benar untuk dokumen XML, HTML dan XHTML?

Saya perlu menulis crawler sederhana yang hanya mengambil jenis file ini.

Saat ini http://example.net/index.html dapat berfungsi sebagai contoh file JPEG karena mod_rewrite, jadi saya perlu memeriksa jenis konten dari header respons dan membandingkannya dengan daftar jenis konten yang diizinkan.

Dari mana saya bisa mendapatkan daftar seperti itu?


Jawaban:


206

HTML text/html:, titik.

XHTML: application/xhtml+xml, atau hanya jika mengikuti pedoman HTML compatbility, text/html. Lihat Catatan Jenis Media W3 .

XML: text/xml, application/xml( RFC 2376 ).

Ada juga banyak jenis media lain yang berbasis di sekitar XML, misalnya application/rss+xmlatau image/svg+xml. Ini adalah taruhan yang aman bahwa setiap akhiran yang tidak dikenali tetapi terdaftar +xmladalah berbasis XML. Lihat daftar IANA untuk jenis media terdaftar yang diakhiri dengan +xml.

(Untuk x-jenis yang tidak terdaftar , semua taruhan dibatalkan, tetapi Anda berharap +xmldihormati.)


32
Tentang perbedaan antara text/xmldan application/xmllihat di sini stackoverflow.com/questions/4832357/…
sanmai

Hal yang sama berlaku untuk fragmen , lihat w3.org/TR/xml-fragment atau qustion lainnya ini .
Peter Krauss
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.