Pedoman untuk menemukan pengetahuan baru dalam data

Saya merencanakan sesuatu untuk menunjukkan pada diri sendiri atau orang lain. Biasanya, sebuah pertanyaan memulai proses ini, dan seringkali orang tersebut menanyakan harapan untuk jawaban tertentu.

Bagaimana saya bisa belajar hal-hal menarik tentang data dengan cara yang kurang bias?

Saat ini saya kira-kira mengikuti metode ini:

Statistik ringkasan.
Stripchart.
Plot pencar.
Mungkin ulangi dengan subkumpulan data yang menarik.

Tapi itu tampaknya tidak cukup metodis atau ilmiah.

Apakah ada pedoman atau prosedur untuk diikuti yang mengungkapkan hal-hal tentang data yang saya tidak akan bertanya? Bagaimana saya tahu ketika saya telah melakukan analisis yang memadai?

data-visualization eda knowledge-discovery

— Selden
sumber

Ada seluruh bidang analisis data eksploratori (EDA), dan sebuah buku bagus tentang subjek ini yang disebut Analisis Data Eksplorasi , oleh John W. Tukey.

Saya suka Anda menggunakan grafik - ada banyak grafik lain yang dapat berguna, tergantung pada data Anda - berapa banyak variabel? Apa sifat variabelnya (Kategorikal? Numerik? Kontinu? Hitungan? Ordinal?)

Satu grafik yang sering berguna untuk data dengan banyak variabel adalah matriks sebar.

Anda dapat mencari berbagai jenis outlier, yang seringkali merupakan poin menarik.

Tapi saya tidak berpikir seluruh proses ini dapat dibuat benar-benar metodis dan ilmiah - eksplorasi adalah apa yang terjadi SEBELUM pendekatan metodis dan ilmiah dapat dimasukkan. Di sini, saya pikir aspek kuncinya adalah main-main.

— Peter Flom
sumber

(+1) Bisakah Anda memberikan tautan ke buku yang disebutkan?

— steffen

EDA dari Buku Pegangan Rekayasa dan Statistik itl.nist.gov/div898/handbook/eda/eda.htm .

— Selden

@Peter Flom 13 variabel diproduksi dengan membandingkan dua set output yang dihasilkan oleh program yang berjalan pada dua set input. Program berjalan secara berkala. Variabelnya adalah ordinal, kategori, kategori, kategori, kategori, jumlah, jumlah, jumlah, jumlah, numerik, numerik, jumlah, dan jumlah. Nama-nama tersebut adalah id, machineA, inputA, machineB, inputB, baru, sama, hilang, newP, missingP, lengthA, lengthB, scoreA, scoreB. Tetapi keputusan untuk membandingkan hanya keluaran terbaru juga merupakan ide baik / buruk saya.

— Selden

Buku ini sebenarnya disebut Analisis Data Eksplorasi (bukan EDA) itu oleh John W. Tukey (ingatan saya menipu saya karena sampul edisi saya diberi label EDA) Tautan: amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 / ...

— Peter Flom

@eldeld Yah, ID mungkin bukan variabel yang berguna. Di antara dua variabel kategori Anda dapat melihat plot mosaik; antara kotak dan kategori, numerik, pararel paralel bisa baik.

— Peter Flom

Jika Anda memiliki data kronologis, seri data seumur hidup maka ada "dikenal" dan menunggu untuk ditemukan adalah "tidak diketahui". Sebagai contoh jika Anda memiliki urutan poin data selama 10 periode seperti 1,9,1,9,1,5,1,9,1,9 maka berdasarkan sampel ini orang bisa berharap 1,9,1,9 , ... muncul di masa depan. Apa yang diungkapkan oleh analisis data adalah bahwa ada pembacaan yang "tidak biasa" pada periode 6 meskipun berada dalam batas + -3 sigma yang menunjukkan bahwa DJP tidak memegang. Membuka kedok Inlier / Outlier memungkinkan kita untuk mengungkapkan hal-hal tentang data. Kami juga mencatat bahwa Nilai Rata-rata bukan Nilai yang Diharapkan. Gagasan ini dengan mudah meluas ke pendeteksian Pergeseran Rata-rata dan / atau Tren Waktu Lokal yang mungkin tidak diketahui sebelum data dianalisis (Pembuatan Hipotesis). Sekarang sangat mungkin bahwa 10 bacaan berikutnya juga 1,9,1,9, 1,5,1,9,1,9 menunjukkan bahwa "5" tidak selalu tidak diinginkan. Jika kita mengamati proses kesalahan dari model yang sesuai yang menunjukkan varian non-konstan yang dapat dibuktikan, kita mungkin akan mengungkapkan salah satu dari sifat berikut ini: 1) parameter mungkin telah berubah pada titik waktu tertentu; 2. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. 9 menyarankan bahwa "5" tidak selalu tidak diinginkan. Jika kita mengamati proses kesalahan dari model yang sesuai yang menunjukkan varian tidak konstan yang dapat dibuktikan, kita mungkin akan mengungkapkan salah satu dari keadaan alam berikut: 1) parameter mungkin telah berubah pada titik waktu tertentu; 2. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. 9 menyarankan bahwa "5" tidak selalu tidak diinginkan. Jika kita mengamati proses kesalahan dari model yang sesuai yang menunjukkan varian tidak konstan yang dapat dibuktikan, kita mungkin akan mengungkapkan salah satu dari keadaan alam berikut: 1) parameter mungkin telah berubah pada titik waktu tertentu; 2. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. belum tentu tidak diinginkan. Jika kita mengamati proses kesalahan dari model yang sesuai yang menunjukkan varian tidak konstan yang dapat dibuktikan, kita mungkin akan mengungkapkan salah satu dari keadaan alam berikut: 1) parameter mungkin telah berubah pada titik waktu tertentu; 2. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. belum tentu tidak diinginkan. Jika kita mengamati proses kesalahan dari model yang sesuai yang menunjukkan varian tidak konstan yang dapat dibuktikan, kita mungkin akan mengungkapkan salah satu dari keadaan alam berikut: 1) parameter mungkin telah berubah pada titik waktu tertentu; 2. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. Jika kita mengamati proses kesalahan dari model yang sesuai yang menunjukkan varian tidak konstan yang dapat dibuktikan, kita mungkin akan mengungkapkan salah satu dari keadaan alam berikut: 1) parameter mungkin telah berubah pada titik waktu tertentu; 2. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. Jika kita mengamati proses kesalahan dari model yang sesuai yang menunjukkan varian tidak konstan yang dapat dibuktikan, kita mungkin akan mengungkapkan salah satu dari keadaan alam berikut: 1) parameter mungkin telah berubah pada titik waktu tertentu; 2. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. kontemporer dan struktur lag) di sekitar hari libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. kontemporer dan struktur lag) di sekitar hari libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa.

— IrishStat
sumber

Datamining dapat dipecah menjadi dua kategori. Jika Anda tertarik untuk mengukur pengaruh set data / variabel pada variabel tertentu maka ini akan dianggap pembelajaran yang diawasi. Untuk pembelajaran yang mendalam dan mengeksplorasi tanpa tujuan, Anda menjalani pembelajaran tanpa pengawasan.

Grafik dan analisis statistik data (memahami distribusi dan mendapatkan intuisi) adalah langkah pertama.

— moka
sumber