Apa perbedaan antara analisis data fungsional dan analisis data dimensi tinggi

10

Ada banyak referensi dalam literatur statistik untuk " data fungsional " (yaitu data yang kurva), dan secara paralel, " data dimensi tinggi " (yaitu ketika data vektor vektor dimensi tinggi). Pertanyaan saya adalah tentang perbedaan antara kedua tipe data tersebut.

Ketika berbicara tentang metodologi statistik terapan yang berlaku dalam kasus 1 dapat dipahami sebagai pengubahan ulang metodologi dari kasus 2 melalui proyeksi menjadi subruang dimensi terbatas dari ruang fungsi, dapat berupa polinom, splines, wavelet, Fourier, ... dan akan menerjemahkan masalah fungsional menjadi masalah vektorial dimensi terbatas (karena dalam matematika terapan semuanya menjadi terbatas pada titik tertentu).

Pertanyaan saya adalah: dapatkah kita mengatakan bahwa prosedur statistik apa pun yang berlaku untuk data fungsional juga dapat diterapkan (hampir secara langsung) ke data dimensi tinggi dan bahwa prosedur apa pun yang didedikasikan untuk data dimensi tinggi dapat (hampir langsung) diterapkan pada data fungsional?

Jika jawabannya tidak, bisakah Anda menggambarkan?

EDIT / PEMBARUAN dengan bantuan jawaban Simon Byrne:

sparsity (asumsi S-jarang, bola dan lemah bola untuk ) digunakan sebagai asumsi struktural dalam analisis statistik dimensi tinggi. $l^p$ $l^p$ $p<1$
"kehalusan" digunakan sebagai asumsi struktural dalam analisis data fungsional.

Di sisi lain, invers Fourier transform dan inverse wavelet transform mengubah sparcity menjadi smooth, dan smoothness ditransformasikan menjadi sparcity oleh wavelet dan fourier transform. Apakah ini membuat perbedaan kritis yang disebutkan oleh Simon tidak terlalu kritis?

— robin girard
sumber

1

Penghalusan adalah bagian besar dari analisis data fungsional, dan dapat diubah menjadi masalah estimasi rata-rata vektor dengan proyeksi pada basis yang sesuai (mis. Fourier atau wavelet), tetapi ada masalah lain dalam analisis data fungsional tergantung pada struktur fungsional yang dapat menerjemahkan dengan mudah. Ambil contoh regresi fungsional di mana Anda tertarik untuk memprediksi respons fungsional dari kovariat.

— vqv

12

Data Fungsional seringkali melibatkan pertanyaan yang berbeda. Saya telah membaca Analisis Data Fungsional, Ramsey dan Silverman, dan mereka menghabiskan banyak waktu membahas pendaftaran kurva, fungsi melengkung, dan memperkirakan turunan kurva. Pertanyaan-pertanyaan ini cenderung sangat berbeda dari pertanyaan yang diajukan oleh orang-orang yang tertarik untuk mempelajari data dimensi tinggi.

— pengguna549
sumber

Sangat setuju ! pertanyaan yang diajukan berbeda. Registrasi, landmark, estimasi turunan dapat muncul dari tampilan fungsional. Ini meyakinkan saya! jadi masalah besar dengan data fungsional (seperti yang ada dalam literatur statistik) tidak akan bahwa itu didefinisikan pada himpunan kontinu tetapi lebih dari itu diindeks pada himpunan terurut?

— robin girard

Bukan hanya itu didefinisikan pada set yang dipesan. Jika tidak, bagaimana Anda membedakan analisis deret waktu dari analisis data fungsional? Saya setuju dengan @ user549 karena itu bermuara pada jenis pertanyaan yang diajukan. Mereka spesifik untuk struktur data.

— vqv

15

Iya dan tidak. Pada tingkat teoritis, kedua kasus dapat menggunakan teknik dan kerangka kerja yang sama (contoh yang sangat bagus adalah regresi proses Gaussian).

Perbedaan kritis adalah asumsi yang digunakan untuk mencegah overfitting (regularisasi):

Dalam kasus fungsional, biasanya ada beberapa asumsi kelancaran, dengan kata lain, nilai-nilai yang terjadi berdekatan satu sama lain harus serupa dalam beberapa cara yang sistematis. Ini mengarah pada penggunaan teknik seperti splines, loess, proses Gaussian, dll.
Dalam kasus dimensi tinggi, biasanya ada asumsi sparsity: yaitu, hanya sebagian dari dimensi yang akan memiliki sinyal. Ini mengarah pada teknik yang bertujuan mengidentifikasi dimensi-dimensi tersebut (Lasso, LARS, prior slab-and-spike, dll.)

MEMPERBARUI:

Saya tidak benar-benar berpikir tentang metode wavelet / Fourier, tapi ya, teknik thresholding yang digunakan untuk metode tersebut bertujuan untuk sparsity di ruang yang diproyeksikan. Sebaliknya, beberapa teknik dimensi tinggi mengasumsikan proyeksi ke manifold dimensi rendah (misalnya analisis komponen utama), yang merupakan jenis asumsi kelancaran.

— Simon Byrne
sumber