Komplikasi memiliki sampel yang sangat kecil dalam model persamaan struktural

Saya menjalankan model persamaan struktural (SEM) di Amos 18. Saya mencari 100 peserta untuk eksperimen saya (digunakan secara longgar), yang dianggap mungkin tidak cukup untuk melakukan SEM yang sukses. Saya telah diberitahu berulang kali bahwa SEM (bersama dengan EFA, CFA) adalah prosedur statistik "sampel besar". Singkat cerita, saya tidak berhasil mencapai 100 peserta (sungguh mengejutkan!), Dan hanya memiliki 42 setelah mengecualikan dua poin data yang bermasalah. Karena ketertarikan, saya tetap mencoba model itu, dan yang mengejutkan saya, sepertinya sangat pas! CFI> .95, RMSEA <.09, SRMR <.08.

Modelnya tidak sederhana, pada kenyataannya, saya akan mengatakan itu relatif kompleks. Saya memiliki dua variabel laten, satu dengan dua yang diamati dan yang lainnya dengan 5 variabel yang diamati. Saya juga memiliki empat variabel tambahan yang diamati dalam model. Ada banyak hubungan antara variabel, tidak langsung dan langsung, dengan beberapa variabel menjadi endogen hingga empat lainnya, sebagai contoh.

Saya agak baru di SEM; Namun, dua orang yang saya kenal yang cukup akrab dengan SEM mengatakan kepada saya bahwa selama indeks kecocokan baik, efeknya dapat ditafsirkan (selama mereka signifikan) dan tidak ada yang signifikan "salah" dengan model. Saya tahu beberapa indeks kecocokan bias untuk atau terhadap sampel kecil dalam hal menyarankan kecocokan yang baik, tetapi tiga yang saya sebutkan sebelumnya tampak baik-baik saja, dan saya percaya tidak bias serupa. Untuk menguji efek tidak langsung saya menggunakan bootstrap (sekitar 2000 sampel), kepercayaan bias 90 persen, monte carlo. Catatan tambahan adalah bahwa saya menjalankan tiga SEM berbeda untuk tiga kondisi berbeda.

Saya memiliki dua pertanyaan yang ingin Anda pertimbangkan dan balas jika Anda ingin berkontribusi:

Apakah ada kelemahan signifikan pada model saya yang tidak ditunjukkan oleh indeks kecocokan? Sampel kecil akan disoroti sebagai kelemahan penelitian, tetapi saya bertanya-tanya apakah ada beberapa masalah statistik besar yang saya benar-benar lupa. Saya berencana untuk mendapatkan 10-20 peserta lagi di masa depan, tetapi ini masih akan memberi saya sampel yang relatif kecil untuk analisis tersebut.
Apakah ada masalah dengan penggunaan bootstrap yang diberikan pada sampel kecil saya, atau konteks di mana saya menggunakannya?

Saya harap pertanyaan-pertanyaan ini tidak terlalu "mendasar" untuk forum ini. Saya telah membaca sejumlah bab tentang SEM dan hal-hal terkait, tetapi saya menemukan orang-orang sangat terpencar dalam hal pendapat di bidang ini!

Bersulang

— Behacad
sumber

@Behacad - masalah yang dijelaskan dengan baik. Anda memperkirakan banyak parameter menggunakan data yang sangat jarang. Jadi kesimpulan akan sangat goyah. Tapi saya ingin mundur dan bertanya - apakah Anda menggunakan 42 ini untuk menyimpulkan hubungan antara populasi yang lebih besar? Jika demikian, apakah 42 sampel acak, atau paling tidak representatif?

— rolando2

Terima kasih atas komentar Anda rolando2! Sampel termasuk 42 mahasiswa, dan saya melihat hubungan antara sejumlah faktor dan kecemasan. Hubungan yang ingin saya simpulkan akan berada di antara populasi umum. Kesimpulan saya terbatas karena partisipan semuanya adalah siswa yang relatif muda, tetapi saya tidak mencari populasi tertentu (misalnya, individu yang menderita gangguan kecemasan). Saya tertarik untuk menyatakan secara luas misalnya bahwa X secara tidak langsung terkait dengan Y dalam sampel non-klinik. Apakah itu menjawab pertanyaan Anda?

— Behacad

@Behacad - dengan asumsi Anda dapat membela kritik potensial Anda tentang keterwakilan sampel Anda, saya akan mengatakan dengan tegas bahwa mencoba memperkirakan hubungan di antara 12 variabel meminta terlalu banyak dari 42 kasus Anda. Lihat apakah Anda dapat menyederhanakan model Anda untuk memasukkan hanya 3 prediktor paling menarik. Meskipun saya menyadari itu menyakitkan untuk berpisah dengan data Anda mungkin telah bekerja keras untuk mengumpulkan!

— rolando2

Terima kasih atas balasannya. Saya memiliki "perasaan" bahwa memperkirakan hubungan di antara semua variabel ini sulit dilakukan dengan 42 titik data, dan saya melihat dari mana Anda berasal. Yang sedang berkata, apa yang akan menjadi alasan statistik (lebih disukai dikutip) untuk masalah ini? Bagaimana hal ini berbeda dari menjalankan sejumlah regresi / korelasi pada variabel dependen yang berbeda? Kecocokannya baik (dan saya benar-benar menjalankan tiga model berbeda untuk tugas eksperimental yang berbeda) dan hasilnya konsisten di seluruh model dan sejalan dengan teori. Maaf jika saya dianggap defensif!

— Behacad

(Tidak defensif - jangan khawatir!) Memiliki 42 kasus memaparkan Anda pada kesalahan pengambilan sampel paling tidak, bahkan ketika memperkirakan statistik univariat. Sekarang, di SEM, setiap variabel digunakan berkali-kali, karena Anda memperkirakan hubungan A ke B sambil mengendalikan C, D, dll. Jadi efek kesalahan pengambilan sampel akan diperbanyak, yang, menurut pemahaman saya, adalah alasannya satu biasanya menginginkan sampel besar. Dalam kasus Anda, Anda mungkin memiliki lebih banyak jenis kesalahan daripada kesalahan pengambilan sampel karena Anda tidak memiliki sampel acak. Jadi, Anda perlu menggambar interval kredibel yang sangat besar di sekitar hasil yang Anda dapatkan.

— rolando2

Jawaban:

Satu poin: tidak ada yang namanya "pertanyaan mendasar", Anda hanya tahu apa yang Anda ketahui, dan bukan apa yang tidak Anda ketahui. mengajukan pertanyaan seringkali merupakan satu-satunya cara untuk mengetahuinya.

Setiap kali Anda melihat sampel kecil, Anda tahu siapa yang benar-benar memiliki "keyakinan" pada model mereka dan siapa yang tidak. Saya mengatakan ini karena sampel kecil biasanya di mana model memiliki dampak terbesar.

Menjadi seorang pemodel (psiko?) Yang tajam, saya katakan lakukan saja! Anda tampaknya mengadopsi pendekatan yang hati-hati, dan Anda telah mengakui potensi bias, dll. Karena sampel kecil. Satu hal yang perlu diingat dengan mencocokkan model ke data kecil adalah Anda memiliki 12 variabel. Sekarang Anda harus berpikir - seberapa baik setiap model dengan 12 variabel dapat ditentukan oleh 42 pengamatan? Jika Anda memiliki 42 variabel, maka model apa pun bisa sangat cocok dengan 42 pengamatan (secara longgar), sehingga kasing Anda tidak terlalu jauh dari terlalu fleksibel. Apa yang terjadi ketika model Anda terlalu fleksibel? Itu cenderung cocok dengan kebisingan - yaitu, hubungan yang ditentukan oleh hal-hal selain yang Anda hipotesiskan.

Anda juga memiliki kesempatan untuk menempatkan ego Anda di mana model Anda dengan memprediksi apa yang akan menjadi sampel 10-20 masa depan dari model Anda. Saya bertanya-tanya bagaimana kritik Anda akan bereaksi terhadap model yang disebut "cerdik" yang memberikan prediksi yang tepat. Perhatikan bahwa Anda akan mendapatkan "Saya bilang begitu" yang serupa jika model Anda tidak memprediksi data dengan baik.

Cara lain Anda dapat meyakinkan diri sendiri bahwa hasil Anda dapat diandalkan, adalah dengan mencoba dan menghancurkannya. Mempertahankan data asli Anda, membuat set data baru, dan melihat apa yang harus Anda lakukan untuk set data baru ini agar hasil SEM Anda tampak konyol. Kemudian lihat apa yang harus Anda lakukan, dan pertimbangkan: apakah ini skenario yang masuk akal? Apakah data "konyol" saya menyerupai kemungkinan asli? Jika Anda harus membawa data Anda ke wilayah konyol untuk menghasilkan hasil yang konyol, itu memberikan jaminan (heuristik, bukan formal) bahwa metode Anda masuk akal.

— probabilityislogic
sumber

Masalah utama yang saya lihat dengan ini adalah kurangnya daya. Faktor konfirmasi dan pengujian SEM terlihat menerima nol - Anda ingin melihat nilai p tidak signifikan - sehingga kekurangan daya dapat menjadi masalah. Kekuatan tes tergantung pada ukuran sampel (42) dan tingkat kebebasan. AMOS memberi Anda derajat kebebasan. Anda belum mengutipnya, tetapi dalam kasus ini tidak akan besar. Dengan 12 variabel, Anda mulai dengan 66 DF, dan kurangi 1 untuk setiap parameter yang Anda perkirakan. Saya tidak tahu berapa banyak itu, tetapi Anda mengatakan bahwa Anda memiliki beberapa faktor dan korelasi antara berbagai konstruksi.

Saya tidak sepenuhnya setuju dengan Rolando2. Di SEM, Anda mendapatkan dengan memiliki banyak variabel, dengan asumsi bahwa mereka adalah indikator yang dapat diandalkan dari konstruksi yang mendasarinya. Jadi jangan mengurangi jumlah variabel. Untuk alasan yang sama, saya tidak sepenuhnya setuju dengan @probabilityislogic. Di SEM, Anda tidak mencoba memodelkan 12 variabel dengan 42 pengamatan. Anda mencoba memodelkan konstruk melalui 12 indikator, diperkuat oleh 42 replikasi. Model faktor yang sangat sederhana - 1 faktor dengan 12 indikator - mungkin dapat diuji dengan 42 orang.

RMSEA dan tindakan goodness of fit lainnya akan cenderung meningkat ketika Anda mendekati kejenuhan model, jadi sekali lagi, Anda menjalankan risiko hasil yang menyesatkan.

Yang sedang berkata, saya telah melihat set data kecil menolak model faktor. Ini mungkin berarti sesuatu yang cocok tampaknya bagus.

Catatan: Anda juga dapat memeriksa residu dari model SEM. Ini adalah perbedaan antara matriks kovarian estimasi dan matriks model kovarians. AMOS akan memberikannya kepada Anda jika Anda memintanya. Pemeriksaan residu mungkin mengindikasikan apakah mereka terdistribusi secara merata, atau jika kovariansi tertentu dipasang dengan sangat buruk.

— Placidia
sumber