Asumsi utama perbedaan-dalam-perbedaan (DID) adalah bahwa kedua kelompok memiliki kecenderungan yang sama dalam variabel hasil sebelum pengobatan. Ini penting untuk membuat argumen bahwa perubahan untuk kelompok yang dirawat adalah karena perlakuan dan bukan karena kedua kelompok sudah berbeda satu sama lain untuk memulai.
Jika Anda sampel orang yang berbeda sebelum dan setelah perawatan, ini akan melemahkan argumen kecuali sampel Anda dari kelompok perlakuan dan kontrol sebenarnya acak dan besar. Jadi mungkin saja terjadi bahwa seseorang akan bertanya kepada Anda: "Bagaimana Anda dapat memastikan bahwa efeknya adalah karena perawatan dan bukan hanya karena Anda mengambil sampel orang yang berbeda?" - dan itu akan sulit dijawab. Pertanyaan ini dapat Anda hindari dengan menggunakan data panel karena Anda melacak unit statistik yang sama dari waktu ke waktu dan umumnya ini adalah pendekatan yang lebih solid.
Untuk menjawab pertanyaan terakhir Anda: ya, data penting tetapi Anda pasti dapat menggunakan OLS untuk memperkirakan persamaan Anda di atas. Suatu hal penting yang di masa lalu sering diabaikan adalah estimasi yang benar dari kesalahan standar. Jika Anda tidak memperbaikinya, korelasi serial akan meremehkannya dengan jumlah yang baik dan Anda akan menemukan efek signifikan meskipun Anda mungkin tidak seharusnya. Sebagai referensi dan saran untuk bagaimana menangani masalah ini lihat Bertrand et al. (2004) "Berapa Banyak Kita Harus Percayai Estimasi Perbedaan-Dalam-Perbedaan?" .
Sebagai hal terakhir, jika Anda memiliki data agregat (misalnya di tingkat negara bagian) atau jika Anda dapat dengan mudah mengumpulkan data Anda dan jika Anda ingin menggunakan metode ekonometrik yang lebih baru daripada DID, Anda mungkin ingin melihat Abadie et al. (2010) "Metode Kontrol Sintetis untuk Studi Kasus Komparatif" . Metode kontrol sintetis semakin banyak digunakan dalam penelitian saat ini dan ada rutinitas yang terdokumentasi dengan baik untuk R dan Stata. Mungkin ini juga sesuatu yang menarik untuk Anda.