Saya memeriksa beberapa data cakupan genomik yang pada dasarnya adalah daftar panjang (beberapa juta nilai) bilangan bulat, masing-masing mengatakan seberapa baik (atau "dalam") posisi ini dalam genom tercakup.
Saya ingin mencari "lembah" dalam data ini, yaitu daerah yang secara signifikan "lebih rendah" dari lingkungan sekitarnya.
Perhatikan bahwa ukuran lembah yang saya cari dapat berkisar dari 50 pangkalan hingga beberapa ribu.
Paradigma macam apa yang akan Anda rekomendasikan untuk menemukan lembah itu?
MEMPERBARUI
Beberapa contoh grafis untuk data:
PEMBARUAN 2
Mendefinisikan apa itu lembah tentu saja merupakan salah satu pertanyaan yang saya perjuangkan. Ini jelas bagi saya:
tetapi ada beberapa situasi yang lebih kompleks. Secara umum, ada 3 kriteria yang saya pertimbangkan: 1. Cakupan (rata-rata? Maksimal?) Di jendela sehubungan dengan rata-rata global. 2. Cakupan (...) di jendela sehubungan dengan sekitarnya langsung. 3. Seberapa besar jendelanya: jika saya melihat cakupan sangat rendah untuk rentang pendek itu menarik, jika saya melihat cakupan sangat rendah untuk rentang panjang juga menarik, jika saya melihat cakupan agak rendah untuk rentang pendek itu tidak terlalu menarik , tetapi jika saya melihat cakupan yang agak rendah untuk rentang yang panjang - itu adalah .. Jadi itu adalah kombinasi dari panjang getah dan cakupan itu. Semakin lama, semakin tinggi saya membiarkan cakupan dan masih menganggapnya lembah.
Terima kasih,
Dave