Saya mengalami sedikit kesulitan membuat Python regex berfungsi saat mencocokkan dengan teks yang mencakup banyak baris. Contoh teksnya adalah ('\ n' adalah baris baru)
some Varying TEXT\n
\n
DSJFKDAFJKDAFJDSAKFJADSFLKDLAFKDSAF\n
[more of the above, ending with a newline]\n
[yep, there is a variable number of lines here]\n
\n
(repeat the above a few hundred times).
Saya ingin menangkap dua hal: bagian 'some_Varying_TEXT', dan semua baris teks huruf besar yang muncul dua baris di bawahnya dalam satu tangkapan (saya bisa menghapus karakter baris baru nanti). Saya sudah mencoba dengan beberapa pendekatan:
re.compile(r"^>(\w+)$$([.$]+)^$", re.MULTILINE) # try to capture both parts
re.compile(r"(^[^>][\w\s]+)$", re.MULTILINE|re.DOTALL) # just textlines
dan banyak variasinya tidak berhasil. Yang terakhir sepertinya cocok dengan baris teks satu per satu, yang sebenarnya bukan yang saya inginkan. Saya bisa menangkap bagian pertama, tidak masalah, tapi sepertinya saya tidak bisa menangkap 4-5 baris teks huruf besar. Saya ingin match.group (1) menjadi some_Varying_Text dan group (2) menjadi baris1 + baris2 + baris3 + dll sampai baris kosong ditemukan.
Jika ada yang penasaran, itu seharusnya urutan asam amino yang membentuk protein.
>
karakter utama . Haruskah itu?