Apakah ada cara untuk mendapatkan spamassassin untuk mencetak baris teratas dari badan pesan?

Banyak spam masuk melalui filter pada server mail yang saya jalankan dengan trik yang relatif sederhana untuk memulai dengan beberapa baris penurunan berat badan (sangat jelas) atau teks penipuan lainnya di bagian atas, diikuti oleh badan teks yang lebih besar dari dokumentasi pemrograman - atau, yang paling jahat dari semuanya, teks yang diambil dari Stack Exchange . Paling-paling, Spamassassin menganggap ini sebagai BAYES_50, dan kebetulan pesan lainnya dibuat dengan cukup hati-hati sehingga tidak mencapai pemicu lain. (Misalnya, tajuknya minimal dan benar.) Seringkali, kutipan yang disertakan cukup selaras dengan minat sah saya sehingga pesan secara keseluruhan dinilai sebagai BAYES_00, karena token yang sangat spam hanya dibanjiri oleh nugget juicy dari pemecahan masalah sysadmin.

Bagian atas jelas-jelas spam (dan sebenarnya cenderung sangat mirip dengan yang sebelumnya diterima dan dilatih sebagai pesan spam) sehingga saya agak kagum karena bisa melewatinya - tetapi jelas itu. Sepertinya sebuah pas terpisah yang mencetak 25 (atau lebih) baris pesan dan menimbang bahwa banyak akan menyelesaikan masalah. Apakah ada cara untuk melakukan ini?

Beberapa orang menyarankan untuk menulis ekspresi reguler khusus. Saya tidak ingin membahas hal ini, karena ini adalah pertempuran yang terus-menerus hilang. Itulah yang dilakukan orang sebelum penyortiran spam Bayesian mulai digunakan secara luas, dan itu pada umumnya mengerikan. Tidak ada manusia yang bisa mengikuti . Ini tidak jauh lebih efektif daripada hanya menekan tombol hapus untuk setiap pesan spam, dan lebih banyak pekerjaan pada bagian saya.

Penyaringan spam Bayesian berfungsi. Ia bahkan berfungsi pada spam ini , jika saya membagi bagian "di atas flip " dan hanya menganalisis bagian itu, dengan umpan / sekam dihapus. Pertanyaannya adalah: bagaimana saya bisa membuat Spamassassin melakukan itu?

spam spamassassin

— mattdm
sumber

Apakah bayesian filter diaktifkan?

— Kondybas

@kondybas Ya. Dan ini adalah bagian dari masalah, karena teks padding lebih besar daripada bagian spam oleh kuantitas semata.

— mattdm

MTA apa yang telah Anda gunakan?

— Kondybas

Berapa banyak pelatihan Bayesian yang telah Anda lakukan pada spam ini? Saya berharap algoritma Bayesian bisa menyelesaikannya sebelum lama.

— mc0e

@ mc0e Tidak bisa. Hanya saja tidak begitu pintar secara ajaib. Sistem pembelajaran mesin yang lebih canggih mungkin bisa melakukannya, tapi saya pikir, um, "satu trik sederhana" yang saya minta di sini juga.

— mattdm

Saya sendiri seorang pejuang anti-spam yang jelas. Dan karena banyak masalah yang Anda temui, saya akhirnya melakukan hal-hal kotor sendiri, bertahun-tahun yang lalu.

Sekarang, ini bukan jawaban untuk pertanyaan khusus Anda, tetapi untuk masalah khusus Anda. Jadi tolong jangan downvote karena ini.

Bagaimana saya memecahkan masalah ini adalah memodifikasi skrip sa_filter-post.pl, yang digunakan oleh server XMail, yang memanggil spamc pada file email dan melakukan beberapa hal kecil di sana, untuk memproses bukan seluruh file, tetapi bagian tertentu dari itu, berdasarkan pada beberapa aturan khusus (hardcoded oleh saya). ya, regex'es tapi sejauh ini mereka bekerja untuk saya (saya punya banyak skrip lain sebelum dan sesudah ini sehingga bisa berperan)

Sebagai contoh, saya memiliki regex yang memancing phonenumbers. Spammer meninggalkannya secara penuh, sehingga langsung memproses hanya 400 karakter tengah dari file (saya mendapatkan 400 dengan coba-coba, mulai dari 200). Perhatikan bahwa cukup sulit untuk memilih bagian tengah dari apa yang Anda lihat, dibandingkan dengan apa yang ada dalam file.

Ada satu lagi yang memiliki struktur tabel html yang sama dengan "produk", header dummy dan footer tidak dapat digunakan, jadi saya menghapusnya, saya menghapus kolom komentar "produk" dan kemudian meneruskannya ke spamc.

Dan seterusnya, Anda mendapatkan fotonya.

Tetapi tidak semua aturan sempurna, jadi saya melakukan sedikit keajaiban di sini dengan menetapkan skor pribadi untuk setiap aturan, yang saya hardcode dan tune up atau turun saat dibutuhkan, berdasarkan pada bagaimana aturan itu berlaku (dan kadang-kadang saya akhirnya menghapus aturan semua bersama-sama) ). Saya kemudian memodifikasi skor SA dengan skor pribadi. Alasan saya melakukan ini adalah karena beberapa alasan SA hanya memberikan skor seperti 4. sesuatu untuk hal-hal yang jelas-jelas spam pada aturan yang saya juga punya perasaan kuat untuk menangkap mereka dengan benar. Jadi saya memberi mereka sedikit dorongan untuk membahas 5.0, ditambah dengan beberapa skrip pasca-pemrosesan yang mempertimbangkan beberapa variabel lain (sumber email, target email, struktur tajuk, dll.), Lebih atau kurang membunuh spam di luar.

Sekarang saya menyadari ini bukan yang Anda harapkan, tetapi dalam kasus saya itu memberi saya banyak kekuatan atas apa yang dipindai, hanya saja saya perlu mengatur semuanya secara manual dan kemudian setiap sekarang dan kemudian melakukan sedikit sentuhan - pada nilai / regex'es.

Tetapi dalam kasus Anda hal-hal jauh lebih mudah karena yang harus Anda lakukan adalah menggunakan skrip bash sederhana yang akan dipanggil oleh MX Anda dan bukan spamc dan skrip itu menggunakan perintah kepala untuk hanya mendapatkan yang pertama berapa pun jumlah byte yang Anda inginkan dan meneruskan file sementara itu ke spamc.

Isi skrip akan sedikit tergantung pada server email Anda, tetapi itu tidak sulit untuk dipecahkan.

(Perhatikan bahwa saya hanya berbicara banyak tentang pengaturan saya sehingga Anda dapat melihat kemungkinan opsi ini)

PS: Saya pribadi tidak pernah menerima email spam semacam ini (dengan memprogram barang-barang yang berhubungan dengannya), jadi saya ingin tahu apakah Anda belum membuat marah seseorang dan sekarang Anda menjadi sasaran. Itu akan menjelaskan email yang dibuat khusus. Alasan saya memikirkan kemungkinan ini adalah bahwa bertahun-tahun yang lalu, ketika saya sangat aktif di berbagai forum dan grup TI, saya membuat beberapa orang marah dan kadang-kadang saya sering mendapatkan berbagai jenis serangan di server saya, termasuk mengirim email spam . Tapi saat itu para idiot tidak sepintar ini :)

— secara sopan
sumber