Jika penggunaan memori menjadi perhatian utama Anda, maka banyak fitur kecil (jumlah titik rendah) mungkin akan lebih sesuai dengan keinginan Anda daripada beberapa fitur yang sangat besar (jumlah titik tinggi). Tetapi Anda mungkin menemukan bahwa "terlalu banyak fitur" pada akhirnya mungkin membanjiri bahkan "terlalu banyak titik" untuk kecepatan pemrosesan.
Jika Anda berpikir tentang bagaimana algoritma harus disusun untuk memproses semua fitur terhadap semua fitur antara dua kelas fitur, Anda sedang bekerja dengan loop multiply-nested (untuk fitur di FC1 dan FC2, dan untuk simpul di Feature1 dan Feature2). Dalam operasi seperti menggambar, jumlah permintaan menggambar sering kali lebih penting daripada simpul dalam setiap permintaan, tetapi dengan operasi tema-pada-tema, algoritma kunci cenderung didasarkan pada jumlah simpul pada setiap pasangan F1 / F2 , dengan " notasi O besar " dari "O (N * M)" (waktu untuk menyelesaikan operasi terkait dengan faktor jumlah simpul yang terlibat), yang, untuk fitur besar di kedua set data, cukup dekat untuk O (N ^ 2) untuk membuat Anda khawatir tentang pekerjaan yang pernah selesai.
Saya telah sukses dengan melapisi fitur besar (seperti Rusia, Kanada, AS, Australia, Brasil, Norwegia) dengan grid 5 derajat (jala) untuk mengurangi kompleksitas fitur untuk pemrosesan perantara. Saya telah melihat operasi point-in-polygon pada layer COUNTRIES 1: 15m yang dibatasi vertex berjalan 100-1000 kali lebih cepat dari tabel aslinya (dengan hanya peningkatan jumlah fitur 20x). Anda perlu berhati-hati dalam logika pemrosesan Anda untuk menangani hubungan satu-ke-banyak dan banyak-ke-banyak dengan benar, terutama dalam kasus di mana batas palsu ada.
Ada juga aspek "hasil yang semakin berkurang" untuk penghematan bekerja dengan fitur yang lebih kecil - Saya memilih grid 5 derajat dengan menguji kinerja perpotongan dengan 90, 45, 30, 20, 15, 10, 5, 3, 2 dan Kisi 1 derajat, yang menunjukkan peningkatan waktu pemrosesan yang mengkhawatirkan karena jumlah fitur total meningkat.
Ada saat - saat di mana lebih sedikit fitur dengan simpul lebih banyak lebih efisien, sehingga mungkin sepadan dengan upaya untuk melakukan beberapa pengujian atas urutan operasi dengan data nyata (bukan subset pengujian yang disederhanakan) sebelum melakukan satu pendekatan di atas yang lain (menyeimbangkan penggunaan RAM dengan waktu berjalan).
CATATAN: Saya menjalankan kembali latihan gridding dengan perangkat keras modern, dan mendapatkan kinerja optimal dengan overlay 30 derajat, sehingga meningkatkan risiko fitur yang terlalu kecil, dan meningkatkan pentingnya evaluasi dengan data produksi.