Apa praktik terbaik untuk menyimpan, menyimpan, dan berbagi model pembelajaran mesin?
Dalam Python, kita biasanya menyimpan representasi biner dari model, menggunakan acar atau joblib. Model, dalam kasus saya, bisa ~ 100Mo besar. Selain itu, joblib dapat menyimpan satu model ke banyak file kecuali Anda menyetel compress=1
( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- corre ).
Tetapi kemudian, jika Anda ingin mengontrol hak akses ke model, dan dapat menggunakan model dari mesin yang berbeda, apa cara terbaik untuk menyimpannya?
Saya punya beberapa pilihan:
- Simpan sebagai file, lalu masukkan ke dalam repositori menggunakan Git LFS
- Simpan di database SQL sebagai file biner:
- Misalnya di Postgresql https://wiki.postgresql.org/wiki/BinaryFilesInDB
- Ini juga metode yang direkomendasikan oleh tim SQL Server:
- https://docs.microsoft.com/en-us/sql/advanced-analytics/tutorials/walkthrough-build-and-save-the-model
- https://microsoft.github.io/sql-ml-tutorials/python/rentalprediction/step/3.html
- https://blogs.technet.microsoft.com/dataplatforminsider/2016/10/17/sql-server-as-a-machine-learning-model-management-system
- HDFS