Saya memiliki ribuan daftar string, dan setiap daftar memiliki sekitar 10 string. Sebagian besar string dalam daftar yang diberikan sangat mirip, meskipun beberapa string (jarang) sama sekali tidak terkait dengan yang lain dan beberapa string berisi kata-kata yang tidak relevan. Mereka dapat dianggap sebagai variasi berisik dari string kanonik. Saya mencari algoritma atau pustaka yang akan mengubah setiap daftar menjadi string kanonik ini.
Berikut adalah daftar tersebut.
- Star Wars: Episode IV A Harapan Baru | StarWars.com
- Star Wars Episode IV - A New Hope (1977)
- Star Wars: Episode IV - Harapan Baru - Rotten Tomatoes
- Tonton Star Wars: Episode IV - Harapan Baru Online Gratis
- Star Wars (1977) - Film Terbesar
- [REKAM] 4 poster menjanjikan kematian oleh motor tempel - SciFiNow
Untuk daftar ini, string apa pun yang cocok dengan ekspresi reguler ^Star Wars:? Episode IV (- )?A New Hope$
akan diterima.
Saya telah melihat kursus Andrew Ng di Machine Learning on Coursera, tetapi saya tidak dapat menemukan masalah yang sama.