Saya memiliki referensi saya sebagai file teks dengan daftar panjang entri dan masing-masing memiliki dua (atau lebih) bidang.
Kolom pertama adalah url referensi; kolom kedua adalah judul yang mungkin sedikit berbeda tergantung bagaimana entri dibuat. Sama untuk bidang ketiga yang mungkin ada atau tidak ada.
Saya ingin mengidentifikasi tetapi tidak menghapus entri yang memiliki bidang pertama (url referensi) yang identik. Saya tahu tentang sort -k1,1 -u
tetapi itu akan secara otomatis (non-interaktif) menghapus semua kecuali hit pertama. Apakah ada cara untuk memberi tahu saya agar saya dapat memilih mana yang akan dipertahankan?
Dalam ekstrak di bawah tiga baris yang memiliki bidang pertama yang sama ( http://unix.stackexchange.com/questions/49569/
), saya ingin menyimpan baris 2 karena memiliki tag tambahan (urutkan, CLI) dan hapus baris # 1 dan # 3:
http://unix.stackexchange.com/questions/49569/ unique-lines-based-on-the-first-field
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field sort, CLI
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field
Apakah ada program untuk membantu mengidentifikasi "duplikat" seperti itu? Lalu, saya dapat membersihkan secara manual dengan menghapus baris # 1 dan # 3 secara pribadi?