uniq — выявление или удаление повторяющихся строк
В сравнении с sort программа uniq более легковесна. Она решает, казалось бы, тривиальную задачу. Когда ей передается сортированный файл (в том числе и стандартный ввод), она удаляет повторяющиеся строки и выводит результат в стандартный вывод. Она часто используется в сочетании с sort для удаления повторяющихся строк.
ПРИМЕЧАНИЕ
Даже при том что uniq — инструмент, традиционный для Unix, который часто используется вместе с sort, GNU-версия sort поддерживает параметр -u, удаляющий повторяющиеся строки из сортированных результатов.
Давайте создадим текстовый файл для последующих экспериментов:
[me@linuxbox ~]$ cat > foo.txt
a
b
c
a
b
c
Не забудьте ввести CTRL+D, чтобы завершить ввод с клавиатуры. Если теперь применить uniq к нашему текстовому файлу, результат ничем не будет отличаться от оригинала; повторяющиеся записи никуда не исчезли:
[me@linuxbox ~]$ uniq foo.txt
a
b
c
a
b
c
Чтобы uniq действительно выполнила свою работу, исходные данные нужно сначала отсортировать:
[me@linuxbox ~]$ sort foo.txt | uniq
a
b
c
Это объясняется тем, что uniq удаляет повторяющиеся записи, только если они следуют друг за другом.
uniq имеет несколько параметров. Наиболее часто используемые из них перечислены в табл. 20.2.
В следующем примере используется параметр -c программы uniq для определения числа повторяющихся строк в исходном текстовом файле:
[me@linuxbox ~]$ sort foo.txt | uniq -c
2 a
2 b
2 c
Таблица 20.2. Часто используемые параметры команды uniq
Параметр
Описание
-c
Вывести список повторяющихся строк, предваряя их числом найденных дубликатов
-d
Вывести только повторяющиеся, не уникальные строки
-f n
Пропустить n начальных полей в каждой строке. Деление на поля производится по пробельным символам, как в программе sort; однако, в отличие от sort, программа uniq не имеет параметра для настройки альтернативного разделителя полей
-i
Сравнивать строки без учета регистра символов
-s n
Пропустить n начальных символов в каждой строке
-u
Вывести только уникальные строки. Подразумевается по умолчанию