uniq — выявление или удаление повторяющихся строк

We use cookies. Read the Privacy and Cookie Policy

В сравнении с sort программа uniq более легковесна. Она решает, казалось бы, тривиальную задачу. Когда ей передается сортированный файл (в том числе и стандартный ввод), она удаляет повторяющиеся строки и выводит результат в стандартный вывод. Она часто используется в сочетании с sort для удаления повторяющихся строк.

ПРИМЕЧАНИЕ

Даже при том что uniq — инструмент, традиционный для Unix, который часто используется вместе с sort, GNU-версия sort поддерживает параметр -u, удаляющий повторяющиеся строки из сортированных результатов.

Давайте создадим текстовый файл для последующих экспериментов:

[me@linuxbox ~]$ cat > foo.txt

a

b

c

a

b

c

Не забудьте ввести CTRL+D, чтобы завершить ввод с клавиатуры. Если теперь применить uniq к нашему текстовому файлу, результат ничем не будет отличаться от оригинала; повторяющиеся записи никуда не исчезли:

[me@linuxbox ~]$ uniq foo.txt

a

b

c

a

b

c

Чтобы uniq действительно выполнила свою работу, исходные данные нужно сначала отсортировать:

[me@linuxbox ~]$ sort foo.txt | uniq

a

b

c

Это объясняется тем, что uniq удаляет повторяющиеся записи, только если они следуют друг за другом.

uniq имеет несколько параметров. Наиболее часто используемые из них перечислены в табл. 20.2.

В следующем примере используется параметр -c программы uniq для определения числа повторяющихся строк в исходном текстовом файле:

[me@linuxbox ~]$ sort foo.txt | uniq -c

2 a

2 b

2 c

Таблица 20.2. Часто используемые параметры команды uniq

Параметр

Описание

-c

Вывести список повторяющихся строк, предваряя их числом найденных дубликатов

-d

Вывести только повторяющиеся, не уникальные строки

-f n

Пропустить n начальных полей в каждой строке. Деление на поля производится по пробельным символам, как в программе sort; однако, в отличие от sort, программа uniq не имеет параметра для настройки альтернативного разделителя полей

-i

Сравнивать строки без учета регистра символов

-s n

Пропустить n начальных символов в каждой строке

-u

Вывести только уникальные строки. Подразумевается по умолчанию