Почистить семантическое ядро от дублей и мусора (для всех)

Почистить семантическое ядро от дублей и мусора (для всех)

В файле 2 млн строк с ключевыми словами и фразами. Требуется удалить дубликаты слов
Перестановки слов тоже считать дублями
Убрать мусор с невостребованными ключами и оборванными фразами. Срок — 2 дня. Бюджет…

Источник