Есть задача собрать список хешей со списка файлов, затем просто брать по 1-2 файлу и прогонять их хеши на поиск дублей из списка. Есть на примете какие-нибудь готовые варианты? Или здесь такое не юзають?
Для составления списка из хешей файлов использую Directory Lister Pro 1.01. Что касаетя поиска дубликатов, то есть много прог. Обрати внимание на те, которые могут работать с файлом хешей. Для простого поиска дубликатов можно использовать Total Commander (запустить там поиск файлов с установленными галочками "по размеру" и "по содержимому" на вкладке ''Дополнительно''). Для моих задач толком ни одна прога не подошла и я придумал свой способ (см. ниже). Что касается поиска дубликатов по хешам из списка, то я поступаю следующим образом: - Список, составленный Directory Lister Pro 1.01 сохраняю в формате .csv - Открываю .csv-файл экселем сортирую по колонке в которой содержаться хеши - Становлюсь на верхнюю ячейку с хешем - В ячейке справа от не вбиваю формулу для сравнения значений соседних ячеек с хешем (например, =F5<>F6) - Копируем эту формулу вниз до последней ячейки с хешем - Выделяем столбец с формулами и преобразуем значения формул в текст - Сортируем по столбцу в котором теперь находятся текстовые значения формул
Может быть, поможет эта прога: http://mpsoft.h1.ru/ Прога жутко древняя. Однако лично проверял, что работает от Win95 до Win7-64 включительно. Отлично ищет дубликаты.
Waasja, не совсем понял, что, как и с чем ты сравниваешь, но, кажется, функция ВПР в Excel облегчила бы работу
to Dms: Если стоит задача найти дубликаты в СПИСКЕ, находящемся в экселевском файле, то я сначала сортировал таблицу по колонке хешей. В результате, если в таблице есть записи с одинаковым хешем, то они будут расположены последовательно (один над другим). А чтобы визуализировать такие строки я сравнивал хеш в текущей ячейке с хешем в ячейке, расположенной под ней при помощи формулы (например, =F5<>F6), которая выдавала логическое значение (ЛОЖЬ или ИСТИНА). А чтобы не пролистывать всю таблицу (у меня была таблица порядка нескольких десятков тысяч строк) вручную я собирал все дубликаты в начале таблицы при помощи сортировки по столбцу, содержащему вышеприведённую формулу, естественно предварительно преобразовав значения формул в текст. Пример с Экселем в моём первом посте был небольшой частью решения следующей задачи: На локальном ПК есть файлы .djvu, .pdf, .chm, .rar, .zip и некоторые другие. На сайте электронной библиотеки Genesis Library есть .xls-файл с названиями и хешами электронных книг, присутствующих в этой библиотеке. Задача: Выкинуть из библиотечного .xls-файла книги, которые уже есть на локальном ПК, чтобы не отвлекаться на них при просмотре списка книг библиотеки.