В одном из контент-проектов встала задача оптимизировать базу изображений, убрав дубли.
Исходные параметры базы:
- размер базы — 32 000 изображений, 38 Гб.
- формы — JPG, PNG, TIFF, GIF.
- характер дублей — полные дубли, изменённый цвет, яркость и контрастность, размеры и соотношение сторон, поворот.
Выбор приложений для поиска дублей
- AllDup (Windows)
- AntiDupl.NET (Windows)
- Anti-Twin (Windows)
- Auslogics Duplicate File Finder (Windows)
- Awesome Duplicate Photo Finder (Windows)
- CCleaner (Windows, MacOS)
- CloneSpy (Windows)
- d’peg! (Windows)
- DupDetector (Windows, MacOS, Linux)
- dupeGuru (Windows, MacOS, Linux)
- DupKiller (Windows)
- Duplicate Cleaner (Windows)
- Duplicate Photo Finder (Windows)
- Duplicate File Remover (Windows)
- Duplicate Photo Cleaner (Windows, MacOS)
- FirmTools Duplicate Photo Finder (Windows)
- Webminds Duplicate Photo Finder (Windows, MacOS)
- Duplicate Remover Free (Windows)
- Image Comparer (Windows)
- SearchMyFiles (Windows)
- Similar Images Finder (Windows)
- Similar Image Search (Windows, MacOS)
- Total Commander (Windows)
- VisiPics (Windows)
- XnView (Windows, MacOS)
- Duplicate File Detector (Windows)
- ImageDupeless (Windows)
Выбрал AllDub за возможность выбирать алгоритм сравнения, настраивать возможность включать и отключать сравнение изображений, имеющих разное соотношение сторон и размеры, а также повернутых изображений. Кроме того, приложение имеет достаточно удобный интерфейс для сравнения большого количества похожих изображений и позволяет сохранять результаты поиска, чтобы продолжить работу позднее.
Лучшая программа поиска дубликатов файлов и удаления — 4DDiG Duplicate File Deleter
Запустить AllDub на MacOS можно с помощью программ виртуализации VMware Fusion, Parallels Desktop, Crossover for Mac или Wine.
Процесс
Шаг 1. Поиск полных дубликатов
Сначала удаляем полные дубли (одинаковая длина, ширина, ориентация и др.) изображений. Это позволит быстро удалить изображения, которые не нужно сравнивать. Для сравнения используем самый быстрый алгоритм dHash.
По результатам поиска найдено более 8000 групп полных дублей, но есть проблемы:
- Поиск не различает цветные и черно-белые изображения. Это не зависит от выбранного алгоритма поиска.
- Многокадровые изображения в формате GIF сравниваются по первому кадру. Это приводит к большому количеству ошибок, так как многие GIF-изображения начинаются с белого или чёрного кадра.
Если у вас такая же проблема, то сначала используйте побайтовое сравнение файлов. Оно только частично решает проблему, так как не позволяет найти дубли изображений с разным сжатием файлов.
После удаления полных дублей осталось 21790 изображений размером 31 Гб.
Шаг 2. Поиск похожих изображений
На этом шаге ищем неточные дубли изображений (разный размер, ориентация, разное сжатие и прочее). Для этого выбираем долгий алгоритм pHash и точность совспадения 91%.
Программы для поиска и удаления дубликатов файлов на компьютере или ноутбуке ️
Это позволяет нам найти ещё 455 групп похожих изображений (всего изображений — 990 штук).
Итог
Осталось 21000 файлов суммарным размером 30,5 Гб.
Что почитать по теме алгоритмов сравнения изображений
- Сравнение изображений
- «Выглядит похоже». Как работает перцептивный хэш
- Поиск кропнутых дубликатов изображений с помощью перцептуальных хешей
- Кластеризация дубликатов в Яндекс.Картинках
- Поиск изображений по фрагменту
- Алгоритм быстрого нахождения похожих изображений
- Использование каскада Хаара для сравнения изображений
- Поиск дубликатов изображений на примере Instagram (также работа доступна в «Научном корреспонденте»)
- О методе повышения точности аннотирования изображений в краудсорсинге
Источник: kalita.me
Лучшие программы для поиска дубликатов фотографий
Пожалуй, сегодня не найдется человека, который активно не пользовался бы компьютером или другими портативными девайсами. Как правило, с течением времени на ПК скапливается огромное количество абсолютно идентичных файлов. Искать и удалять их в ручном режиме довольно муторно и долго. К счастью, сегодня не приходится ломать голову о том, как производить данные манипуляции.
Разработчики современных приложений уже давно придумали программы поиска дубликатов фотографий на компьютере. Рассмотрим самые лучшие из них, а также разновидности графических файлов, которые часто приходится удалять.
Какие бывают одинаковые фотографии
Как правило, на портативных компьютерах хранятся изображения нескольких категорий:
- Идентичные файлы. А в этом случае речь идет о тех ситуациях, когда пользователи просто копируют одни и те же файлы и вставляет их в другие папки на компьютере.
- Изображение с одинаковыми названиями. Такое часто происходит при использовании фотоаппаратов в разных марок. Как правило, они присваивают одинаковые имена для файлов.
- Неудачные кадры. Сегодня профессиональные фотографы очень часто используют серийную съемку того или иного объекта. В результате появляется просто фантастическое количество одних и тех же фотографий, отличающихся всего лишь какими-то мизерными нюансами.
- Измененные изображения. В этом случае речь идет о тех фотографиях, которые были уменьшены, увеличены, зеркально отражены или видоизменены
В интернете программа для поиска дубликатов фотографий найти несложно. Главное — правильно их установить.
Как скачивать
Лучше всего искать загрузочные файлы программ для поиска и удаления дубликатов фотографий на официальных сайтах разработчиков. Как правило, создатели ПО предоставляют пользователям возможность использования усеченных версий утилит.
Скачивать приложения из неофициальных источников чревато последствиями. Очень часто в папке с загрузочными файлами оказываются вирусы.
Duplicate Cleaner
Duplicate Photo Cleaner 7.13.0.33 2023 торрент
Duplicate Photo Cleaner – это программа для удаления дубликатов фото с вашего ПК (Персональный компьютер — компьютер, предназначенный для эксплуатации одним пользователем), телефона либо планшета. Она ассоциирует изображения и обнаруживает дубликаты, предоставляя для вас возможность удалить их со всех устройств. Программка поддерживает все пользующиеся популярностью форматы фото, включая JPEG, TIFF, BMP, GIF и остальные.
Duplicate Photo Cleaner дает два режима сопоставления. 1-ый режим употребляет анализ изображений, чтоб установить, являются ли фото дубликатами. 2-ой режим считает хэш-суммы изображений и употребляет их для поиска дубликатов.
- Язык интерфейса: на Русском языке, на Английском и других
- Лечение: Крякнутый
- Системные требования: Windows 11 / 10 / 8.1 / 8 / 7 (х32/x64 бит)
- Тип файла: Torrent
Гайд по активации
Перед установкой рекомендуется отключить интернет и антивирус. Установить программу
Зарегистрировать программу при помощи keygen
Таковым образом, программа может найти даже дубликаты с незначимыми различиями. Затем, как программа находит дубликаты, вы сможете просмотреть их и избрать, какие изображения вы желаете удалить. Программка также предоставляет возможность автоматического удаления дубликатов после их обнаружения. Это дозволяет избавиться от ненадобных дубликатов без необходимости ручного выбора. Также программа предоставляет настраиваемые фильтры, которые разрешают создавать наиболее четкий поиск дубликатов.
Скачать Duplicate Photo Cleaner 7.13.0.33 + keygen
Duplicate Photo Cleaner 7.13.0.33 2023 торрент
Поделитесь в соц. сетях
Источник: fost.ws