Дан миллиард файлов неизвестного формата. Как выявить даже частичные совпадения, если одни файлы могут включать другие полностью или частями? Как делать это, имея доступ только к потоку байтов без начала и конца? Рассказ о разработанном подходе (методе) для решения таких задач. Принципиальные отличия в гибкости, в контроле над точностью и достоверностью, независимо от содержания и характера данных. Стоит уточнить: Речь пойдет о способе сегментирования произвольного потока данных для последующего шинглирования. При этом основной вопрос в том, как нарезать на вменяемые «шинглы» произвольную последовательность байтов без привязки к каким-либо абсолютным границам.