Ресурсы: техническое описание TLS, LaTeX - в картинки (img), криптографическая библиотека Arduino, шифр "Кузнечик" на ассемблере AMD64/AVX и ARM64
Деанонимизация данных анализа ДНК
Анонимизация больших объёмов данных, которые собирались для конкретных персон, представляет большую проблему. Особенно, если данные достаточно подробные, уникальные и их много. В недавно опубликованной работе исследователи показывают, что публично доступные “анонимизированные” базы “расшифровок” человеческой ДНК, собранные различными проектами, не только оказываются пригодными для эффективной деанонимизации, но ещё и позволяют идентифицировать людей, которые образцов ДНК ни в какой проект не сдавали (но, понятно, где-то такой образец оставили). Данные ДНК могут показаться разрозненными, но это совсем не так, если смотреть на них с точки зрения биологических механизмов. Интересно, что если наложить на набор данных ДНК генеалогические деревья, сопоставив родственников по фрагментам кода, то исходный набор “анонимных” данных тут же теряет всю свою “вариативность”. Если у вас есть база данных с ФИО и отношениями родства, то достаточно подставить в дерево хотя бы одну реальную персону, как все остальные узлы тут же деанонимизируются самым очевидным образом. При неполных данных – всё равно можно уверенно перескакивать между ветками, обнаруживая двоюродную и троюродную родню.
В работе по ссылке – показано, что механизм наследования достаточно силён для того, чтобы покрыть практически всю популяцию, собрав ДНК лишь у небольшой части людей. И речь тут идёт о том, что публичные “анонимизированные” базы позволяют идентифицировать персон, ДНК которых в базе отсутствует, но нашлись родственники разной степени “отдалённости”. Цитата:
“Используя конкретную модель, мы можем предсказать, что база данных с записями о приблизительно 3 млн жителей США европейского происхождения (2% соответствующего взрослого населения), позволяет найти для 99% населения данной этнической принадлежности как минимум одного троюродного родственника, а для 65% – как минимум одного двоюродного”.
Чтобы сопоставить реальных персон записям в базах ДНК, исследователи используют год рождения, примерное место проживания – это позволяет резко улучшить точность. Собственно, задача складывается в чисто комбинаторную, а комбинаторные соображения очень часто помогают убрать всё лишнее и найти реальную структуру, стоящую за данными. Я довольно давно писал на сходную тему, правда, в привязке к “анонимизированным” данным геолокации.
Адрес записки: https://dxdt.blog/2018/10/15/8623/
Похожие записки:
- Реплика: ретроспектива сетевого распада
- "Интеллект" LLM в повторах
- Обобщение ИИ и "кнопки на пульте"
- "Случайные пакеты" как транспорт
- Занятный замок Fichet 787
- Исчезновение "фрагментации Интернета" с разных точек зрения
- ИИ, "помои" и мировая научная деятельность
- Скобки и минус девять в Google-таблице
- Кибернетический след в "Илиаде" и цветовой сдвиг
- Построение CVE-2025-0282 в Ivanti Connect Secure
- Цифровые рации и утечки ключей по побочным каналам
Новый
Комментарии читателей блога: 3
1 <t> // 16th October 2018, 10:02 // Читатель Kunis написал:
Собственно, не так давно нашли подобным образом одного преступника. По ДНК с места преступления нашли родственников убийцы, а там уж нашли и самого чисто по соображениям кто был неподалёку.
2 <t> // 28th October 2018, 10:45 // Читатель fdsc написал:
> обнаруживая двюродную
Двоюродную
3 <t> // 28th October 2018, 20:29 // Александр Венедюхин:
Поправил. Спасибо!