ДНК и её человек. Краткая история ДНК-идентификации — страница 44 из 46

Вентер с коллегами подошли к задаче несколько по-иному. Они собрали образцы ДНК у 1061 жителя окрестностей Сан-Диего возрастом от 18 до 82 лет. Среди участников исследования оказались 569 представителей африканских этнических групп, 273 латиноамериканских, 63 европейских, 63 восточноазиатских и 18 южноазиатских, а также 75, не принадлежащих ни к одной из этих групп. Для каждого человека получили 3D-изображения, записали образцы голоса (есть данные о связи между голосом и чертами лица – звучит странно, но, в конце концов, то и другое формируется под действием гормонов), количественно измерили цвет глаз и кожи, отметили возраст, рост и вес, а также сделали полногеномное секвенирование. Реконструировать внешние признаки по геномным данным предполагалось с помощью алгоритмов машинного обучения. Программа должна была выдать черты лица, голос, возраст, рост и вес, индекс массы тела, цвет глаз и кожи. (Возраст определяли по длине теломер и мозаичным потерям одной из Х-хромосом у женщин и Y-хромосомы у мужчин.)

Что же в итоге? Цвет глаз, кожи и, разумеется, пол предсказывали точно, “однако для комплексных признаков наша модель объясняла лишь малую часть наблюдаемых фенотипических вариаций”, как деликатно выразились авторы. Не получилось предсказать по геному цвет волос и вероятность облысения.

Фактически людям из Human Longevity удалось сделать следующее. Они выбирали из своей тысячи участников небольшие подгруппы – скажем, 10 человек, затем брали один из десяти геномов и пытались угадать, кому из десятки он принадлежит, сопоставляя результат реконструкции с реальными портретами. Угадывали для десятки с вероятностью около 74 %, причем результаты предсказуемо ухудшались, если подгруппа была этнически однородной – состояла, например, только из африканцев или только из европейцев. Результат гораздо лучше, чем при случайном выборе, но до “опознания по фото” отсюда еще далеко.



Со временем, считают авторы, точность предсказаний будет расти, когда мы узнаем больше о признаках, определяющих черты лица и в том числе о низкочастотных вариантах, связанных с редкими фенотипами. Возраст можно будет предсказать точнее по метилированию генома. Правда, есть еще одна проблема: для полногеномного секвенирования пока что требуется порядка 100 нг ДНК, а на месте преступления обычно находят гораздо меньше, если нет следов крови или спермы. Так что старый добрый PCR-анализ на STR еще не скоро сдаст позиции.

Не так быстро

Несмотря на все эти оговорки, результаты и выводы Вентера и соавторов сразу же были подвергнуты критике. Самым активным и язвительным был уже упоминавшийся Янив Эрлих из университета Колумбии. Человек он резкий, ведет “Твиттер”, в котором, невзирая на лица и регалии, высказывается об ошибках и недомыслии ученых коллег. Собственно, у него самого с регалиями дело обстоит неплохо.

Эрлих знает толк в защите информации и ее слабых местах. В середине 2000-х гг. он работал в израильской фирме, которая занималась обеспечением безопасности финансовых учреждений. И позднее, когда он заинтересовался безопасностью геномов, журналисты с удовольствием вспоминали тот период его жизни. Даже Nature дополнил рассказ о нем видеороликом 2006 г., где совсем молодой Янив Эрлих в худи с надвинутым капюшоном заходит, как к себе домой, в отдел ИТ крупного банка, обманывая считыватель отпечатков пальцев с помощью тонового набора на мобильном телефоне. А напоследок еще оборачивается на камеру и весело разводит руками: полиция кончается там, где начинается Беня![168] Повезло нам, что этот человек на стороне Света.

В области геномной безопасности Эрлих проделывает, по сути, то же самое: эффектно демонстрирует, где в этой безопасности дыры; об одной такой демонстрации с применением базы данных MyHeritage мы рассказывали. В сентябре 2017 г. эта работа еще не была опубликована, но Эрлих и тогда уже был признанным авторитетом в этой области. Именно он в свое время язвительно откомментировал заявление гейдельбергской European Molecular Biology Laboratory о том, что из опубликованного генома знаменитой клеточной линии HeLa якобы нельзя извлечь никакой информации о Генриетте Лакс (женщине, которой принадлежала опухолевая ткань, ставшая источником клеток) и ее потомках. “Мило врет EMBL!” – написал он в “Твиттере”. И в итоге EMBL пришлось признать правоту вредного биоинформатика.

Так вот, усилия команды Вентера его не впечатлили. По мнению Эрлиха, не стоит срамиться с портретами по ДНК, пока их точность драматически уступает другим методам деанонимирования генома – тому же поиску в генеалогических базах. Через STR Y-хромосомы становится все проще выйти на фамилию человека или, по крайней мере, на его родственников по мужской линии, так зачем тратить усилия на эффектный, но неработающий способ? Чем-то это напоминает старый анекдот про идентификацию человека по аудиозаписи голоса: “Покажите, как это работает!” – “Очень просто. Четко назовите в микрофон ваши имя, отчество и фамилию”.

Чтобы продемонстрировать наглядно, насколько скромны успехи Вентера и соавторов, Янив Эрлих опубликовал на сервере bioRxiv критический отзыв буквально через день после публикации Вентера. Этот момент сам по себе примечателен: темп научных дискуссий стал стремительным как никогда. Раньше после публикации в рецензируемом журнале критического ответа приходилось ждать месяцы, если не годы, не говоря о том, что критику менее охотно принимают к публикации, чем результаты с “положительным” содержанием. Спасибо bioRxiv и социальным сетям, теперь тот, кто опубликовался в журнале первого ряда, уже не чувствует себя “в домике”: критика мгновенно появляется в общем доступе, а если критикует известный человек, это способно здорово отравить успех.

Вот что пишет Янив Эрлих о результатах команды Вентера: “Я достиг той же точности идентификации внутри вентеровской когорты за 10 минут работы без всякой затейливой лицевой морфологии и цифровых сигнатур голоса. Вместо этого я использовал простую процедуру реидентификации, основанную на базовой демографической информации: возраст, пол, названная самим человеком этническая принадлежность”. Все эти данные не принадлежат к числу закрытых.

С другой стороны, именно пол, возраст и этническая принадлежность (как отметили Вентер и соавторы) оказались самыми значимыми при реконструкции черт лица. Сложные алгоритмы, соавторская группа из 30 человек, и на выходе результат, которого можно достичь куда более скромными усилиями… Как замечает Эрлих, идентифицировать индивида в группе из 10 человек вообще нетрудно. Кроме того, вентеровские “реконструкции” скорее напоминают усредненные лица для данного возраста и этнической группы, чем индивидуальные портреты, построенные по индивидуальным маркерам. “Выглядит так, будто автор собрался в супермаркет и решил прикупить для этого путешествия космический корабль”, – припечатал Эрлих под конец[169].



И еще одна небольшая деталь. Понятно, как фоторобот, даже плохой, поможет полиции, но совершенно непонятно, каким образом идентификация внешности по ДНК будет способствовать злоупотреблениям. У предполагаемого злодея будет база данных со всеми словесными портретами людей (желательно составленными в тех же терминах, которые используют Вентер и соавторы), и чтобы к портретам были привязаны имена и фамилии? Как-то все это нереалистично…

Аргументы Эрлиха были встречены положительно. Даже один из соавторов Вентера, компьютерный биолог Джейсон Пайпер, позднее перешедший в сингапурское отделение Apple, заявил, что его собственные результаты были представлены в искаженном виде. Вспомнили и о том, что команда из Human Longevity сначала отправила свою статью в Science, но публикация не состоялась: одним из рецензентов был Янив Эрлих. В PNAS ее представил сам Вентер как член Национальной Академии США (для публикации в этом издании совершенно необязательно быть академиком, но это способствует). Вентер же, как сообщает PNAS, выбрал рецензентов: двух специалистов по защите личной информации и одного биоэтика. По этой теме оппоненты Вентера тоже прошлись[170].

Как намекали некоторые участники дискуссии, понятно, почему компания Human Longevity, которая собирается создать крупнейшую медицинскую базу геномов, заинтересована в ограничении доступа. Однако сейчас это уже вряд ли актуально, если говорить о Вентере. В мае 2018 г. он покинул эту компанию (не в первый раз он расстается с собственным детищем, когда планы детища идут вразрез с его собственными), и компания даже начала судебный процесс против основателя, обвиняя его в похищении коммерческой тайны[171].

Вентер с соавторами, естественно, отозвались на отзыв: во-первых, их работа – только пруф-оф-концепт, главный их вклад – создание алгоритма, а точность реконструкции неминуемо вырастет в будущем, с получением новых данных[172]. Но в целом на этот раз впечатлить общественность Вентеру, скорее, не удалось.

С другой стороны, через считаные месяцы после этого фиаско был арестован Райан Риггс. Можно назвать это случайной удачей, можно поспорить о том, были ли родственники Риггса в какой-нибудь генеалогической базе данных, но, значит и портреты по ДНК – полезная опция, развивать ее надо.

Собственно, и развивают. В начале 2018 г. была опубликована большая работа исследователей из одного бельгийского и трех американских университетов – участвовала и группа Марка Шрайвера из Пенсильванского университета. Удалось выявить еще 15 генов, ответственных за формирование черт лица[173]. Марк Шрайвер по этому случаю высказался осторожно, будто стремясь охладить энтузиазм журналистов: “Мы не сможем завтра полно и правильно предсказать черты лица на основе ДНК. Мы даже не близки к тому, чтобы знать все гены, которые придают форму нашему лицу. Кроме того, возраст, окружающая среда и образ жизни влияют на то, как выглядит наше лицо”.