Они пришли к выводу, что данные исследовательского подразделения GSK нуждались в существенной трансформации. Чтобы осуществить ее, они наняли Марка Рэмси, который стал первым руководителем (и старшим вице-президентом) отдела по работе с данными. Он должен был контролировать перемены в использовании данных и аналитики в рамках организации. Команда Валланса полагала, что необходимо облегчить доступ к данным исследовательского подразделения, чтобы использовать их для разведочного анализа и принятия решений о новых препаратах. GSK неплохо справлялась с принятием решений на основе данных, но топ-менеджеры считали (и Рэмси быстро согласился с ними), что данные исследовательского подразделения слишком разобщены и фрагментированы, чтобы эффективно использовать для их анализа машинное обучение. В частности, были разрознены исследовательские данные, связанные с конкретными учеными, экспериментами и клиническими испытаниями. Вторичный анализ данных был практически невозможен.
Чтобы определить масштабы проблемы и подтвердить свои первые впечатления, Рэмси использовал опросник, разработанный Международным обществом директоров по обработке и анализу данных (isCDO) MIT. В него входили вопросы о том, насколько просто делиться данными в рамках организации, могут ли ученые получать данные из других отделов и насколько просто проводить анализ данных в масштабах организации. Рэмси разослал опросник всем 10 000 ученых, работающих в исследовательском подразделении, и получил ответы от 30 % из них (что необычно много). Почти все ученые отметили, что работать с данными за пределами личных или ведомственных хранилищ очень сложно или вовсе невозможно.
Таким образом, интеграция разрозненных данных стала главной задачей команды Рэмси. Чтобы получить ориентир, они определили более 20 сценариев использования данных на основе вопросов, на которые ученые хотели отвечать с их помощью, и в конце концов сосредоточились на десяти из них. Было решено, что эти сценарии использования имеют наибольшую ценность, особенно важны для принятия ключевых решений и играют главную роль в научных исследованиях. Более общая цель работы заключалась в том, чтобы наладить своевременное предоставление готовых для анализа данных всех типов в рамках всего исследовательского подразделения.
Отдел по работе с данными также изучал практику других фармацевтических компаний, чтобы находить ориентиры и корректировать свой подход. Большинство компаний уделяло основное внимание «реальным свидетельствам», получаемым из страховых претензий и электронных историй болезни. Другая группа компаний изучала данные клинических исследований. Третья – данные о секвенировании ДНК. GSK интересовали все эти области данных, но цель состояла в том, чтобы работать как в рамках каждой из них, так и на их стыке, а не заниматься каждой областью отдельно.
Традиционный подход к управлению мастер-данными, который обычно предполагает иерархическое структурирование источников данных и сценариев их использования (Рэмси называет это структурированием и перемещением данных), отнял бы слишком много времени и сил. Рационализации подлежали миллионы элементов данных. Рэмси знал, что компании начинают применять инструменты больших данных и аналитики. Одна из них, Tamr, выделялась своей технологией машинного обучения и специализацией на фармацевтической отрасли. Соучредитель и исполнительный директор Tamr Энди Палмер некогда работал директором по программному обеспечению и информационным технологиям в исследовательском подразделении Novartis. В результате Tamr была прекрасно знакома с такими стандартами данных для фармацевтической отрасли, как CDISC (Консорциум по стандартизации обмена клиническими данными). (Как я уже упоминал, я работаю с Tamr в качестве советника.)
GSK решила использовать предлагаемую Tamr технологию обнаружения вероятных совпадений (подобную описанной ранее технологии, применяемой в GE), чтобы свести данные со всей организации в единое озеро данных (на основе популярной программы с открытым кодом Hadoop, используемой для хранения больших данных в оригинальном формате), где планировалось выделить три области. В первую должны были войти экспериментальные данные, во вторую – данные клинических исследований, в третью – генетические данные. Цель состояла в том, чтобы за три месяца собрать в едином озере 100 % данных (при использовании традиционных подходов к управлению данными о таком нельзя было и мечтать). Однако GSK сумела за отведенное время с помощью нужных инструментов понять масштабы дублирования и сконцентрировать данные в озере. Чтобы обеспечить возможность работы на стыке областей, специалисты создали верхний «единый уровень» со стандартизированными онтологиями, поскольку другого способа решить проблему сценариев использования не существовало.
Так, команда Рэмси предположила, что в области клинических исследований огромное количество информации выходит за рамки изначальных целей конкретных исследований. Однако сопоставлять исследовательские данные было сложно, поскольку различались механизмы проведения исследований и принципы записи их результатов. С использованием стандартных форматов отрасли данные (изначально хранившиеся во внутренних форматах GSK) извлекались и структурировались, после чего модели машинного обучения изучали этот процесс. Специалисты вводили исходные исследовательские данные и определяли, в какой формат их нужно преобразовать, после чего в дело вступали машины. На первых порах точность результатов не превышала 50–60 %, но теперь в некоторых областях она доходит до 100 %. После изначальной разработки и отладки модели можно было применять к другим данным, что почти не требовало человеческого вмешательства, за исключением периодических оценок экспертов.
GSK использует лучший в своем роде подход к реализации стратегии работы с исследовательскими данными, применяя несколько других технологий для анализа сценариев использования данных. Рэмси полагает, что в будущем масштабное внедрение технологий будет облегчено, поскольку они станут лучше работать вместе. GSK проводит партнерские саммиты с технологическими компаниями, чтобы сотрудничество стало ключевым компонентом их концепций развития.
Теперь, разобравшись с управлением данными (возможно, быстрее и проще, чем ожидалось), GSK начинает пожинать плоды своих усилий. Ученые по достоинству оценили новую систему, в результате чего количество сценариев использования данных возросло с 10 до 250. Запускаются многие проекты, использующие новые данные. Ответы на конкретные вопросы находятся гораздо быстрее. Когда GSK рационализировала данные клинических исследований, специалисты сосредоточились на «разнообразии клинических исследований», чтобы удостовериться, что проводимые компанией испытания соответствуют демографическим данным пациентов. Реальные свидетельства, получаемые из более чем 30 источников, теперь сортируются в соответствии со стандартом отрасли, а не сваливаются в одну кучу, как во многих фармацевтических компаниях. GSK также использует сводные данные клинических исследований, чтобы по возможности снижать количество пациентов, получающих плацебо. В некоторых случаях компания может симулировать контрольную группу, вместо того чтобы давать плацебо новым пациентам.
В области генетических данных GSK наладила взаимодействие с британской компанией BioBank, которая проводит полное генетическое секвенирование 500 000 пациентов GSK. В результате в распоряжении GSK будут не только данные о геномах пациентов, но и истории их болезни, благодаря чему компания сможет проводить множество исследований для определения новых мишеней лекарственных препаратов.
Рэмси полагает, что фундамент данных заложен, но построить дом, то есть приступить к использованию данных в научных целях, без ИИ не получится. Он замечает:
Мы постепенно приближаемся к внедрению машинного обучения. Мы ищем «синих единорогов» – специалистов по медико-биологическим наукам и машинному обучению. Нам необходимо больше специалистов по машинному обучению, чтобы работать с доступными сегодня данными. Мы обучаем своих сотрудников и нанимаем новых. Мы видим, что наши информационные активы привлекают нужных специалистов.
Теперь исследовательское подразделение GSK располагает одной из сред данных, которые вполне типичны для стартапов, но редко встречаются в крупных организациях с 300-летней историей. Ее появление – прекрасная новость для всего человечества, ведь нам наверняка пойдет на пользу научный прогресс, обусловленный ее использованием.
Использование внешних данных
Обратите внимание, что несколько проектов GSK по работе с данными предполагали использование внешних данных. Важным изменением в среде данных для ИИ можно считать увеличение объема внешних данных, которые поступают из государственных учреждений, частных компаний по работе с данными и из интернета. Один топ-менеджер страховой компании написал мне по электронной почте:
Мы переходим в мир, где аналитические проекты осуществляются не только на основе внутренних данных. На первый план теперь выходят внешние данные (и данные партнеров). Сегодня используется 80 % внутренних и 20 % внешних данных. На следующем витке развития науки о данных все будет наоборот. Нам необходима возможность быстро комбинировать разрозненные наборы данных для поддержки аналитики.
Например, данные о клиентах и потенциальных клиентах быстро меняются. В сфере бизнеса для потребителя (B2C) такие интеграторы данных, как Axciom, Oracle, Neustar и KBM iBehavior, связывают онлайн- и офлайн-источники данных о потребителях. Большинство этих компаний сопоставляют данные при помощи машинного обучения. Интегрированные данные дают гораздо более полное представление о клиентах, чтобы использовать их в таких ИИ-приложениях, как сервисы рекомендаций и персонализация контента.
Хотя B2C-компании, как правило, знают о своих клиентах больше, чем компании, работающие в сегменте бизнеса для бизнеса, в последнее время появляется возможность получать информацию и о бизнес-клиентах