Примечания
1
Splunk Inc., “The State of Dark Data,” 2019, www.splunk.com/en_us/form/the-state-of-dark-data.html.
2
Venture Beat. “87 % of data science projects failing”: venturebeat.com/2019/07/19/why-do-87-of-data-science-projects-never-make-it-into-production
3
www.brookings.edu/wp-content/uploads/2016/06/11_origins_crisis_baily_litan.pdf
4
Нейт Сильвер написал по этому поводу целую серию статей (fivethirtyeight.com/tag/the-real-story-of-2016). Одна из ошибок социологов заключалась в допущении независимости событий, как и в случае с ипотечным кризисом.
5
Примечание для коллег-статистиков: мы имеем в виду обычную, а не статистическую достоверность.
6
Метод k-ближайших соседей можно использовать для предсказания не только классов, но и чисел. Эти так называемые задачи регрессии мы рассмотрим далее в книге.
7
Эта идея обсуждается в чрезвычайно полезной книге Г. Уилсона «Teaching tech together» (CRC Press, 2019).
8
Надежная стратегия работы с данными способна смягчить эти проблемы. Разумеется, важным компонентом любой подобной стратегии является решение значимых проблем, и именно на этом мы сосредоточим внимание в этой главе. Если вы хотите узнать больше о высокоуровневой стратегии работы с данными, обратитесь к книге Jagare, U. Data science strategy for dummies. (John Wiley & Sons, 2019).
9
2017 Kaggle Machine Learning & Data Science Survey. Результаты доступны по адресу: www.kaggle.com/kaggle/kaggle-survey-2017. Доступ получен 12 января 2021.
10
Существуют дополнительные уровни непрерывных данных, называемые отношением и интервалом. Вы можете ознакомиться с ними самостоятельно, однако, согласно нашим наблюдениям, эти термины довольно редко используются в бизнес-среде. Кроме того, бывают ситуации, когда различие между непрерывными и счетными данными не имеет особого значения. Такие большие числа, как количества посещений веб-сайтов, часто считаются при анализе данных непрерывными, а не счетными. Это различие оказывается важным лишь тогда, когда речь идет о близких к нулю значениях. Мы поговорим об этом подробнее в следующих главах.
11
Пример таких искажающих результаты признаков можно найти в сфере клинических испытаний лекарств. Если группа активного воздействия состоит только из детей и никто из них не заболел, вам останется только гадать, чем это обусловлено – эффективным лекарством или особенностью детского организма. Эффект от использования препарата будет смешан с возрастом. Случайное распределение участников эксперимента на две группы позволяет этого избежать.
12
“Data Is” vs. “Data Are”: fivethirtyeight.com/features/data-is-vs-data-are
13
Ф. Харрелл, профессор и заведующий кафедрой биостатистики Университета Вандербильта: www.fharrell.com/post/introduction
14
«Думай медленно… решай быстро», Даниэль Канеман (Издательство: АСТ, 2014).
15
В США существуют две политические партии.
16
Ссылка на статью в Harvard Data Science Review: hdsr.mitpress.mit.edu/pub/pjl0jtkp
17
Мы уделяем так много внимания клиентскому восприятию потому, что (1) его трудно измерить точно, (2) небольшая группа предвзятых людей оказывает сильное влияние на результаты и (3) руководство очень тщательно его анализирует.
18
В нашей симуляции вероятность получения оценки 8 составляла 15 %, вероятность получения оценки 9–40 %, а вероятность получения оценки 10–45 %. Поскольку мы сами сгенерировали эти данные, мы точно знаем, что истинное значение показателя удовлетворенности клиентов, то есть вероятность получения оценки 9 или 10, составляет ровно 85 %.
19
Представьте, что мы описали обратную ситуацию и сказали вам, что в сельской местности наблюдается самый низкий уровень заболеваемости раком почки. Какие причины вы бы назвали? Попробуйте поразмышлять о них, и вы увидите, как легко сочинить историю на основе имеющихся данных.
20
Wainer, H. (2007). The most dangerous equation. American Scientist, 95(3), 249.
21
Здесь мы немного упрощаем. Перед выборами политические партии пытаются повлиять как на количество шариков в мешке, так и на их цвет. Но даже это не позволяет им узнать все о содержимом мешка, поэтому им приходится полагаться на выборку.
22
Данный пример взят с сайта www.johndcook.com/blog/2008/01/25/example-of-the-law-of-small-numbers
23
Tversky, A., & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases. Science, 185(4157), 1124–1131.
24
О’Нил Кэти, Шатт Рэйчел. «Data Science. Инсайдерская информация для новичков» (Издательство: Питер, 2019).
25
Цитата из статьи NRP. “Challenger engineer who warned of shuttle disaster dies.” www.npr.org/sections/thetwo-way/2016/03/21/470870426/challenger-engineer-who-warned-of-shuttle-disaster-dies
26
Цитата из отчета Президентской комиссии, занимавшейся расследованием катастрофы космического челнока «Челленджер» (Report to the President by the Presidential Commission on the Space Shuttle Challenger Accident). С. 146. sma.nasa.gov/SignificantIncidents/assets/rogers_commission_report.pdf
27
Данные доступны для загрузки из репозитория для машинного обучения Калифорнийского университета в Ирвайне: archive.ics.uci.edu/ml/datasets/Challenger+USA+Space+ Shuttle+O-Ring
28
Dalal, S. R., Fowlkes, E. B., & Hoadley, B. (1989). Risk analysis of the space shuttle: pre-Challenger prediction of failure. Journal of the American Statistical Association, 84(408), 945–957.
29
Обратите внимание на то, что подобные вопросы вам следует задать до начала реализации проекта по работе с данными, как было сказано в главе 1.
30
Существуют способы использования данных наблюдений для выявления причинно-следственных связей, которые опираются на сильные предположения и продуманную статистику. Они называются методами выявления причинности.
31
Сбор всех сведений об интересующей совокупности называется переписью.
32
Мы вернемся к этой идее в одной из следующих глав при обсуждении так называемой систематической ошибки выжившего.
33
Производственным, инженерным и исследовательским организациям также следует позаботиться об определении повторяемости и воспроизводимости данных, измеряемых с помощью технического оборудования.
34
При обдумывании подходящего размера выборки специалисты по статистике отталкиваются от величины мощности, о которой мы поговорим в главе 7.
35
Цитата из статьи “Understand Regression Analysis”, Amy Gallo, глава 10 в HBR Guide to Data Analytics Basics for Managers (HBR Guide Series).
36
Tukey, J. W. (1977). Exploratory data analysis (Vol. 2, pp. 131–160).
37
Заинтересованные стороны не должны заниматься микроменеджментом. Между бизнес-лидерами и командами, работающими с данными, должен быть определенный уровень доверия.
38
De Cock, D. (2011). Ames, Iowa: Alternative to the Boston housing data as an end of semester regression project. Journal of Statistics Education, 19(3). Данные можно загрузить с сайта www.kaggle.com/c/house-prices-advanced-regression-techniques.
39
Компания Zillow очень серьезно относится к Zestimate®. В 2019 году она выделила 1 миллион долларов команде дата-сайентистов ради повышения точности прогнозов этого инструмента. venturebeat.com/2019/01/30/zillow-awards-1-million-to-team-that-reduced-home-valuation-algorithm-error-to-below-4
40
Диаграммы размаха также называют диаграммами типа «ящик с усами». «Ящик» содержит центральные 50 % наблюдений (значения в диапазоне между 25-м и 75-м процентилями), линия в ящике – это медиана, а «усы» показывают диапазон, в котором находятся оставшиеся точки данных. Точки, выходящие за пределы этого диапазона, – потенциальные выбросы.
41
Корреляция вовсе не означает, что наклон линии должен быть крутым. Идеальная корреляция между двумя переменными вполне может описываться почти плоской (хоть и не горизонтальной) линией.
42
Anscombe, F. J. (1973). Graphs in statistical analysis. The American Statistician, 27(1), 17–21. Для получения значений, напоминающих цены на дома, мы умножили зависимую переменную на 22 000.
43
Набор данных Datasaurus был создан Альберто Каиро и доступен на GitHub: github.com/lockedata/datasauRus
44
Авторы этого руководства поспорили о том, можно ли вообще не упомянуть эту фразу в книге, посвященной науке о данных. О результате этого спора вы можете догадаться сами.
45
Fisher, R. A. (1958). Cancer and smoking. Nature, 182 (4635), 596.
46
Паулос, Дж. А. «Математическое невежество и его последствия» (Издательство: Студия Артемия Лебедева, 2021).
47
Поищите в Интернете «Интерпретации вероятности», чтобы понять, что мы имеем в виду.
48
Разве можно опоздать на работу, работая на себя? В этом примере – да.
49
«Думай медленно… решай быстро», Даниэль Канеман (Издательство: АСТ, 2014).
50
Эта вероятность не была бы равна 100 %, потому что у команды противника тоже есть болельщики.
51
Вера в то, что прошлые независимые события могут произойти по прошествии достаточного количества времени, также известна как «закон средних чисел» – наукообразный термин, обозначающий склонность принимать желаемое за действительное.
52
Авторы книги ничего не имеют против таких завтраков.
53
Мы не утверждаем, что консультанты или хирурги так поступают. Так делают только адвокаты.
54
Confusion of the Inverse: en.wikipedia.org/wiki/Confusion_of_the_inverse. Доступ получен 4 июля, 2020.
55
С подробной историей данной теоремы можно ознакомиться в книге McGrayne, S. B. (2011). The Theory That Would Not Die: How Bayes’ Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy (American First ed.). Yale University Press.
56
Мы говорим «примерно», потому что во всем есть вариации. Но в долгосрочной перспективе событие, имеющее вероятность 75 %, должно происходить в 75 % случаев.
57
fivethirtyeight.com/features/when-we-say-70-percent-it-really-means-70-percent
58
Не забудьте оставить отзыв о нашей книге на сайте Amazon.
59
Как вы помните из главы 1, проект по работе с данными должен начинаться с формулирования четкого вопроса.
60
Мы понимаем, что 50 % – это отличный процент реализации бросков в баскетболе. У Леброна Джеймса, например, этот показатель за всю карьеру составляет 50 %. Так что нет, ваш стажер, скорее всего, не играет настолько хорошо, просто значение 50 % облегчает расчеты. Однако хорошо, что вы, как главный по данным, задумались о том, не слишком ли это оптимистично.
61
О'Нил Кэти, Шатт Рэйчел. «Data Science. Инсайдерская информация для новичков» (Издательство: Питер, 2019).
62
О'Нил Кэти, Шатт Рэйчел. «Data Science. Инсайдерская информация для новичков» (Издательство: Питер, 2019).
63
Об уточнении самого вопроса мы говорили в главе 1.
64
Мы использовали двусторонний точный тест Фишера.
65
В этом примере требуется выполнение так называемой проверки эквивалентности, обсуждение которой выходит за рамки данной главы. Однако имейте ее в виду, расскажите о ней своей команде и применяйте ее. Если вам понятна логика этой главы, у вас не возникнет сложностей с пониманием данной концепции.
66
“5 Sigma What’s That?” blogs.scientificamerican.com/observations/five-sigmawhats-that
67
Это можно исправить с помощью так называемой поправки на множественную проверку гипотез.
68
В статистике понятие «размер эффекта» может иметь множество значений. Здесь мы говорим о размере эффекта просто как о разнице между двумя числами.
69
Нет, на самом деле мы не собирали данные и не проводили подобное исследование.
70
Тест проводился с помощью языка программирования R для статистической обработки данных: 'prop.test(c(65, 50), c(100, 100), alternative = «greater»)'
71
Адамс, Скотт. Мультсериал «Дилберт». 3 января 2000 года.
72
Ну вроде того. На самом деле все не так просто.
73
Речь идет о наборе данных mtcars, входящем в состав программы R. http://stat.ethz.ch/R-manual/R-devel/library/datasets/html/mtcars.html. Для упрощения восприятия визуализации мы отображаем только 15 автомобилей из 32.
74
Поскольку признаки имеют разный размах, перед объединением их необходимо привести к одной числовой шкале.
75
Pearson, K. (1901). LIII. On lines and planes of closest fit to systems of points in space. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 2(11), 559–572.
76
Количество сочетаний из 30 по 2 = 30!/((30–2)! 2!) = 435.
77
Ни одна из программ не возвращает результаты АГК, показанные здесь. Чтобы обойтись без множества уравнений и чисел, мы решили сосредоточиться на визуализации.
78
АГК и кластеризация никак не связаны между собой, так что их можно использовать независимо друг от друга.
79
Lloyd, S. (1982). Least squares quantization in PCM. IEEE transactions on information theory, 28(2), 129–137.
80
В этом примере мы делаем множество упрощающих допущений. С технической точки зрения этот метод не подходит для группировки точек на сфере, поскольку координаты широты и долготы не находятся в евклидовом пространстве. Используемая нами метрика расстояния не учитывает кривизну Земли, а также практические ограничения, вроде доступа к автомагистралям.
81
«Голая статистика. Самая интересная книга о самой скучной науке», Чарльз Уилан (Издательство: Манн, Иванов и Фербер, 2022).
82
Когда вы слышите словосочетание «линейная регрессия», чаще всего речь идет именно о регрессии методом наименьших квадратов. Существуют и другие типы линейной регрессии, но метод наименьших квадратов наиболее популярен.
83
При изучении алгебры вы познакомились с уравнением прямой линии: y = mx + b. Для любого входа x вы можете получить выход y, умножив x на m и прибавив b. Если y = 2x + 5, то вход x = 7 дает выход y = 2×7 + 5 = 19.
84
Краткое напоминание по поводу терминологии: выход y называется переменной отклика, целевой или зависимой переменной. Вход x называется признаком, предиктором или независимой переменной. Вы можете столкнуться со всеми этими терминами в своей работе.
85
Использование абсолютных значений также позволило бы сделать отклонения положительными перед агрегированием. Однако возведение в квадрат более предпочтительно с математической точки зрения, поскольку оно имеет свойство дифференцируемости, что было жизненно важно на ранних этапах применения метода линейной регрессии, когда все расчеты приходилось делать вручную.
86
Для простой регрессии с одним входным параметром R2 представляет собой квадрат коэффициента корреляции, который мы обсуждали в главе 5. Однако значение R2 может быть и отрицательным. Такое бывает, когда модель линейной регрессии оказывается менее эффективной, чем предсказание среднего значения.
87
Верхний предел количества признаков/входных параметров в модели линейной регрессии составляет N – 1, где N – количество строк в наборе данных. Таким образом, для прогнозирования ежемесячных объемов продаж на 12-месячный период вы можете использовать до 11 входных параметров.
88
Модели линейной регрессии не вычисляются, если два входных параметра идеально коррелированы, поэтому мы добавили шум в данные в этом примере.
89
Этой идее посвящена целая область статистики под названием «Планирование экспериментов».
90
https://en.wikipedia.org/wiki/Leakage_(machine_learning)
91
Разница между объяснением и предсказанием с помощью моделей подробно описана в статье: Shmueli, G. (2010). To explain or to predict? Statistical science, 25(3), 289–310.
92
Не путайте кластеризацию с классификацией. Помните о том, что кластеризация не предполагает использование меток. При кластеризации если метки и присваиваются, то самим аналитиком и только впоследствии. При решении задач классификации метки изначально присутствуют в наборе данных.
93
Логистическая регрессия, как вы узнаете далее, предсказывает вероятности. При добавлении решающего правила она превращается в алгоритм классификации.
94
Описанные в этой главе деревья решений и ансамблевые методы можно использовать для решения задач регрессии. Так что, если выходной параметр вашего набора данных является числом, попробуйте их применить.
95
Число e в уравнении – математическая константа вроде π, которая применяется далеко не только в логистической регрессии. Это так называемая постоянная Эйлера, приблизительно равная 2,71828.
96
Чтобы по-настоящему понять эту формулу, необходимо познакомиться с концепцией логарифма отношения шансов, рассмотрение которой выходит за рамки данной книги.
97
Существует несколько алгоритмов для создания деревьев решений, но наиболее популярный из них – CART (Classification and Regression Trees, деревья классификации и регрессии). Подробную информацию о нем можно найти в работе Breiman, Leo; Friedman, J. H.; Olshen, R. A.; Stone, C. J. (1984). Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software.
98
Мы создали это дерево и его визуализацию с помощью (бесплатной) статистической программы R с открытым исходным кодом и пакетов «rpart» и «rpart.plot». Не все деревья решений, с которыми вы столкнетесь, будут иметь подобный уровень детализации.
99
Breiman, L. (2001). Random forests. Machine learning, 45(1), 5–32.
100
Построение моделей на основе случайных выборок данных называется «бэггингом». Случайные леса – один из вариантов применения данного метода.
101
Дополнительную информацию о градиентном усилении (бустинге) можно найти в главе 10 книги Friedman, J., Hastie, T., & Tibshirani, R. (2001). The elements of statistical learning (Vol. 1, No. 10). New York: Springer series in statistics, и в указанных там источниках. Однако имейте в виду, что это довольно сложный текст.
102
Хороший обзор можно найти в статье “Ideas on interpreting machine learning” на сайте www.oreilly.com/radar/ideas-on-interpreting-machine-learning. В настоящее время проводятся исследования, направленные на улучшение понимания работы этих методов.
103
Признана экстремисткой на территории РФ.
104
Цитата из поста.
105
Сгенерируйте собственные вдохновляющие цитаты на сайте inspirobot.me.
106
Отличное описание системы вопросов-ответов, используемой компьютером Watson, можно найти в книге: Siegel, E. (2013). Predictive analytics: The power to predict who will click, buy, lie, or die. John Wiley & Sons.
107
Текстовая аналитика также иногда называется текст-майнингом.
108
Облако слов создано с помощью сайта wordclouds.com.
109
Любимое блюдо Джордана – это хот-дог.
110
Более подробное описание модели Word2vec можно найти в главе 11 замечательной книги: Mitchell, M. (2019). Artificial intelligence: A guide for thinking humans. Penguin UK.
111
Да, здесь мы игнорируем множество пар слов, которые могут присутствовать даже в самых коротких статьях. Уже одно это должно дать вам представление о той вычислительной сложности, с которой пришлось столкнуться компании Google.
112
Говядина = (0,1, 1,0, 0,9), Корова = (1,0, 0,1, 1,0), Свинья = (1,0, 0,1, 0,0). Если произвести сложение и вычитание соответствующих элементов, то получится Говядина – Корова + Свинья = (0,1, 1,0–0,1), что довольно близко к значению слова Свинина = (0,1, 1,0, 0).
113
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
114
code.google.com/archive/p/word2vec.
115
Два популярных метода тематического моделирования – латентно-семантический анализ (ЛСА) и латентное размещение Дирихле (ЛРД).
116
Это изображение взято с сайта en.wikipedia.org/wiki/File: Topic_model_scheme.webm, создано Кристофом Карлом Кингом и распространяется по лицензии Creative Commons Attribution-Share Alike 4.0 International.
117
Одна из самых значимых статей в данной области – Drucker, H., Wu, D., & Vapnik, V. N. (1999). Support vector machines for spam categorization. IEEE Transactions on Neural networks, 10(5), 1048–1054.
118
Линейная регрессия не работает и в том случае, если в наборе данных содержится больше признаков, чем наблюдений. Тем не менее существуют разновидности линейной и логистической регрессии, позволяющие справиться с такой ситуацией.
119
Дополнительную информацию вы можете найти в статье https://ru.wikipedia.org/wiki/Байесовская_фильтрация_спама
120
Это называется поправкой Лапласа, которая помогает предотвратить высокую вариацию в небольших количествах значений, о которой мы говорили в главе 3.
121
Generative Pre-trained Transformer 3
122
https://www.forbes.com/sites/bernardmarr/2020/10/05/what-is-gpt-3-and-why-is-it-revolutionizing-artificial-intelligence/?sh=2f45a93b481a
123
Шолле Франсуа, «Глубокое обучение на Python» (Издательство: Питер, 2018).
124
Разумеется, продемонстрировать резкие и ожидаемые изменения в химии мозга можно не только с помощью такого экстремального примера, как выбегающий на дорогу олень. Дело в том, что ваш мозг обрабатывает входные и выходные данные прямо сейчас. Миллионы нейронов активируются в процессе чтения этих строк.
125
Нейронные сети можно использовать и для решения задач регрессии. Только при этом будет применяться другая функция активации, поскольку итоговое вычисление, по сути, будет сводиться к модели линейной регрессии.
126
Веса также называются коэффициентами. Для одних и тех же понятий существует несколько названий.
127
Для поклонников исчисления сообщаем, что обратное распространение ошибки, по сути, представляет собой цепное правило, предоставляющее инструменты для оптимизации вложенных уравнений, подобных тем, которые используются в нейронных сетях.
128
В случае линейной регрессии для параметров существует настоящий математический оптимум (то есть точка, в которой сумма квадратов является минимальной). К сожалению, при работе с нейронными сетями у нас часто нет никакого способа узнать, достигла ли наша нейронная сеть математического оптимума или просто «достаточно хорошего» результата.
129
Здесь мы должны сделать оговорку. Если функция активации не логистическая, то это утверждение неверно.
130
LeCun, Y., et al. (1989). Backpropagation applied to handwritten zip code recognition. Neural computation, 1(4), 541–551.
131
См. статью “From not working to neural networking” на странице: https://www.economist.com/news/special-report/21700756-artificial-intelligence-boom-based-old-idea-modern-twist-not
132
Изображение взято из статьи lilianweng.github.io/lil-log/2017/06/21/an-overview-of-deep-learning.html и вдохновлено изображением из книги Ng, A. (2019). Machine learning yearning: Technical strategy for ai engineers in the era of deep learning. Доступ получен через сайт mlyearning.org.
133
Автоматическое распознавание рукописных цифр – это настоящий обряд посвящения для тех, кто стремится освоить методы глубокого обучения. Янн ЛеКун решил эту задачу в 1989 году. Сегодня этот процесс можно реализовать на ноутбуке. База данных рукописных цифр доступна по адресу: yann.lecun.com/exdb/mnist.
134
Каждый из 1000 нейронов в скрытом слое представлял бы собой взвешенную сумму 30 миллионов входных значений.
135
Существует несколько типов рекуррентных нейронных сетей. Самая популярная из них называется сетью с долгой кратковременной памятью (LSTM, Long short-term memory).
136
www.blog.google/products/gmail/subject-write-emails-faster-smart-compose-gmail
137
deeplearning.ai/the-batch/issue-62
138
Многие практики используют для трансферного обучения модели, обученные на базе данных ImageNet (https://ru.wikipedia.org/wiki/ImageNet).
139
medium.com/hackernoon/you-are-building-a-self-driving-ai-without-even-knowing-about-it-62fadbfa5fdf
140
https://ru.wikipedia.org/wiki/Систематическая_ошибка_выжившего
141
Galton, F. (1886). Regression towards mediocrity in hereditary stature. The Journal of the Anthropological Institute of Great Britain and Ireland, 15, 246–263.
142
https://ru.wikipedia.org/wiki/Проклятье_Madden
143
Этот пример был впервые использован в работе: Julious, S. A., & Mullee, M. A. (1994). Confounding and Simpson’s paradox. Bmj, 309(6967), 1480–1481. Мы обнаружили его в отличной книге: Reinhart, A. (2015). Statistics done wrong: The woefully complete guide. No Starch Press.
144
Алгоритмическая предвзятость: https://en.wikipedia.org/wiki/Algorithmic_bias
145
В статье Reuters 2018 года “Amazon scraps secret AI recruiting tool that showed bias against women” говорится о том, что алгоритмы компании занижали баллы тем кандидатам, в чьих резюме содержалось слово «женский» и названия женских колледжей. www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G
146
В этом вам может помочь ресурс Брукингского института: www.brookings.edu/research/algorithmic-bias-detection-and-mitigation-best-practices-and-policies-to-reduce-consumer-harms
147
Это всего лишь пример. Авторы данной книги не занимаются исследованием рака.
148
Цитата из интервью: www.washington.edu/news/2015/09/17/a-q-a-with-pedro-domingos-author-of-the-master-algorithm
149
На создание этого раздела нас вдохновила статья Скотта Беринато «Data Science and the Art of Persuasion» (hbr.org/2019/01/data-science-and-the-art-of-persuasion), основанная на нашем опыте и опыте наших коллег по бизнесу, которые любезно поделились своими историями.
150
Подробнее об этом мнении можно узнать в статье Джеффа Лика “Data science done well looks easy – and that is a big problem for data scientists” на сайте: https://simplystatistics.org/posts/2015-03-17-data-science-done-well-looks-easy-and-that-is-a-big-problem-for-data-scientists/.