siB81)$lbs#djf&23^Voq9
Желательно иметь разные пароли в разных сервисах. Если вам сложно сочинить разные пароли, придумайте изменяемую часть – например, часть цифр может меняться от сервиса к сервису.
Еще один вариант – использовать название сервиса/сайта в качестве части пароля. Этот прием предложил Артур Думчев в своей книге «Помнить все»[56]. Выберите базовый пароль и вставляйте в него название домена или сервиса:
• 77Base_Parol&8 – базовый вариант;
• 77BaFace_PaBookrol&8 – для Facebook;
• 77BaEver_PaNoterol&8 – для Evernote.
И так далее. Таким образом, у вас всегда будет достаточно сложный пароль и вам не придется вспоминать новый на каждом сайте.
Small and Big Data
В этом разделе мы собрали несколько бизнесхаков и метрик для тех, кто анализирует данные и наглядно их представляет.
Кроме того, в приложениях мы собрали десятки полезных функций и приемов работы в Google Docs и Excel. Если вы потребитель аналитики и не занимаетесь ею самостоятельно, можете пропустить это приложение. Но если вы работаете с таблицами и ищете смысл в больших и малых данных, эти приемы сберегут вам немало времени.
238. Данные должны быть «Живыми»
Управленческая информация должна быть актуальной и «живой». Что это значит? Что ее нельзя хранить в форматах PDF или Word, например. Потому что тогда вы не сможете:
• быстро обновить данные;
• поменять одну из переменных – и посмотреть на то, как это изменение отразится на итоговых показателях (провести сценарный анализ);
• добавить новые показатели.
Все это возможно в таблицах, где легко обновлять и обрабатывать данные. Вы можете извлечь данные из таблицы и представить в наглядном отчете в PDF. Но помните: ни одно изменение в исходных данных в этом отчете не отобразится. А принимать решения лучше на основе актуальной информации.
239. И абсолютно, и относительно
В аналитике принято сравнивать данные (отчетность, показатели) с какой-то базой: предыдущим периодом, аналогичным периодом прошлых лет, с конкурентами, со средним показателем по отрасли, по региону, с нормативами и т. д.
Сравнение может быть абсолютным (в отделе стало работать на три человека больше) и относительным (было шесть сотрудников, а стало девять: прирост на 50 %!).
Ни то ни другое сравнение не показательно само по себе. Процентный прирост может быть огромным (возможно, вы слышали про эффект низкой базы: бегуны быстро прогрессируют в первые годы, рост продаж нового направления в бизнесе может быть стремительным в первые месяцы и годы, пока рынок не пресытился), но без абсолютных цифр эта информация не поможет вам делать выводы и принимать решения.
Приросты считаются так:
Абсолютный прирост = Текущий показатель – Базисный показатель (прошлый месяц, аналогичный месяц прошлого года и т. д.).
Относительный прирост = Текущий показатель / Базисный показатель – 1.
240. Мода, медиана и среднее
Сначала дадим определения:
• среднее арифметическое – сумма всех элементов выборки, разделенная на их количество;
• мода – значение, которое встречается чаще всего;
• медиана – такое число из выборки, что ровно половина элементов этой выборки больше него, а половина – меньше.
В качестве среднего могут указывать и среднее, и медиану, и моду. В компании с огромной зарплатой руководителя и низкими зарплатами сотрудников будет высокая средняя зарплата, не очень высокая медианная (то есть зарплата человека, которая меньше зарплаты половины сотрудников и больше зарплаты другой половины сотрудников) и совсем невысокая мода (то есть зарплата, чаще всего встречающаяся в компании).
Рассмотрим простой пример в числах.
Пусть в компании есть восемь руководителей, которые получают по 3 тысячи неких денежных единиц, 20 сотрудников, получающих по 2 тысячи единиц, и 27 сотрудников, которые получают по 200 единиц.
Средняя зарплата в компании = 69 400 / 55 = 1261 денежная единица.
Медиана = 2 тысячи единиц. Это зарплата того человека, который «богаче» одной половины коллег и «беднее» другой половины.
Мода = 200 единиц, это самая часто встречающаяся зарплата.
Когда какой показатель использовать?
На практике мода используется редко. Намного больший интерес представляют среднее и медиана.
Среднее арифметическое крайне чувствительно к выбросам (нехарактерным для изучаемой выборки слишком большим или слишком малым значениям) одно случайное экстремальное значение может сильно сместить ваше среднее.
Медиана же к выбросам устойчива.
Выбор между медианой и средним зависит от целей исследования и от характера данных. Если экстремальные значения полагаются случайными или возникающими вследствие внешних причин или ошибок, медиана – более предпочтительный показатель.
Если имеете дело со статистикой и слышите про «среднее» – лучше поинтересоваться, как именно его рассчитывали.
241. Взвешенное среднее
Взвешенное среднее – то, при котором значения усредняемого показателя умножаются на определенные веса (например, на объем или количество).
Допустим, у вас в магазине есть 20 тысяч книг по 500 рублей, 10 тысяч книг по 600 рублей и 3 тысячи книг по 850 рублей. Какова средняя цена книги из вашего ассортимента? Количество книг здесь будет весом, а цена – усредняемым показателем.
На практике для расчета этого показателя можно применять функцию СУММПРОИЗВ (SUMPRODUCT) в Excel. Она позволяет перемножить несколько массивов. В данном примере она будет выглядеть так:
242. Квантили
Еще один интересный показатель в статистическом анализе – это квантили. Чаще всего встречаются 1 %-, 5 %-, 95 %-, 99 %-ный квантили. Рассмотрим на примере: пусть 95 %-ный квантиль зарплат в регионе составляет 1 тысячу денежных единиц. Это значит, что 95 % населения получает менее 1 тысячи единиц (или 95 человек из 100 получают менее 1 тысячи единиц). Аналогично, если 5 %-ный квантиль составляет 200 единиц, то 5 % населения зарабатывает менее 200 единиц.
Квантили удобны, когда необходимо получить интервал, в который с высокой вероятностью попадают все интересующие вас объекты исследования. Или когда вам необходимо отфильтровать экстремальные значения.
Для нахождения квантилей используйте функции Excel:
• в старых версиях Excel: КВАРТИЛЬ (QUARTILE);
• в Google Таблицах: QUARTILE;
• в новых версиях Excel: КВАРТИЛЬ.ВКЛ/КВАРТИЛЬ.ИСКЛ (QUARTILE.INC/ QUARTILE.EXC).
Первый аргумент функции – массив данных, а второй – значение процентиля (например, 0,05 или 0,95).
243. Как найти выбросы?
Что такое выбросы? Это данные, нетипичные для конкретной выборки, способные исказить статистические показатели (например, среднее), рассчитанные по ней.
Откуда они появляются? Выбросы могут возникать из-за ошибок ввода информации, неправильного сбора данных, а также по причинам, не связанным с темой исследования (например, в какой-то месяц были низкие продажи из-за внешних факторов – проблем дистрибьютора, какого-то форс-мажора на рынке).
Если вернуться к примеру с заработной платой из бизнесхака «Медиана, мода и среднее», то зарплата руководителя – это не выброс.
Выбросы можно и нужно удалять, и делают это как вручную, так и автоматически.
Если у вас мало данных (например, статистика по продажам за два-три года по месяцам), то убрать их можно вручную, экспертно оценив, есть ли нетипичные данные в выборке (их может и не быть вовсе, особенно в небольшой выборке).
Если же данных много, то выбросы лучше искать автоматически. Делать это можно в Excel, Google Таблицах или в статистических пакетах.
Есть несколько базовых методов.
Правило трех сигм. Все наблюдения, которые на три среднеквадратичных отклонения (сигмы) больше или меньше среднего, – выбросы.
Формула среднеквадратичного отклонения:
Его можно рассчитать в Excel с помощью функции СТАНДОТКЛОН.В (STDEV.S), если у вас выборка из общей совокупности, и с помощью функции СТАНДОТКЛОН.Г (STDEV.P), если вы оцениваете отклонение по всей генеральной совокупности.
В Google Таблицах используйте функции СТАНДОТКЛОН (STDEV) для выборки и СТАНДОТКЛОНП (STDEVP) для генеральной совокупности.
Примечание. Генеральная совокупность – это все объекты, которые вы собираетесь исследовать. Например, если вы проводите маркетинговое исследование своей целевой аудитории, генеральной совокупностью могут быть все мужчины от 25 до 39 лет с определенным доходом, проживающие в городе N.
Соответственно, выборка – это часть генеральной совокупности, элементы, по которым есть наблюденные данные.
Если вы сомневаетесь – используйте формулу для выборки. Данные по всей генеральной совокупности встречаются редко.
Метод Тьюки[57].
1. Рассчитайте 25-й и 75-й персентили. В Excel и Google Таблицах – с помощью функции ПЕРСЕНТИЛЬ (PERCENTILE).
2. Вычтите 25-й персентиль из 75-го, чтобы получить межквартильный размах (МР).
3. Рассчитайте внутренние и внешние границы по следующим формулам:
Нижняя внешняя граница = 25-й персентиль – 3 МР;
Верхняя внешняя граница = 75-й персентиль + 3 МР;
Нижняя внутренняя граница = 25-й персентиль – 1,5 МР;
Верхняя внутренняя граница = 75-й персентиль + 1,5 МР.
4. Значения, лежащие за пределами внешних границ, – выбросы (если данные распределены нормально, то за пределами этих границ будет лежать лишь 0,000002 данных). Значения за пределами внутренних границ тоже можно считать выбросами, но не такими экстремальными. За их пределами будет лежать 0,01 данных.