Создание Selfiecity
Команда проекта. Для работы над Selfiecity мы собрали большую междисциплинарную команду. Она включала в себя теоретиков медиа, историка искусств, специалистов по обработке и анализу данных (дата-исследователей), визуальных дизайнеров и программистов из Нью-Йорка, Калифорнии и Германии. Я был координатором проекта, а Мориц Штефанер отвечал за творческую часть и создание визуализаций.
Сайт проекта включает три раздела: результаты (Findings) – информацию о демографических характеристиках людей, делающих селфи, их позах на фотографиях и выражениях лиц; ряд медиавизуализаций (Imageplots), объединяющих тысячи фотографий, и интерактивное приложение Selfiexploratory, позволяющее посетителям сайта изучить всю коллекцию из 3200 селфи, сортируя и фильтруя их в поисках новых паттернов. Кроме того, на selfiecity.net можно найти три эссе об истории фотографии и феномене селфи, функциях изображений в социальных медиа и методе создания медиавизуализаций.
Сбор данных. Первый этап работы над проектом заключался в создании базы селфи. Этот процесс проходил в несколько этапов. Когда вы просматриваете Instagram, вам на первый взгляд может показаться, что в нем большое количество селфи. Однако при более внимательном изучении выясняется, что многие из этих изображений не селфи, а фотографии, снятые другими людьми. В своем проекте мы хотели использовать лишь «настоящие селфи», где фотограф и модель – одно и то же лицо.
Мы привлекли к сотрудничеству Gnip – компанию, которая на тот момент была крупнейшим в мире поставщиком данных социальных сетей (gnip.com). Разработав программное обеспечение, совместимое с сервисами Gnip, в сентябре 2013 года мы начали скачивать instagram-фотографии, сделанные в разных городах мира. Опробовав многочисленные варианты, мы сосредоточились на центральных районах пяти городов, расположенных в Северной Америке, Европе, Азии и Южной Америке. Размер территории, использовавшейся при отборе изображений из Instagram, был одинаковым в каждом из городов.
Мы хотели, чтобы изображения и данные были собраны в одинаковых условиях, поэтому ограничились одной неделей 5–11 декабря 2013 года. Ниже приведено количество фотографий с геотегами, которые загрузили в Instagram пользователи в выбранных нами районах пяти городов за эту неделю, по данным, предоставленным Gnip (в порядке убывания количества снимков, округленного до тысячи):
Нью-Йорк – 207 000,
Бангкок – 162 000,
Москва – 140 000,
Сан-Паулу – 123 000
Берлин – 24 000,
Всего: 656 000 фотографий.
Следующим шагом было создание случайной выборки, включавшей 140 000 фотографий из 656 000 (по 20 000 или 30 000 на город). Затем мы воспользовались услугами интернет-платформы Amazon Mechanical Turk, чтобы взять из этой выборки селфи. Несколько работников Amazon Mechanical Turk изучали каждую фотографию, чтобы определить, селфи это или нет. Мы экспериментировали с разными формами вопроса, на который они должны были отвечать, и обнаружили, что самая простая форма – «Представляет ли собой это фото селфи одного человека?» – дала наилучшие результаты.
Затем мы выбрали несколько тысяч фотографий для каждого города (то есть фотографии, которые по меньшей мере два работника определили как селфи с изображением одного человека). После этого мы снова передали эти фотографии в Amazon Mechanical Turk, попросив трех «контролеров» не только удостовериться, что снимок представляет собой селфи одного человека, но также указать пол и примерный возраст автора селфи.
На заключительном этапе все эти фотографии вручную просматривал как минимум один из членов команды проекта. Хотя большинство снимков были определены правильно (очевидно, все работники Mechanical Turk знали, что такое селфи), мы обнаружили несколько ошибок. Мы хотели сохранить размеры баз данных одинаковыми, чтобы анализ и визуализации были сопоставимы, поэтому в итоге, устранив ошибки, мы отобрали по 640 фотографий для каждого города – в общей сложности 3200 снимков.
Компьютерный анализ. Эта выборка из 3200 селфи была проанализирована с использованием новейшего на тот момент программного обеспечения для распознавания лиц rekognition.com. Программа измеряла и фиксировала более чем 20 параметров лица на каждой фотографии, включая его размер, поворот головы, эмоции, наличие очков, наличие улыбки, открытые или закрытые глаза и т. д.
Мы использовали эти параметры двумя способами: сравнивая по выявленным характеристикам лиц города, возрастные и гендерные группы, а также включив некоторые из показателей в интерактивное приложение Selfiexploratory, чтобы посетители сайта могли отбирать селфи из базы, задавая любую комбинацию характеристик.
Программное обеспечение также определяло пол и возраст человека на каждой фотографии. Мы обнаружили, что эти данные в целом совпадали с интерпретацией снимков работниками Mechanical Turk.
Визуализация селфи
Обычно визуализация данных показывает простые данные, такие как числа. Однако число не может передать всего, что содержит в себе фотография. «Фотография – это не просто данные, а целый мир, насыщенный значениями, эмоциями и визуальными знаками» (Мориц Штефанер, художественный директор и дизайнер визуализаций для Selfiecity). Поэтому ключевой стратегией проекта является представление на визуализациях всех фотографий (вместе с графиками или без них). Мы называем этот подход «медиавизуализацией». Как объяснил Мориц Штефанер, «показать крупномасштабные конфигурации данных – картину целого – наряду с возможностью увидеть отдельные изображения было важной задачей нашего проекта. Мы искали способ визуализировать большие массивы данных, сохранив при этом внимание к индивидуальностям и не утратив ни одной из интересных деталей. Это стало для нас центральной проблемой, и не только в отношении селфи».
Штефанер создал для этого проекта несколько различных типов визуализаций, которые описаны ниже.
Видеомонтажи[699]. Каждое видео включает все 640 селфи, сделанные в одном городе, но не в простой последовательности. Несколько селфи накладываются друг на друга на экране в каждый момент времени: новые появляются поверх старых. Лица выравнивались по положению глаз и распределялись по углу наклона головы.
Эта визуальная стратегия позволяет выразить напряжение между индивидуальностью каждого селфи и тенденциями, наблюдаемыми в массе снимков. Мы не показываем каждое лицо по отдельности. Но мы и не накладываем друг на друга все изображения, что дало бы только «шаблон» лица, типичный для каждого из городов. Вместо этого мы показываем нечто иное: общую тенденцию и индивидуальные детали одновременно.
Медиавизуализации (Imageplots). Перебирая фотографии вручную, можно заметить много интересных деталей, но наш мозг не может представить эти наблюдения в количественных паттернах. Мы создали визуализации-гистограммы, на которых показаны распределения данных о поле, возрасте, а также улыбках в разных городах. Как в обычной визуализации данных, наши гистограммы позволяют вам мгновенно по форме графиков увидеть ключевые тренды. Но поскольку эти столбцы составлены из отдельных фотографий, они также дают возможность по-новому взглянуть на отношения между частным и общим.
Исследовательская лаборатория селфи (Selfiexploratory). Это ключевой раздел проекта – интерактивное приложение для визуализаций, позволяющее посетителям сайта изучить базу селфи различными способами. Можно отобрать фотографии по городу, полу, возрасту и ряду характеристик внешности, замеренных и зарегистрированных программой анализа лиц.
Приложение позволяет посетителям сайта изучать фотографии, используя данные, полученные и в результате оценок, сделанных людьми, и компьютерного анализа – двух разных способов смотреть на фотографии. Графики возраста и пола, расположенные слева, созданы с использованием оценок, данных работниками Amazon’s Mechanical Turk. Все графики справа сделаны с помощью программ анализа лиц. Каждый раз, когда пользователь выбирает новые критерии, фильтры обновляются в режиме реального времени и внизу отображаются все фотографии, отвечающие параметрам поиска. В результате мы получили инновационный гибкий способ просмотра и обнаружения закономерностей в больших массивах медиаданных.
Помимо представления базы селфи с помощью визуализаций, видео и интерактивного приложения Selfiexploratory,мы также решили показать некоторые из результатов в более конвенциональном формате – как статистические данные. Из большого количества полученных выводов мы отобрали и представили следующие.
1) Всего 3–5 % изображений, которые мы анализировали, оказались селфи (разница в показателях зависит от города). Почему так мало? Чтобы проанализировать фотографии с помощью систем компьютерного зрения, мы должны были использовать только те селфи, на которых лица были запечатлены полностью. Кроме того, как я отметил выше, под определение «селфи» в этом проекте подходили только фотографии себя, сделанные пользователями Instagram. И все же было удивительно обнаружить, что в тот период, когда мы собирали данные, процент таких селфи среди всех фотографий Instagram был очень мал.
2) В каждом из рассмотренных нами городов было существенно больше женских, чем мужских селфи (от разницы в 1,3 раза в Бангкоке, до разницы в 1,9 раз в Берлине). Москва же оказалась уникальным примером: здесь женских селфи в 4,6 раза больше, чем мужских (хотя мы не располагаем подобными данными для других стран, в США, по результатам исследования Pew Internet survey, соотношение женщин и мужчин, пользующихся Instagram, примерно 1:1).
3) Большинство людей на наших фотографиях – молодые (средний возраст приблизительно 23,7 лет). Бангкок представлен как «самый молодой город» (21,0), в то время как возраст авторов селфи в Нью-Йорке – самый «почтенный» (25,3). В каждом городе средний возраст мужчин выше, чем возраст женщин. В то же время любопытно, что в возрастной группе 30+ мужчины чаще, чем женщины, выкладывают селфи в Instagram.