Простой Python — страница 54 из 66

С недавнего времени распространено употребление словосочетания «наука о данных». Я слышал определения «статистика, собираемая на Mac» или «статистика, собираемая в Сан-Франциско». Как бы вы ни определили ее, инструменты, о которых я говорил ранее, — NumPy, SciPy и инструменты Pandas, вынесенные в тему этого раздела, — это компоненты растущего популярного инструментального средства, работающего с данными. (Mac и Сан-Франциско опциональны.)

Pandas — это новый пакет для интерактивного анализа данных (http://pandas.pydata.org/). Он особенно полезен для манипулирования данными реального мира с помощью комбинирования матричной математики NumPy и возможности обработки таблиц и реляционных баз данных. В книге Веса Маккинни (Wes McKinney) Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython (издательство O’Reilly) рассматриваются выпас данных с помощью NumPy, Python и Pandas.

NumPy ориентирован на традиционные научные вычисления, которые, как правило, манипулируют многомерными множествами данных одного типа, обычно числами с плавающей точкой. Pandas больше похож на редактор базы данных, обрабатывающий несколько типов данных в группе. В некоторых языках такие группы называются записями или структурами. Pandas определяет базовую структуру данных, которая называется DataFrame. Она представляет собой упорядоченную коллекцию граф с именами и типами и напоминает таблицу, именованный кортеж или вложенный словарь в Python. Ее предназначение заключается в упрощении работы с любыми данными, которые вы можете встретить не только в науке, но и в бизнесе. Фактически Pandas разрабатывался для работы с финансовыми данными, наиболее распространенной альтернативой для которых является электронная таблица.

Pandas — это ETL-инструмент для реальных данных — с отсутствующими значениями, странными форматами, странными измерениями — всех типов. Вы можете разделить, объединить, заполнить, сконвертировать, изменить форму, разбить данные, а также загрузить и сохранить файлы. Он интегрируется с инструментами, которые мы только что обсудили, — NumPy, SciPy, iPython — для подсчета статистики, подгонки данных под модель, рисования диаграмм, публикации и т. д.

Большинство ученых хотят выполнять свою работу, не тратя месяцы на то, чтобы стать экспертами в эзотерических языках программирования или приложениях. С помощью Python они быстрее могут стать более продуктивными.

Python и научные области

Мы рассматривали инструменты Python, которые могут быть использованы практически в любой области науки. Но как насчет программного обеспечения и документации, нацеленных на конкретные научные области? Рассмотрим примеры использования Python для решения определенных задач и некоторые узконаправленные библиотеки.

• Общие:

• вычисления Python в науке и инженерном деле (http://bit.ly/py-comp-sci);

• интенсивный курс Python для ученых (http://bit.ly/pyforsci).

• Физика — физические вычисления (http://bit.ly/pyforsci).

• Биология и медицина:

• Python для биологов (http://pythonforbiologists.com/);

• Neuroimaging с помощью Python (http://nipy.org/).

Проводятся следующие международные конференции по Python и научным данным:

• PyData (http://pydata.org/);

• SciPy (http://conference.scipy.org/);

• EuroSciPy (https://www.euroscipy.org/).

Приложение Г. Установка Python 3

К моменту, когда Python 3 будет предустановлен на каждом компьютере, тостеры будут заменены 3D-принтерами, которые каждый день будут выдавать пончики. В операционной системе Windows вообще нет Python, а OS X, Linux и Unix, как правило, имеют старые версии. До тех пор пока это не исправили, вам, скорее всего, придется устанавливать Python 3 самостоятельно.

Далее показывается, как выполнить следующие задачи:

• определить, какая версия Python установлена на вашем компьютере, если она есть;

• установить стандартный дистрибутив Python 3, если у вас его нет;

• установить дистрибутив Anaconda, содержащий научные модули Python;

• установить pip и virtualenv, если вы не можете изменять свою систему;

• установить conda в качестве альтернативы pip.

Большинство примеров этой книги были написаны и протестированы для Python 3.3, последней стабильной версии на момент ее написания. В некоторых примерах использовалась версия 3.4, которая была выпущена в момент, когда книга редактировалась. Страница What’s New in Python (https://docs.python.org/3/whatsnew/) представляет информацию о том, что было добавлено в каждой версии. Существует множество исходных кодов Python и много способов установить новую версию. В этом приложении я опишу два из них.

• Если вы хотите установить стандартный интерпретатор и библиотеки, я рекомендую вам посетить официальный сайт языка (http://www.python.org/).

• Если вы хотите использовать и стандартную библиотеку, и научные библиотеки, описанные в приложении В, используйте Anaconda.

Установка стандартной версии Python

Перейдите в браузере на страницу загрузки Python (http://www.python.org/download/). Она попробует определить вашу операционную систему и предоставить подходящие вам варианты. Если она ошибется, вы можете использовать следующие ссылки:

• версии Python для Windows (https://www.python.org/downloads/windows/);

• версии Python для Mac OS X (https://www.python.org/downloads/mac-osx/);

• исходные коды Python (Linux и Unix) (https://www.python.org/downloads/source/).

Вы увидите страницу, похожую на ту, что показана на рис. Г.1.


Рис. Г.1. Пример страницы загрузки


Выберите ссылку Download (Загрузить) у наиболее свежей версии. В нашем случае это 3.4.1. Это отправит вас на страницу информации, похожую на ту, что показана на рис. Г.2.

Вам нужно прокрутить страницу вниз, чтобы увидеть ссылку для загрузки (рис. Г.3).


Рис. Г.2. Страница деталей загрузки


Рис. Г.3. Нижняя часть страницы, предлагающая загрузить Python


Выберите ссылку, чтобы перейти на страницу определенной версии (рис. Г.4).

Теперь выберите корректную версию для вашего компьютера.


Рис. Г.4. Файлы для загрузки

Mac OS X

Щелкните на ссылке Mac OS X 64-bit/32-bit installer, чтобы загрузить файл с расширением. dmg для Mac. После завершения загрузки дважды щелкните на нем. Появится окно с четырьмя значками. Правой кнопкой мыши щелкните на Python.mpkg и затем в появившемся диалоговом окне нажмите кнопку Open (Открыть). Нажмите кнопку Continue (Продолжить) три раза (или около того), чтобы просмотреть юридические детали, и затем, когда появится соответствующее диалоговое окно, нажмите кнопку Install (Установить). Python 3 будет установлен в каталог /usr/local/bin/python3, что оставит существующую версию Python 2 нетронутой.

Windows

Для Windows загрузите один из следующих установщиков:

• Windows x86 MSI installer (32-bit) (http://bit.ly/win-x86);

• Windows x86-64 MSI installer (64-bit) (http://bit.ly/win-x86-64).

Чтобы определить, какая версия Windows у вас установлена (32- или 64-битная), сделайте следующее.

1. Нажмите кнопку Пуск.

2. Щелкните правой кнопкой мыши на пункте Мой компьютер.

3. Выберите пункт меню Свойства и найдите битовое значение.

Щелкните на соответствующем установщике (файл с расширением. msi). После того как он будет загружен, щелкните на нем два раза и следуйте инструкциям.

Linux или Unix

Пользователи Linux и Unix могут выбрать формат сжатия файлов исходного кода:

• сжатие с помощью XZ (http://bit.ly/xz-tarball);

• сжатие с помощью Gzipped (http://bit.ly/gzip-tarball).

Загружайте любой из этих архивов. Разархивируйте его с помощью tar xJ (для файла с расширением. xz) или tar xz (для файла с расширением. tgz), а затем запустите полученный сценарий оболочки.

Установка Anaconda

Anaconda — это всеобъемлющий установщик с акцентом на науку: он содержит Python, стандартную библиотеку и множество полезных сторонних библиотек. До недавнего момента он содержал Python 2 в качестве стандартного интерпретатора, несмотря на то что существовала возможность установить Python 3.

Новая версия, Anaconda 2.0, устанавливает последнюю версию Python и ее стандартную библиотеку (3.4 на момент написания этой книги). Среди других прелестей — библиотеки, о которых мы говорили ранее в этой книге: beautifulsoup4, Flask, ipython, matplotlib, nose, numpy, Pandas, pillow, pip, scipy, tables, zmq и множество других. Он содержит кросс-платформенную программу установки, которая называется conda, она улучшает pip4 — мы поговорим об этом через некоторое время.

Чтобы установить Anaconda 2, перейдите на страницу загрузки версий Python 3 (http://repo.continuum.io/anaconda3/). Нажмите соответствующую ссылку для вашей платформы (номера версий могут измениться с момента написания этой книги, но вы сможете с этим разобраться).

• Для того чтобы загрузить версию для Mac, нажмите ссылку Anaconda3-2.0.0-MacOSX-x86_64.pkg. После загрузки щелкните на файле два раза и сделайте обычные шаги установки ПО для Mac. Все содержимое будет установлено в папку anaconda, расположенную в вашем домашнем каталоге.

• Для Windows выберите 32- или 64-битную версию. После загрузки дважды щелкните на файле с расширением. exe.

• Для Linux выберите 32- или 64-битную версию. После загрузки запустите его (это большой сце