{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# Обзор базовых возможностей pandas\n", "\n", "Продемонстрируем возможности `pandas` на реальных данных. Возьмём для этих целей данные о коронавирусе от университета Джонса Хопкинса и от Яндекса. \n", "\n", "- Университет Джонса Хопкинса собирает данные по коронавирусу и хранит их в открытом доступе в [репозитории](https://github.com/CSSEGISandData/COVID-19). Среди прочего, в них содержится информация о количестве [заболевших](https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv), [погибших](https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_deaths_global.csv) и [выздоровевших](https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_recovered_global.csv). Данные хранятся не в типичном для `pandas` формате: информация за одни день хранится в столбце, а не в строках, т.е. не в соответствии с форматом панельных данных. Чтобы не усложнять изложение, я составил [скрипт](https://drive.google.com/file/d/1a2Tj2bTzblhgVo-qb0UxuAzkrzTSwOaJ/view?usp=sharing), который скачивает таблицы из репозитория, извлекает из них информацию только по России и сохраняет их в панельном формате. Результат работы этого скрипта от 25.11.2021 хранится по [ссылке](https://drive.google.com/file/d/1a2Tj2bTzblhgVo-qb0UxuAzkrzTSwOaJ/view?usp=sharing).\n", "- Яндекс агрегирует информацию о коронавирусе по всей россии и предоставляет возможность скачать их данные. К сожалению, чтобы получить эти данные, нужно проделать куда больше шагов, чем в примере выше (с инструкцией можно ознакомится [здесь](https://datalens.yandex/7o7is1q6ikh23?tab=ov3&utm_source=cbsecondwave)). Загруженные от 25.11.2021 данные хранятся [здесь](https://drive.google.com/file/d/1Xw-jyEh5TOAvy5L1iT0Cs68ybP8BaEJb/view?usp=sharing).\n", "\n", "\n", "Чтобы автоматизировать сборку этих материалов и сделать её по возможности устойчивой к отсутствию интернета, в скрытой ячейке ниже находится код, который скачивает упомянутые таблицы с GoogleDrive, если они отсутствуют. Хотя стоит упомянуть, что `pandas` может считывать данные по `url`. " ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "collapsed": true, "tags": [ "hide-cell" ] }, "outputs": [], "source": [ "from itertools import count\n", "import os\n", "import wget\n", "\n", "folder = \"data\"\n", "os.makedirs(folder, exist_ok=True)\n", "\n", "base_url = \"https://docs.google.com/uc?export=download&id={}\"\n", "to_download = [\n", " {\n", " \"file_id\": \"1ds0Qw-5dTxYvNEWxt1neN4Y9fut8Pnx3\",\n", " \"filename\": \"CSSE_Russia.csv\",\n", " },\n", " {\n", " \"file_id\": \"1Xw-jyEh5TOAvy5L1iT0Cs68ybP8BaEJb\",\n", " \"filename\": \"yandex_data.csv\", \n", " }\n", "]\n", "\n", "\n", "for file in to_download:\n", " path = os.path.join(folder, file[\"filename\"])\n", " if not os.path.isfile(path):\n", " download_url = base_url.format(file[\"file_id\"])\n", " wget.download(download_url, out=path)\n", "\n", "\n", "plotly_save_to = os.path.join(\"..\", \"_static\", \"plotly\")\n", "os.makedirs(plotly_save_to, exist_ok=True)\n", "plotly_tmp = os.path.join(plotly_save_to, \"tmp.html\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Данные о коронавирусе от университета Джонса Хопкинса\n", "\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "Первые 5 строк файла выглядят так.\n", "```\n", "Date,recovered,deaths,confirmed\n", "2020-01-22,0,0,0\n", "2020-01-23,0,0,0\n", "2020-01-24,0,0,0\n", "2020-01-25,0,0,0\n", "2020-01-26,0,0,0\n", "```\n", "\n", "Видим, что столбец `Date` хранит даты в стандартном для `pandas` формате `YYYY-MM-DD`. Считываем таблицу, указав в качестве индекса этот столбец, не забывая указать `pandas`, что в нем хранятся даты. С помощью метода [info](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html) печатаем информацию о таблице." ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "DatetimeIndex: 672 entries, 2020-01-22 to 2021-11-23\n", "Data columns (total 3 columns):\n", " # Column Non-Null Count Dtype\n", "--- ------ -------------- -----\n", " 0 recovered 672 non-null int64\n", " 1 deaths 672 non-null int64\n", " 2 confirmed 672 non-null int64\n", "dtypes: int64(3)\n", "memory usage: 21.0 KB\n" ] } ], "source": [ "import pandas as pd\n", "import numpy as np\n", "import os\n", "\n", "\n", "folder = \"covid19\"\n", "filename = \"CSSE_Russia.csv\"\n", "path = os.path.join(folder, filename)\n", "\n", "\n", "df = pd.read_csv(path, index_col=\"Date\", parse_dates=[\"Date\"])\n", "df.info()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Расшифруем полученный вывод. \n", "\n", "Первая строка сообщает, что индексом таблицы является DatetimeIndex в диапазоне от 22 января 2020 гола до 23 ноября 2021 года (формат (YYYY-MM-DD)). Из первых двух строчек можно понять, что в таблице 3 столбца (+ как бы столбец индекса) и 672 строки. \n", "\n", "Далее идет информация о каждом столбце таблицы.\n", "- `recovered` --- суммарное количество зарегистрированных выздоровевших от `covid19` пациентов;\n", "- `deaths` --- суммарное количество зарегистрированных смертей от `covid19`;\n", "- `confirmed` --- суммарное количество зарегистрированных заболевших `covid19`.\n", "Под суммарным количество здесь имеется ввиду то, что на каждую дату в таблице приводятся данные о, например, количестве зарегистрированных больных не только за текущий день, но и за все предшествующие. \n", "\n", "Кроме того, из вывода команды `info` можно понять, что во всех столбцах отсутствуют пропущенные значения `NA` (672 `non-null` в 672 строках). Тем не менее это ещё не значит, что в таблице присутствуют данные за все дни в указанном диапазоне. Проверим это пользуясь тем, что можно высчитывать временной интервал между двумя объектами `datetime` оператором `-`. " ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "671\n" ] } ], "source": [ "date_range = df.index.max() - df.index.min()\n", "print(date_range.days)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Видим, что между 22.01.2020 и 23.11.2021 прошел 671 день, т.е. данные представлены за все дни из этого диапазона, если предположить, что нет двух строк с одной и той же датой. Проявим максимальную осторожность и проверим, что в таблице присутствуют строки для каждого дня в указанном диапазоне. Для этого создадим даты в указанном диапазоне с частотой в день функцией [pd.date_range](https://pandas.pydata.org/docs/reference/api/pandas.date_range.html) и посмотрим разницу с индексом таблицы." ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Созданный диапазон: DatetimeIndex(['2020-01-22', '2020-01-23', '2020-01-24', '2020-01-25',\n", " '2020-01-26', '2020-01-27', '2020-01-28', '2020-01-29',\n", " '2020-01-30', '2020-01-31',\n", " ...\n", " '2021-11-14', '2021-11-15', '2021-11-16', '2021-11-17',\n", " '2021-11-18', '2021-11-19', '2021-11-20', '2021-11-21',\n", " '2021-11-22', '2021-11-23'],\n", " dtype='datetime64[ns]', length=672, freq='D')\n", "Разница с индексом таблицы: DatetimeIndex([], dtype='datetime64[ns]', freq='D')\n" ] }, { "name": "stderr", "output_type": "stream", "text": [ "c:\\Users\\qujim\\Desktop\\python_lectures\\venv\\lib\\site-packages\\IPython\\core\\interactiveshell.py:3369: UserWarning: Parsing '22.01.2020' in DD/MM/YYYY format. Provide format or specify infer_datetime_format=True for consistent parsing.\n", " exec(code_obj, self.user_global_ns, self.user_ns)\n", "c:\\Users\\qujim\\Desktop\\python_lectures\\venv\\lib\\site-packages\\IPython\\core\\interactiveshell.py:3369: UserWarning: Parsing '23.11.2021' in DD/MM/YYYY format. Provide format or specify infer_datetime_format=True for consistent parsing.\n", " exec(code_obj, self.user_global_ns, self.user_ns)\n" ] } ], "source": [ "date_range = pd.date_range(start=\"22.01.2020\", end=\"23.11.2021\", freq=\"D\")\n", "print(f\"Созданный диапазон: {date_range}\")\n", "difference = date_range.difference(df.index)\n", "print(f\"Разница с индексом таблицы: {difference}\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Из последней строки вывода видно, что есть данные за каждый день. \n", "\n", "Распечатаем таблицу." ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
recovereddeathsconfirmed
Date
2020-01-22000
2020-01-23000
2020-01-24000
2020-01-25000
2020-01-26000
............
2021-11-1902566699099253
2021-11-2002578919135149
2021-11-2102591079170898
2021-11-2202603199205431
2021-11-2302615269238330
\n", "

672 rows × 3 columns

\n", "
" ], "text/plain": [ " recovered deaths confirmed\n", "Date \n", "2020-01-22 0 0 0\n", "2020-01-23 0 0 0\n", "2020-01-24 0 0 0\n", "2020-01-25 0 0 0\n", "2020-01-26 0 0 0\n", "... ... ... ...\n", "2021-11-19 0 256669 9099253\n", "2021-11-20 0 257891 9135149\n", "2021-11-21 0 259107 9170898\n", "2021-11-22 0 260319 9205431\n", "2021-11-23 0 261526 9238330\n", "\n", "[672 rows x 3 columns]" ] }, "execution_count": 5, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Вначале идут нули по всем строкам, что объясняется видимо тем, что\n", "> Первый официально подтверждённый случай заболевания коронавирусной инфекцией COVID-19 в стационарных учреждениях социальной защиты был зарегистрирован 11 апреля 2020 года. [wikipedia](https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%BE%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5_COVID-19_%D0%B2_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B8). \n", "\n", "Так же в столбце по выздоровевшим наблюдаются только нули, что не соответствует действительности, т.е. судя по всему в таблице все же есть отсутствующие значения, которые заполнены нулями, а не `np.nan`. Визуализируем данные, чтобы а) легче их воспринимать; б) посмотреть на них целиком. Воспользуемся для этого библиотекой `plotly`, т.к. мы ещё не знаем, что мы ищем и интерактивность может пригодиться. \n", "\n" ] }, { "cell_type": "code", "execution_count": 7, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "
\n", "
\n", "\n", "" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "import plotly.express as px\n", "from IPython.display import display, HTML\n", "\n", "fig = px.line(df)\n", "fig.write_html(plotly_tmp) # fig.show()\n", "display(HTML(plotly_tmp)) " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Из построенного графика можно сделать вывод о том, что данные начали поступать с 12 февраля (несмотря на утверждении в википедии), а начиная с 5 августа 2021 года данные о выздоровевших перестали обновляться. \n", "\n", "В данном случае разумно отбросить нулевые строки и заменить пропущенные данные на `np.nan`." ] }, { "cell_type": "code", "execution_count": 82, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "
\n", "
\n", "\n", "" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df = df.loc[np.any(df != 0, axis=1)].copy()\n", "df.loc[\"2021-08-05\":, \"recovered\"] = np.nan\n", "\n", "fig = px.line(df)\n", "fig.write_html(plotly_tmp) # fig.show()\n", "display(HTML(plotly_tmp)) " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Более или менее понятно, что приблизительно должно выполнятся равенство $\\text{confirmed} = \\text{recovered} + \\text{deaths}$, т.к. большинство заболевших в итоге выздоравливают или нет. Посмотрим растёт ли невязка этого равенства со временем." ] }, { "cell_type": "code", "execution_count": 83, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "
\n", "
\n", "\n", "" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "residual = df.confirmed - df.deaths - df.recovered\n", "residual.name = \"confirmed - deaths - recovered\"\n", "\n", "fig = px.line(residual)\n", "fig.write_html(plotly_tmp) # fig.show()\n", "display(HTML(plotly_tmp)) " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "У этого графика наблюдается тенденция роста со временем, что наталкивает на мысль, что\n", "- формула не верна;\n", "- данные собираются не самым точном образом; \n", "- растет средняя продолжительность болезни. \n", "\n", "Чтобы оценить динамику, удобно также посмотреть на суточные показатели. Суточный прирост --- разница между показателем за выбранный день и за предыдущий день. Чтобы его вычислить, надо посчитать нечто похожее на `x[:-1] - x[1:]`. Для таких вычислений есть встроенный метод [DataFrame.diff](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.diff.html) (аналогичный метод есть и у `pd.Series`)." ] }, { "cell_type": "code", "execution_count": 84, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "
\n", "
\n", "\n", "" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "daily_df = df.diff()\n", "\n", "fig = px.line(daily_df)\n", "fig.write_html(plotly_tmp) # fig.show()\n", "display(HTML(plotly_tmp)) " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Из этих данных можно попробовать оценить среднюю продолжительность болезни с помощью [взаимнокорреляционной функции](https://ru.wikipedia.org/wiki/%D0%92%D0%B7%D0%B0%D0%B8%D0%BC%D0%BD%D0%BE%D0%BA%D0%BE%D1%80%D1%80%D0%B5%D0%BB%D1%8F%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%B0%D1%8F_%D1%84%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D1%8F): за среднюю продолжительность болезни возьмём такое смещение графика `confirmed` вправо, что он максимально коррелирует с сумой остальных двух. Для этого посчитаем взаимокорреляционную функцию $f \\star g$ величин $f = \\text{confirmed}$ и $g = \\text{recovered} + \\text{deaths}$ и возьмём в качестве смещения \n", "\n", "$$\n", "i^* = \\text{argmax}_{i} (f \\star g).\n", "$$\n", "\n", "Взаимокореляционную функцию (cross corelation) можно вычислить с помощью метода [signal.correlate](https://docs.scipy.org/doc/scipy/reference/reference/generated/scipy.signal.correlate.html#scipy.signal.correlate) из библиотеки `SciPy`.\n", "\n", "\n", "
\n", "Разница между режимами работы signal.correlate\n", "\n", "Если `mode='valid'`, то функция считает корреляцию для всех таких положений `g`, при которых `f` не надо дополнять нулями по краям. \n", "\n", "```{figure} /_static/lecture_specific/pandas/correlate_valid.svg\n", "```\n", "\n", "Если `mode='valid'`, то функция считает корреляцию для всех положений `g`, при которых `f` хотя бы одним элементом накладывается на `g`. \n", "\n", "```{figure} /_static/lecture_specific/pandas/correlate_full.svg\n", "```\n", "\n", "Если длины `f` и `g` равны 5 и 3 соответственно, то результирующий массив в режиме `valid` выходит размера 3, а в режиме `full` --- 5. \n", "\n", "
" ] }, { "cell_type": "code", "execution_count": 85, "metadata": { "tags": [ "hide-cell" ] }, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "import numpy as np\n", "from scipy import signal\n", "import matplotlib.pyplot as plt\n", "plt.rcParams.update({'font.size': 22})\n", "\n", "n = 100\n", "sigma = 0.05\n", "\n", "def triangle(center, width, height):\n", " half_width = width / 2\n", " k = height / half_width\n", " \n", " def left_side(x):\n", " root = center - half_width\n", " return k * (x - root) \n", " \n", " def right_side(x):\n", " root = center + half_width\n", " return -k * (x - root)\n", " \n", " \n", " x = np.arange(n)\n", " y = left_side(x) * (x < center) + right_side(x) * (x >= center)\n", " return y * (y >= 0)\n", "\n", "\n", "x = np.arange(n)\n", "f = triangle(40, 30, 1) \n", "g = triangle(30, 30, 0.9)\n", "\n", "noisy_f = f + np.random.normal(0, sigma, size=(n, ))\n", "noisy_g = g + np.random.normal(0, sigma, size=(n, ))\n", "\n", "corr = signal.correlate(noisy_f, noisy_g, mode=\"full\")\n", "shift = n - np.argmax(corr) - 1\n", "\n", "\n", "fig, axs = plt.subplots(nrows=4, ncols=1, figsize=(10, 12)) \n", "axs[0].plot(x, f, label=\"f\")\n", "axs[0].plot(x, g, label=\"g\")\n", "axs[0].legend()\n", "axs[1].plot(x, noisy_f, label=\"f\")\n", "axs[1].plot(x, noisy_g, label=\"g\")\n", "axs[1].legend()\n", "axs[2].plot(corr, label=\"f*g\")\n", "axs[2].legend()\n", "axs[3].plot(x + shift, noisy_f, label=\"f\")\n", "axs[3].plot(x, noisy_g, label=\"g\")\n", "axs[3].legend()\n", "plt.show(fig)" ] }, { "cell_type": "code", "execution_count": 86, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Найденный сдвиг: 5\n" ] }, { "data": { "text/html": [ "\n", "\n", "\n", "
\n", "
\n", "\n", "" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "from scipy import signal\n", "from plotly.subplots import make_subplots\n", "import plotly.graph_objects as go\n", "\n", "tmp = daily_df.dropna().copy()\n", "\n", "f = tmp.confirmed\n", "g = tmp.recovered + tmp.deaths\n", "f = (f - f.mean()) / f.std()\n", "g = (g - g.mean()) / g.std()\n", "\n", "\n", "n = len(tmp)\n", "\n", "cross_correlation = signal.correlate(f, g, mode=\"full\")\n", "shift = n - np.argmax(cross_correlation) - 1\n", "print(f\"Найденный сдвиг: {shift}\")\n", "\n", "tmp[\"confirmed shifted on 5\"] = tmp.confirmed.shift(shift)\n", "tmp[\"confirmed shifted on 12\"] = tmp.confirmed.shift(12)\n", "tmp[\"recovered + deaths\"] = tmp.recovered + tmp.deaths\n", "\n", "\n", "target_go = go.Scatter(x=tmp.index, y=tmp[\"recovered + deaths\"], name=\"recovered + deaths\") \n", "correlation_go = go.Scatter(\n", " x=n - np.arange(2 * n - 1) - 1,\n", " y=cross_correlation, \n", " name=\"cross correlation\"\n", " )\n", "fig = make_subplots(rows=2)\n", "# top\n", "fig.append_trace(correlation_go, row=1, col=1)\n", "# bottom\n", "fig.append_trace(target_go, row=2, col=1)\n", "fig.add_trace(\n", " go.Scatter(x=tmp.index, y=tmp[\"confirmed shifted on 5\"], name=\"shift=5\"),\n", " row=2, col=1\n", " )\n", "fig.add_trace(\n", " go.Scatter(x=tmp.index, y=tmp[\"confirmed shifted on 12\"], name=\"shift=12\"), \n", " row=2, col=1\n", " )\n", "\n", "fig.update_layout(\n", " autosize=True,\n", " # width=1000,\n", " height=700,\n", " margin=dict(\n", " l=0,\n", " r=0,\n", " b=0,\n", " t=30,\n", " pad=4\n", " )\n", ")\n", "path = os.path.join(plotly_save_to, \"covid19.html\")\n", "fig.write_html(path) # fig.show()\n", "display(HTML(path))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ " График в отдельном окне.\n", "\n", "\n", "Оба графика довольно сильно осциллируют. Применим метод скользящего среднего по неделе, чтобы избавиться от наблюдаемого \"шума\". Для этого воспользуемся методом [pd.DataFrame.rolling](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rolling.html), который предназначен для вычислений с скользящим окном. " ] }, { "cell_type": "code", "execution_count": 89, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "
\n", "
\n", "\n", "" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "smoothed_daily_df = daily_df.rolling(7).mean()\n", "\n", "fig = px.line(smoothed_daily_df)\n", "fig.write_html(plotly_tmp) # fig.show()\n", "display(HTML(plotly_tmp)) " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## Данные о коронавирусе в России от яндекса \n", "\n", "Первый 5 строк файла выглядят так.\n", "```\n", "\"Дата\",\"Регион\",\"Заражений\",\"Выздоровлений\",\"Смертей\",\"Смертей за день\",\"Заражений за день\",\"Выздоровлений за день\"\n", "20.09.2020,Томская обл.,6775,5554,79,1,62,92\n", "26.09.2020,Костромская обл.,4553,3329,67,5,54,44\n", "02.09.2021,Ямало-Ненецкий АО,47772,45810,625,4,102,121\n", "15.12.2020,Сахалинская обл.,13406,10292,11,0,142,366\n", "```\n", "\n", "\n", "Видно, что в столбце \"Дата\" хранятся даты в формате `DD.MM.YYYY`, который не является стандартным для `pandas`. Чтобы корректно прочитать эти данные, определим функцию, которая преобразует строку с датой в формате `DD.MM.YYYY` в `datetime` объект и при чтении файла передадим эту функцию в качестве парсера дат." ] }, { "cell_type": "code", "execution_count": 51, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "DatetimeIndex: 52938 entries, 2020-09-20 to 2021-04-20\n", "Data columns (total 7 columns):\n", " # Column Non-Null Count Dtype \n", "--- ------ -------------- ----- \n", " 0 Регион 52938 non-null object\n", " 1 Заражений 52938 non-null int64 \n", " 2 Выздоровлений 52938 non-null int64 \n", " 3 Смертей 52938 non-null int64 \n", " 4 Смертей за день 52938 non-null int64 \n", " 5 Заражений за день 52938 non-null int64 \n", " 6 Выздоровлений за день 52938 non-null int64 \n", "dtypes: int64(6), object(1)\n", "memory usage: 3.2+ MB\n" ] } ], "source": [ "import os\n", "import pandas as pd\n", "from datetime import datetime\n", "\n", "def date_parser(x):\n", " return datetime.strptime(x, r\"%d.%m.%Y\")\n", "\n", "folder = \"covid19\"\n", "filename = \"yandex_data.csv\"\n", "path = os.path.join(\"covid19\", \"yandex_data.csv\")\n", "\n", "df = pd.read_csv(path, parse_dates=[\"Дата\"], index_col=\"Дата\", date_parser=date_parser)\n", "df.info()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Что мы видим:\n", "- 53938 строк; \n", "- 7 полностью заполненных столбцов;\n", "- даты от 20 сентября 2021 года до 20 апреля 2021 года в качестве индекса;\n", "\n", "Посмотрим первые 5 строк таблицы." ] }, { "cell_type": "code", "execution_count": 52, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
РегионЗараженийВыздоровленийСмертейСмертей за деньЗаражений за деньВыздоровлений за день
Дата
2020-09-20Томская обл.677555547916292
2020-09-26Костромская обл.455333296755444
2021-09-02Ямало-Ненецкий АО47772458106254102121
2020-12-15Сахалинская обл.1340610292110142366
2020-09-21Волгоградская обл.141581237613109513
\n", "
" ], "text/plain": [ " Регион Заражений Выздоровлений Смертей \\\n", "Дата \n", "2020-09-20 Томская обл. 6775 5554 79 \n", "2020-09-26 Костромская обл. 4553 3329 67 \n", "2021-09-02 Ямало-Ненецкий АО 47772 45810 625 \n", "2020-12-15 Сахалинская обл. 13406 10292 11 \n", "2020-09-21 Волгоградская обл. 14158 12376 131 \n", "\n", " Смертей за день Заражений за день Выздоровлений за день \n", "Дата \n", "2020-09-20 1 62 92 \n", "2020-09-26 5 54 44 \n", "2021-09-02 4 102 121 \n", "2020-12-15 0 142 366 \n", "2020-09-21 0 95 13 " ] }, "execution_count": 52, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Можно заметить, что таблица не упорядоченна по индексу. Отсортируем её, для нашего удобства. " ] }, { "cell_type": "code", "execution_count": 53, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
РегионЗараженийВыздоровленийСмертейСмертей за деньЗаражений за деньВыздоровлений за день
Дата
2020-03-12Сахалинская обл.000000
2020-03-12Северная Осетия000000
2020-03-12Камчатский край000000
2020-03-12Липецкая обл.300030
2020-03-12Крым000000
\n", "
" ], "text/plain": [ " Регион Заражений Выздоровлений Смертей \\\n", "Дата \n", "2020-03-12 Сахалинская обл. 0 0 0 \n", "2020-03-12 Северная Осетия 0 0 0 \n", "2020-03-12 Камчатский край 0 0 0 \n", "2020-03-12 Липецкая обл. 3 0 0 \n", "2020-03-12 Крым 0 0 0 \n", "\n", " Смертей за день Заражений за день Выздоровлений за день \n", "Дата \n", "2020-03-12 0 0 0 \n", "2020-03-12 0 0 0 \n", "2020-03-12 0 0 0 \n", "2020-03-12 0 3 0 \n", "2020-03-12 0 0 0 " ] }, "execution_count": 53, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.sort_index(inplace=True)\n", "df.head()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Кстати, можно заметить, что в начало попали строки от 4 января 2020 года, что гораздо раньше диапазона дат, полученного в команде `df.info`. " ] }, { "cell_type": "code", "execution_count": 57, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "DatetimeIndex: 52938 entries, 2020-03-12 to 2021-11-24\n", "Data columns (total 7 columns):\n", " # Column Non-Null Count Dtype \n", "--- ------ -------------- ----- \n", " 0 Регион 52938 non-null object\n", " 1 Заражений 52938 non-null int64 \n", " 2 Выздоровлений 52938 non-null int64 \n", " 3 Смертей 52938 non-null int64 \n", " 4 Смертей за день 52938 non-null int64 \n", " 5 Заражений за день 52938 non-null int64 \n", " 6 Выздоровлений за день 52938 non-null int64 \n", "dtypes: int64(6), object(1)\n", "memory usage: 3.2+ MB\n" ] }, { "data": { "text/html": [ "\n", "\n", "\n", "
\n", "
\n", "\n", "" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "df.info()\n", "\n", "fig = px.line(df, y=[\"Заражений за день\"], color=\"Регион\", title=\"Заражений за день\")\n", "fig.write_html(plotly_tmp) # fig.show()\n", "display(HTML(plotly_tmp)) " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Т.е. в таблице данные представлены от 4 января 2020 года до 24 ноября 2021 года. \n", "\n", "Т.к. `python` работает с `unicode`, то можно оставить имена столбцов и на русском языке, но в целях демонстрации переименуем столбцы на английский язык методом [DataFrame.rename](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html). На вход он принимает словарь, в котором ключи --- старые названия столбцов, значения --- новые. По умолчанию этот метод возвращает копию таблицы с новыми столбцами имен. Изменить это можно параметром `inplace=True`. \n", "\n", "Индекс переименовывается отдельно." ] }, { "cell_type": "code", "execution_count": 59, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
regioncasesrecoveriesdeathsdeaths per daycases per dayrecoveries per day
date
2020-03-12Сахалинская обл.000000
2020-03-12Северная Осетия000000
2020-03-12Камчатский край000000
2020-03-12Липецкая обл.300030
2020-03-12Крым000000
........................
2021-11-24Владимирская обл.705665423324329318131
2021-11-24Курганская обл.43855348478546207122
2021-11-24Волгоградская обл.11511198848436037458381
2021-11-24Красноярский край148381132019728633710695
2021-11-24Еврейская АО10330886232704251
\n", "

52938 rows × 7 columns

\n", "
" ], "text/plain": [ " region cases recoveries deaths deaths per day \\\n", "date \n", "2020-03-12 Сахалинская обл. 0 0 0 0 \n", "2020-03-12 Северная Осетия 0 0 0 0 \n", "2020-03-12 Камчатский край 0 0 0 0 \n", "2020-03-12 Липецкая обл. 3 0 0 0 \n", "2020-03-12 Крым 0 0 0 0 \n", "... ... ... ... ... ... \n", "2021-11-24 Владимирская обл. 70566 54233 2432 9 \n", "2021-11-24 Курганская обл. 43855 34847 854 6 \n", "2021-11-24 Волгоградская обл. 115111 98848 4360 37 \n", "2021-11-24 Красноярский край 148381 132019 7286 33 \n", "2021-11-24 Еврейская АО 10330 8862 327 0 \n", "\n", " cases per day recoveries per day \n", "date \n", "2020-03-12 0 0 \n", "2020-03-12 0 0 \n", "2020-03-12 0 0 \n", "2020-03-12 3 0 \n", "2020-03-12 0 0 \n", "... ... ... \n", "2021-11-24 318 131 \n", "2021-11-24 207 122 \n", "2021-11-24 458 381 \n", "2021-11-24 710 695 \n", "2021-11-24 42 51 \n", "\n", "[52938 rows x 7 columns]" ] }, "execution_count": 59, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.rename({\n", " \"Регион\": \"region\",\n", " \"Заражений\": \"cases\",\n", " \"Выздоровлений\": \"recoveries\",\n", " \"Смертей\": \"deaths\",\n", " \"Смертей за день\": \"deaths per day\",\n", " \"Заражений за день\": \"cases per day\",\n", " \"Выздоровлений за день\": \"recoveries per day\"\n", "}, inplace=True, axis=\"columns\")\n", "df.index.rename(\"date\", inplace=True)\n", "df" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Сравним статистику по регионам. Для этого выберем последней день данных и построим круговую диаграмму заболеваемости по регионам." ] }, { "cell_type": "code", "execution_count": 60, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "
\n", "
\n", "\n", "" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
regioncasesrecoveriesdeathsdeaths per daycases per dayrecoveries per day
date
2021-11-24Ингушетия256472380141438390
2021-11-24Пензенская обл.8954761771409719391291
2021-11-24Вологодская обл.8777877468249916397417
2021-11-24Московская обл.577907509872101165618422180
2021-11-24Ленинградская обл.8812468927274710425435
........................
2021-11-24Владимирская обл.705665423324329318131
2021-11-24Курганская обл.43855348478546207122
2021-11-24Волгоградская обл.11511198848436037458381
2021-11-24Красноярский край148381132019728633710695
2021-11-24Еврейская АО10330886232704251
\n", "

85 rows × 7 columns

\n", "
" ], "text/plain": [ " region cases recoveries deaths deaths per day \\\n", "date \n", "2021-11-24 Ингушетия 25647 23801 414 3 \n", "2021-11-24 Пензенская обл. 89547 61771 4097 19 \n", "2021-11-24 Вологодская обл. 87778 77468 2499 16 \n", "2021-11-24 Московская обл. 577907 509872 10116 56 \n", "2021-11-24 Ленинградская обл. 88124 68927 2747 10 \n", "... ... ... ... ... ... \n", "2021-11-24 Владимирская обл. 70566 54233 2432 9 \n", "2021-11-24 Курганская обл. 43855 34847 854 6 \n", "2021-11-24 Волгоградская обл. 115111 98848 4360 37 \n", "2021-11-24 Красноярский край 148381 132019 7286 33 \n", "2021-11-24 Еврейская АО 10330 8862 327 0 \n", "\n", " cases per day recoveries per day \n", "date \n", "2021-11-24 83 90 \n", "2021-11-24 391 291 \n", "2021-11-24 397 417 \n", "2021-11-24 1842 2180 \n", "2021-11-24 425 435 \n", "... ... ... \n", "2021-11-24 318 131 \n", "2021-11-24 207 122 \n", "2021-11-24 458 381 \n", "2021-11-24 710 695 \n", "2021-11-24 42 51 \n", "\n", "[85 rows x 7 columns]" ] }, "execution_count": 60, "metadata": {}, "output_type": "execute_result" } ], "source": [ "last_day = df.index.max()\n", "last_day_df = df.loc[last_day]\n", "\n", "fig = px.pie(last_day_df, values=\"cases\", names='region')\n", "fig.update_traces(textposition=\"inside\")\n", "fig.write_html(plotly_tmp) # fig.show()\n", "display(HTML(plotly_tmp)) \n", "\n", "last_day_df" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Диаграмма получилась очень загроможденной. Продемонстрируем работу метода [pd.unique](https://pandas.pydata.org/docs/reference/api/pandas.unique.html) и посчитаем количество регионов, которые встречаются в таблице." ] }, { "cell_type": "code", "execution_count": 39, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "85 регионов, среди которых\n", "['Адыгея' 'Алтай' 'Алтайский край' 'Амурская обл.' 'Архангельская обл.'\n", " 'Астраханская обл.' 'Башкортостан' 'Белгородская обл.' 'Брянская обл.'\n", " 'Бурятия' 'Владимирская обл.' 'Волгоградская обл.' 'Вологодская обл.'\n", " 'Воронежская обл.' 'Дагестан' 'Еврейская АО' 'Забайкальский край'\n", " 'Ивановская обл.' 'Ингушетия' 'Иркутская обл.' 'Кабардино-Балкария'\n", " 'Калининградская обл.' 'Калмыкия' 'Калужская обл.' 'Камчатский край'\n", " 'Карачаево-Черкессия' 'Карелия' 'Кемеровская обл.' 'Кировская обл.'\n", " 'Коми' 'Костромская обл.' 'Краснодарский край' 'Красноярский край' 'Крым'\n", " 'Курганская обл.' 'Курская обл.' 'Ленинградская обл.' 'Липецкая обл.'\n", " 'Магаданская обл.' 'Марий Эл' 'Мордовия' 'Москва' 'Московская обл.'\n", " 'Мурманская обл.' 'Ненецкий АО' 'Нижегородская обл.' 'Новгородская обл.'\n", " 'Новосибирская обл.' 'Омская обл.' 'Оренбургская обл.' 'Орловская обл.'\n", " 'Пензенская обл.' 'Пермский край' 'Приморский край' 'Псковская обл.'\n", " 'Ростовская обл.' 'Рязанская обл.' 'Самарская обл.' 'Санкт-Петербург'\n", " 'Саратовская обл.' 'Саха (Якутия)' 'Сахалинская обл.' 'Свердловская обл.'\n", " 'Севастополь' 'Северная Осетия' 'Смоленская обл.' 'Ставропольский край'\n", " 'Тамбовская обл.' 'Татарстан' 'Тверская обл.' 'Томская обл.'\n", " 'Тульская обл.' 'Тыва' 'Тюменская обл.' 'Удмуртия' 'Ульяновская обл.'\n", " 'ХМАО – Югра' 'Хабаровский край' 'Хакасия' 'Челябинская обл.' 'Чечня'\n", " 'Чувашия' 'Чукотский АО' 'Ямало-Ненецкий АО' 'Ярославская обл.']\n" ] } ], "source": [ "unique_regions = df[\"region\"].unique()\n", "print(f\"{len(unique_regions)} регионов, среди которых\")\n", "print(np.sort(unique_regions))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "В таблице присутствуют данные по всем 85 регионам РФ.\n", "\n", "> 85 субъектов Федерации: 22 республики, 9 краев, 46 областей, 3 города федерального значения, 1 автономная область, 4 автономных округа.\n", "\n", "Для простоты изложения выберем 3 региона, с наибольшим количеством заболевших за весь период времени, и 2 региона с наименьшим количеством заболевших. \n", "\n", "Сначала найдем такие регионы. Для этого воспользуемся методами [DataFrame.nlargest](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.nlargest.html) и [DataFrame.nsmallest](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.nsmallest.html#pandas.DataFrame.nsmallest), которые позволяют отобрать `n` строк таблицы с наибольшими значениями в нужном столбце (или в столбцах). В таблице `last_day_df` в столбце `cases` как раз хранятся нужные нам значения по регионам. Применив эти два метода к этой таблице, получаем таблицу из нужных нам строк. Нам нужны только регионы, то извлекаем из этой таблицы столбец `region`. \n", "\n", "Объединить два полученных столбца в один можно методом [pd.concat](https://pandas.pydata.org/docs/reference/api/pandas.concat.html). Т.к. столбцы необходимо совместить \"друг под другом\", то в `axis` указываем `index`. Индекс этих столбцов берется из таблицы исходной таблицы `last_day_df`, т.е. это индекс с одной и той же датой. Не учитывать такой индекс при объедении можно указав параметр `ignore_index=True`. " ] }, { "cell_type": "code", "execution_count": 46, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0 Москва\n", "1 Санкт-Петербург\n", "2 Московская обл.\n", "3 Чукотский АО\n", "4 Ненецкий АО\n", "Name: region, dtype: object\n" ] }, { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
regioncasesrecoveriesdeathsdeaths per daycases per dayrecoveries per day
date
2020-03-12Москва21000210
2020-03-12Московская обл.400040
2020-03-12Санкт-Петербург100010
2020-03-13Московская обл.500010
2020-03-13Санкт-Петербург400030
........................
2021-11-24Московская обл.577907509872101165618422180
2021-11-24Чукотский АО279324062401015
2021-11-24Москва19267011745284336359325335393
2021-11-24Санкт-Петербург775795709724258027313873147
2021-11-24Ненецкий АО31452865720839
\n", "

3105 rows × 7 columns

\n", "
" ], "text/plain": [ " region cases recoveries deaths deaths per day \\\n", "date \n", "2020-03-12 Москва 21 0 0 0 \n", "2020-03-12 Московская обл. 4 0 0 0 \n", "2020-03-12 Санкт-Петербург 1 0 0 0 \n", "2020-03-13 Московская обл. 5 0 0 0 \n", "2020-03-13 Санкт-Петербург 4 0 0 0 \n", "... ... ... ... ... ... \n", "2021-11-24 Московская обл. 577907 509872 10116 56 \n", "2021-11-24 Чукотский АО 2793 2406 24 0 \n", "2021-11-24 Москва 1926701 1745284 33635 93 \n", "2021-11-24 Санкт-Петербург 775795 709724 25802 73 \n", "2021-11-24 Ненецкий АО 3145 2865 72 0 \n", "\n", " cases per day recoveries per day \n", "date \n", "2020-03-12 21 0 \n", "2020-03-12 4 0 \n", "2020-03-12 1 0 \n", "2020-03-13 1 0 \n", "2020-03-13 3 0 \n", "... ... ... \n", "2021-11-24 1842 2180 \n", "2021-11-24 10 15 \n", "2021-11-24 2533 5393 \n", "2021-11-24 1387 3147 \n", "2021-11-24 8 39 \n", "\n", "[3105 rows x 7 columns]" ] }, "execution_count": 46, "metadata": {}, "output_type": "execute_result" } ], "source": [ "largest_regions = last_day_df.nlargest(3, columns=[\"cases\"])[\"region\"]\n", "smallest_regions = last_day_df.nsmallest(2, columns=[\"cases\"])[\"region\"]\n", "regions = pd.concat([largest_regions, smallest_regions], axis=\"index\", ignore_index=True)\n", "print(regions)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Теперь из исходной таблицы можно отобрать строки с нужными регионами, проверяя значение в столбце `region`, т.е. методом логического отбора. Удобно использовать здесь метод [isin](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isin.html). " ] }, { "cell_type": "code", "execution_count": 63, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
regioncasesrecoveriesdeathsdeaths per daycases per dayrecoveries per day
date
2020-03-12Москва21000210
2020-03-12Московская обл.400040
2020-03-12Санкт-Петербург100010
2020-03-13Московская обл.500010
2020-03-13Санкт-Петербург400030
........................
2021-11-24Московская обл.577907509872101165618422180
2021-11-24Чукотский АО279324062401015
2021-11-24Москва19267011745284336359325335393
2021-11-24Санкт-Петербург775795709724258027313873147
2021-11-24Ненецкий АО31452865720839
\n", "

3105 rows × 7 columns

\n", "
" ], "text/plain": [ " region cases recoveries deaths deaths per day \\\n", "date \n", "2020-03-12 Москва 21 0 0 0 \n", "2020-03-12 Московская обл. 4 0 0 0 \n", "2020-03-12 Санкт-Петербург 1 0 0 0 \n", "2020-03-13 Московская обл. 5 0 0 0 \n", "2020-03-13 Санкт-Петербург 4 0 0 0 \n", "... ... ... ... ... ... \n", "2021-11-24 Московская обл. 577907 509872 10116 56 \n", "2021-11-24 Чукотский АО 2793 2406 24 0 \n", "2021-11-24 Москва 1926701 1745284 33635 93 \n", "2021-11-24 Санкт-Петербург 775795 709724 25802 73 \n", "2021-11-24 Ненецкий АО 3145 2865 72 0 \n", "\n", " cases per day recoveries per day \n", "date \n", "2020-03-12 21 0 \n", "2020-03-12 4 0 \n", "2020-03-12 1 0 \n", "2020-03-13 1 0 \n", "2020-03-13 3 0 \n", "... ... ... \n", "2021-11-24 1842 2180 \n", "2021-11-24 10 15 \n", "2021-11-24 2533 5393 \n", "2021-11-24 1387 3147 \n", "2021-11-24 8 39 \n", "\n", "[3105 rows x 7 columns]" ] }, "execution_count": 63, "metadata": {}, "output_type": "execute_result" } ], "source": [ "\n", "small_df = df[\n", " df[\"region\"].isin(regions)\n", " ].copy()\n", "small_df" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Построим график заражений только для отобранных регионов." ] }, { "cell_type": "code", "execution_count": 62, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "
\n", "
\n", "\n", "" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "fig = px.line(small_df, y=\"cases per day\", color=\"region\")\n", "fig.write_html(plotly_tmp) # fig.show()\n", "display(HTML(plotly_tmp)) " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "На глаз заметны волны. Кроме того, кажется, что эти волны происходят почти синхронно. Вычислим взаимные корреляции этих графиков. Для этого удобно использовать метод [DataFrame.correlate](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html), который вычисляет корреляцию между всеми столбцами таблицы. Создадим таблицу с нужными нам столбцами." ] }, { "cell_type": "code", "execution_count": 67, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
МоскваСанкт-ПетербургМосковская обл.Чукотский АОНенецкий АО
date
2020-03-122114NaNNaN
2020-03-13531NaNNaN
2020-03-14911NaNNaN
2020-03-15003NaNNaN
2020-03-16183-1NaNNaN
..................
2021-11-2032392637188525.016.0
2021-11-2134382496190910.016.0
2021-11-2227862215178411.016.0
2021-11-2327491060187110.014.0
2021-11-2425331387184210.08.0
\n", "

623 rows × 5 columns

\n", "
" ], "text/plain": [ " Москва Санкт-Петербург Московская обл. Чукотский АО \\\n", "date \n", "2020-03-12 21 1 4 NaN \n", "2020-03-13 5 3 1 NaN \n", "2020-03-14 9 1 1 NaN \n", "2020-03-15 0 0 3 NaN \n", "2020-03-16 18 3 -1 NaN \n", "... ... ... ... ... \n", "2021-11-20 3239 2637 1885 25.0 \n", "2021-11-21 3438 2496 1909 10.0 \n", "2021-11-22 2786 2215 1784 11.0 \n", "2021-11-23 2749 1060 1871 10.0 \n", "2021-11-24 2533 1387 1842 10.0 \n", "\n", " Ненецкий АО \n", "date \n", "2020-03-12 NaN \n", "2020-03-13 NaN \n", "2020-03-14 NaN \n", "2020-03-15 NaN \n", "2020-03-16 NaN \n", "... ... \n", "2021-11-20 16.0 \n", "2021-11-21 16.0 \n", "2021-11-22 16.0 \n", "2021-11-23 14.0 \n", "2021-11-24 8.0 \n", "\n", "[623 rows x 5 columns]" ] }, "execution_count": 67, "metadata": {}, "output_type": "execute_result" } ], "source": [ "data = {}\n", "for region in regions:\n", " col = small_df[small_df[\"region\"] == region][\"cases per day\"]\n", " data[region] = col.copy()\n", "\n", "to_correlate = pd.DataFrame(data)\n", "to_correlate" ] }, { "cell_type": "code", "execution_count": 73, "metadata": {}, "outputs": [ { "data": { "text/html": [ "\n", "\n", "\n", "
\n", "
\n", "\n", "" ], "text/plain": [ "" ] }, "metadata": {}, "output_type": "display_data" }, { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
МоскваСанкт-ПетербургМосковская обл.Чукотский АОНенецкий АО
Москва1.0000000.6789630.6918790.3574440.349546
Санкт-Петербург0.6789631.0000000.7242870.5764470.511084
Московская обл.0.6918790.7242871.0000000.6805460.639753
Чукотский АО0.3574440.5764470.6805461.0000000.757208
Ненецкий АО0.3495460.5110840.6397530.7572081.000000
\n", "
" ], "text/plain": [ " Москва Санкт-Петербург Московская обл. Чукотский АО \\\n", "Москва 1.000000 0.678963 0.691879 0.357444 \n", "Санкт-Петербург 0.678963 1.000000 0.724287 0.576447 \n", "Московская обл. 0.691879 0.724287 1.000000 0.680546 \n", "Чукотский АО 0.357444 0.576447 0.680546 1.000000 \n", "Ненецкий АО 0.349546 0.511084 0.639753 0.757208 \n", "\n", " Ненецкий АО \n", "Москва 0.349546 \n", "Санкт-Петербург 0.511084 \n", "Московская обл. 0.639753 \n", "Чукотский АО 0.757208 \n", "Ненецкий АО 1.000000 " ] }, "execution_count": 73, "metadata": {}, "output_type": "execute_result" } ], "source": [ "corr = to_correlate.corr()\n", "\n", "fig = px.imshow(corr, zmin=-1, zmax=1)\n", "fig.write_html(plotly_tmp) # fig.show()\n", "display(HTML(plotly_tmp)) \n", "\n", "corr" ] } ], "metadata": { "celltoolbar": "Tags", "interpreter": { "hash": "cd49b4596bae9c980ff74fdf93e8fe80e447435ae307c062fad6c4f9ef2eb47f" }, "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.10" } }, "nbformat": 4, "nbformat_minor": 2 }