Домашнее задание №5
Contents
Домашнее задание №5#
Warning
Это домашнее задание требуется оформить в виде блокнота jupyter
. Хостом может выступать как ваш ноутбук, так и удаленный сервер (в том числе и google colab).
Все данные располагаются в папке.
Звёзды#
В таблице stars.csv содержится информация о 240 звёзд.
Temperature (K)
— температура в Кельвинах;Luminosity(L/Lo)
— cветимость звезды относительно солнечной светимости \(L_\odot = 3.828 \times 10^{26}\) Вт;Radius(R/Ro)
— радиус звезды по отношению к радиусу солнца \(R_\odot = 6.9551 \times 10^8\) м;Absolute magnitude(Mv)
— абсолютная звёздная величина;Star color
— цвет звезды;Star type
— тип звезды, число от 0 до 5, где0 — Red Dwarf,
1 — Brown Dwarf,
2 — White Dwarf,
3 — Main Sequence,
4 — Super Giants,
5 — Hyper Giants;
Spectral Class
— спектральный класс звезды (один изO
,B
,A
,F
,G
,K
иM
).
Задание:
обработать значения в столбце с цветом: привести значения в этом столбце к общему виду (в частности, значения ‘Blue white’, ‘Blue White’ и ‘Blue-white` должны совпадать;
добавить столбец, в котором тип звезды указан полной строкой, а не числом;
для столбца со спектральным классом, наоборот, добавить столбец с числами, в следующем соответствии:
O
\(\to\) 0,B
\(\to\) 1,A
\(\to\) 2,F
\(\to\) 3,G
\(\to\) 4,K
\(\to\) 5,M
\(\to\) 6;
посчитать количество звезд каждого цвета, каждого типа и каждого спектрального класса;
среди звезд каждого типа найти минимальные, средние и максимальные значения абсолютной звездной величины;
среди звезд каждого класса найти минимальные, средние и максимальные значения температуры;
вычислить попарные корреляции между всеми числовыми столбцами;
Солнечные пятна#
В таблице sunspot.csv содержит данные о наблюдениях солнечных пятен с 1818 года.
year
— год наблюдения;month
— месяц наблюдения;day
— день наблюдения;Number of spots
— суммарное количество солнечных пятен, замеченных в этот день. В столбце приводится среднее значение, если есть данные о наблюдениях от разных обсерваторий. Если данных за этот день нет, то в столбце ставится значение-1
;Standard Deviation
— среднеквадратическое отклонение наблюдений с разных станций; Если данных за этот день нет, то в столбце ставится значение-1
;Observations
— количество станций, доложивших наблюдения за этот день;
Задание:
Скомбинировать первые три столбца в столбец с полной датой типа
datetime
;Заменить все
-1
, соответствующие отсутствующим значениям, наnp.nan
(или сделать это ещё на этапе чтения таблицы);Для каждого года вычислить суммарное количество следующих величин:
количество дней, за которое присутствуют данные;
суммарное количество пятен;
Построить графики этих величин;
На основе данных только за 21 век вычислить среднее количество пятен в месяц и построить столбчатую диаграмму (barplot, barchart).
Баскетболисты NBA#
В таблице NBA.csv находятся физиологические данные 4550 баскетболистов NBA, собранные в период с 1947 по 2017.
Player Full Name
— имя баскетболиста;Birth Date
— дата рождения;Year Start
— год начала карьеры;Year End
— год завершения карьеры;Position
— позиция игрока:F
— нападающий;G
— защитник;C
— центровой;G-F
— на протяжении карьеры выступал и на позиции защитника и на позиции нападающего;F-C
— на протяжении карьеры выступал и на позиции нападающего и на позиции центрового;
Height
— рост в сантиметрах;Wingspan
— размах рук в сантиметрах;Weight
— вес в фунтах (0.45359237 кг);
Задание:
перевести вес в килограммы;
найти самого высокого и самого низкого игрока;
найти самого легкого и тяжелого игрока;
найти игроков с самым маленьким и самым большим размахом рук;
найти корреляции между столбцами с ростом, весом и размахом рук; построить диаграмму рассеяния (scatter plot) для этих показателей (опционально, если знакомы с линейной регрессией и инструментами для её вычисления в
python
, можно добавить график линейной регрессии);добавить столбец с продолжительностью карьеры;
добавить столбец с индексом массы тела;
исследовать, как зависят средняя продолжительность карьеры, средний рост, средний вес и средний размах рук в зависимости от позиции (построить графики);
исследовать, как меняются те же самые показатели с течением времени (построить графики);