Памятка Pandas по науке о данных на Python

Пакет pandas, скорее всего, будет использоваться, если вы заинтересованы в совместной работе с данными в Python. Однако легко забыть точный синтаксис для выполнения чего-либо даже после изучения pandas – даже на нашем виртуальном курсе pandas. Для вашего удобства мы разработали Pandas Cheat Sheet, в котором перечислены наиболее типичные задания pandas.

Вам не следует полагаться только на это, это важно отметить, прежде чем мы перейдем к шпаргалке. Мы настоятельно рекомендуем пройти наш инклюзивный курс Python, если вы еще не изучали панд. Эта шпаргалка не предназначена для того, чтобы научить вас всему, что нужно знать о пандах; скорее, она поможет вам найти и вспомнить информацию, которую вы уже знаете.

Хотя быстрые, адаптивные и креативные объекты данных Pandas предназначены для значительного упрощения анализа данных в реальном мире, это может быть не так для тех, кто только начинает. Возможности пугают именно потому, что в это программное обеспечение встроено так много возможностей. Эти шпаргалки Pandas могут быть полезны в такой ситуации. Это краткое введение в основы Pandas, которые вам понадобятся, чтобы начать использовать Python для организации данных.

В результате, если вы только начинаете свой путь в науке о данных с Pandas, вы можете использовать его в качестве удобного справочника. В качестве альтернативы, для тех из вас, кто еще не начал, вы можете просто использовать его в качестве руководства для упрощения процесса изучения или даже использования.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Станьте специалистом по обработке данных с помощью практического обучения!Программа магистратуры для специалистов по обработке данныхИзучить программуСтаньте специалистом по обработке данных с помощью практического обучения!

Руководство: шпаргалка по Pandas

Рекомендуется сохранить нашу страницу для дальнейшей помощи.

В этой шпаргалке мы будем использовать перечисленные ниже сокращения:

Каждый объект серии панд|df

Каждый объект DataFrame pandas |s

По мере продвижения вы заметите, что мы организовали связанные команды с помощью подзаголовков, чтобы вы могли быстро найти и найти правильный синтаксис в соответствии с задачей, которую вы пытаетесь выполнить.

Также, короткое напоминание — чтобы использовать описанные здесь команды, вам сначала нужно импортировать необходимые библиотеки следующим образом:

Импорт данных

Получение некоторых данных — это первый шаг в любом типе анализа данных. У вас есть широкий выбор вариантов использования Pandas для добавления данных в вашу рабочую книгу Python:

  • pd.read_csv(имя_файла) # Из CSV-файла
  • pd.read_table(filename) # Из текстового файла с разделителями (например, TSV)
  • pd.read_excel(имя_файла) # Из файла Excel
  • pd.read_sql(query, connection_object) # Читает из таблицы/базы данных SQL
  • pd.read_json(json_string) # Считывает строку в формате JSON, URL или файл.
  • pd.read_html(URL) # Анализирует HTML URL, строку или файл и выводит таблицы в набор фреймов данных
  • pd.read_clipboard() # Берет информацию из буфера обмена и вставляет ее в таблицу read()
  • pd.DataFrame(dict) # Из словаря, элементы для имен столбцов, значения для данных как установлено

Изучение данных

После импорта информации в фрейм данных Pandas вы можете визуализировать данные, используя следующие методы:

  • df.shape() # Выводит количество строк и столбцов в таблице данных
  • df.head(n) # Печатает первые n строк DataFrame
  • df.tail(n) # Выводит последние n строк DataFrame
  • df.info() # Сведения об индексе, типе данных и памяти
  • df.describe() # Сводная статистика для числовых столбцов
  • s.value_counts(dropna=False) # Просмотр уникальных значений и подсчетов
  • df.apply(pd.Series.value_counts) # Уникальные значения и количества для каждого столбца
  • df.describe() # краткая статистика для числовых столбцов
  • df.mean() # Возвращает среднее значение каждого столбца
  • df.corr() # Возвращает корреляцию между столбцами в DataFrame
  • df.count() # Возвращает количество ненулевых значений в каждом столбце DataFrame
  • df.max() # Возвращает наибольшее значение в каждом столбце
  • df.min() # Возвращает наименьшее значение в каждом столбце
  • df.median() # Возвращает медиану каждого столбца
  • df.std() # Возвращает стандартное отклонение каждого столбца

Выбор

Для того, чтобы просмотреть или провести дальнейший анализ данных, вам часто может потребоваться выбрать только одну часть или определенный подмножество данных. Эти методы будут очень полезны:

  • df(col) # Возвращает столбец с меткой col как Series
  • df((col1, col2)) # Возвращает столбцы как новый DataFrame
  • s.iloc(0) # Выбор по позиции (выбирает первый элемент)
  • s.loc(0) # Выборка по индексу (выбирает элемент с индексом 0)
  • df.iloc(0,:) # Первая строка
  • df.iloc(0,0) # Первый элемент первого столбца

Станьте специалистом по обработке данных с помощью практического обучения!Программа магистратуры для специалистов по обработке данныхИзучить программуСтаньте специалистом по обработке данных с помощью практического обучения!

Данные по очистке

Вероятно, вам придется очистить данные, если вы используете примеры из реального мира. Вот несколько полезных методов:

  • df.columns = ('a','b','c') # Переименовывает столбцы
  • pd.isnull() # Проверяет на наличие нулевых значений, возвращает логический массив
  • pd.notnull() # Противоположность s — null()
  • df.dropna() # Удаляет все строки, содержащие нулевые значения
  • df.dropna(axis=1) # Удаляет все столбцы, содержащие нулевые значения
  • df.dropna(axis=1,thresh=n) # Отбрасывает все строки, имеющие менее n ненулевых значений
  • df.fillna(x) # Заменяет все нулевые значения на x
  • s.fillna(s.mean()) # Заменяет все нулевые значения средним значением (среднее значение можно заменить практически любой функцией из раздела статистики)
  • s.astype(float) # Преобразует тип данных ряда в float
  • s.replace(1,'one') # Заменяет все значения, равные 1, на 'one'
  • s.replace((1,3),('one','three')) # Заменяет все 1 на 'one' и 3 на 'three'
  • df.rename(columns=lambda x: x + 1) # Массовое переименование столбцов
  • df.rename(columns={'old_name': 'new_ name'}) # Выборочное переименование
  • df.set_index('column_one') # Изменяет индекс
  • df.rename(index=lambda x: x + 1) # Массовое переименование индекса

Сортировка, фильтрация и группировка по

Методы группировки, классификации и ограничения данных включают в себя:

  • df(df(col) > 0.5) # Строки, где столбец col больше 0.5
  • df((df(col) > 0.5) & (df(col) < 0.7)) # Строки, где 0.5 < col < 0.7
  • df.sort_values(col1) # Сортирует значения по col1 в порядке возрастания
  • df.sort_values(col2,ascending=False) # Сортирует значения по col2 в порядке убывания
  • df.sort_values((col1,col2), ascending=(True,False)) # Сортирует значения по col1 в порядке возрастания, затем по col2 в порядке убывания
  • df.groupby(col) # Возвращает объект groupby для значений из одного столбца
  • df.groupby((col1,col2)) # Возвращает значения объекта groupby из нескольких столбцов
  • df.groupby(col1)(col2).mean() # Возвращает среднее значение значений в col2, сгруппированных по значениям в col1 (среднее можно заменить практически любой функцией из раздела статистики)
  • df.pivot_table(index=col1, values= col2,col3), aggfunc=mean) # Создает сводную таблицу, которая группирует по col1 и вычисляет среднее значение col2 и col3
  • df.groupby(col1).agg(np.mean) # Находит среднее значение по всем столбцам для каждой уникальной группы столбцов 1
  • df.apply(np.mean) # Применяет функцию к каждому столбцу
  • df.apply(np.max, axis=1) # Применяет функцию к каждой строке

Вместе и по отдельности

Методы объединения двух фреймов данных:

  • df1.append(df2) # Добавляет строки из df1 в конец df2 (столбцы должны быть идентичны)
  • pd.concat((df1, df2),axis=1) # Добавляет столбцы из df1 в конец df2 (строки должны быть идентичны)
  • df1.join(df2,on=col1,how='inner') # SQL-стиль объединяет столбцы в df1 со столбцами в df2, где строки

Запись данных

Наконец, существует множество методов, с помощью которых вы можете передать свои данные после того, как анализ дал результаты:

  • df.to_csv(имя_файла) # Записывает в файл CSV
  • df.to_excel(имя_файла) # Записывает в файл Excel
  • df.to_sql(table_name, connection_object) # Записывает в таблицу SQL
  • df.to_json(filename) # Записывает в файл в формате JSON
  • df.to_html(имя_файла) # Сохраняет как HTML-таблицу
  • df.to_clipboard() # Записывает в буфер обмена

Станьте специалистом по обработке данных с помощью практического обучения!Программа магистратуры для специалистов по обработке данныхИзучить программуСтаньте специалистом по обработке данных с помощью практического обучения!

Хотите узнать больше?

Мы даже не начали касаться поверхности того, чего Python и наука о данных могут достичь для вас, но мы надеемся, что наша шпаргалка по Python для науки о данных дала вам представление о том, что возможно. Если вы хотите узнать больше о науке о данных, ознакомьтесь с этим курсом.

Программа аспирантуры Caltech по науке о данных, разработанная совместно с IBM, дает толчок вашей карьере в этой области и дает вам первоклассное обучение и навыки, необходимые для успеха. Курс предоставляет углубленное обучение по самым востребованным способностям в области науки о данных и машинного обучения, а также практический опыт работы с важными технологиями и инструментами, такими как Python, R, Tableau и принципы машинного обучения. Чтобы продвинуться по карьерной лестнице в области науки о данных, станьте специалистом по данным, глубоко изучая сложности интерпретации данных, осваивая такие методы, как машинное обучение, и развивая сильные навыки программирования.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *