Шпаргалка Pandas по науке о данных в Python

Пакет pandas, скорее всего, будет использоваться, если вы заинтересованы в совместной работе с данными в Python. Однако очень легко забыть точный синтаксис выполнения чего-либо даже после изучения панд — даже в нашем виртуальном курсе по пандам. Для вашего удобства мы разработали шпаргалку по пандам, в которой перечислены наиболее типичные вакансии панд.

Только не стоит полагаться только на это, это важно отметить, прежде чем мы перейдем к шпаргалке. Мы настоятельно рекомендуем пройти наш инклюзивный курс Python, если вы еще не изучили панд. Эта шпаргалка не предназначена для того, чтобы научить вас всему, что нужно знать о пандах; скорее, это поможет вам найти и вспомнить уже известную информацию.

Хотя быстрые, адаптируемые и креативные объекты данных Pandas призваны значительно упростить анализ реальных данных, это может быть не сразу для людей, которые только начинают. Возможности пугают именно потому, что в это программное обеспечение встроено так много возможностей. Эти шпаргалки Pandas могут быть полезны в этой ситуации. Это краткое введение в основы Pandas, которые вам понадобятся, чтобы начать использовать Python для организации ваших данных.

В результате, если вы только начинаете свое путешествие по науке о данных с Pandas, вы можете использовать его как удобный справочник. В качестве альтернативы, те из вас, кто еще не начал, могут просто использовать его в качестве руководства, чтобы упростить процесс изучения или даже использования.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Поднимите свои навыки специалиста по данным на новый уровень с помощью магистерской программы Data Scientist от IBMExplore ProgrammeПоднимите свои навыки специалиста по данным на новый уровень

Руководство: Шпаргалка по Pandas

Рекомендуется сохранить нашу страницу для дальнейшей помощи.

В этой шпаргалке мы будем использовать сокращения, перечисленные ниже:

Каждый объект серии pandas|df

Каждый объект DataFrame pandas |s

Пройдя вниз, вы заметите, что мы организовали связанные команды с помощью подзаголовков, чтобы вы могли быстро найти и найти правильный синтаксис в соответствии с задачей, которую вы хотите выполнить.

Также небольшое напоминание: чтобы использовать описанные здесь команды, вы сначала импортируете необходимые библиотеки следующим образом:

Импорт данных

Получение некоторых данных является первым шагом в любом типе анализа данных. У вас есть широкий выбор вариантов использования Pandas для добавления данных в вашу книгу Python:

  • pd.read_csv(filename) # Из CSV-файла
  • pd.read_table(filename) # Из текстового файла с разделителями (например, TSV)
  • pd.read_excel(filename) # Из файла Excel
  • pd.read_sql(query, Connection_object) # Читает из таблицы/базы данных SQL
  • pd.read_json(json_string) # Считывает строку, URL-адрес или файл в формате JSON.
  • pd.read_html(URL) # Анализирует URL-адрес HTML, строку или файл и преобразует таблицы в набор фреймов данных.
  • pd.read_clipboard() # Берет идею вашего буфера обмена и вставляет его для чтения таблицы()
  • pd.DataFrame(dict) # Из словаря, элементы для имен столбцов, значения для данных в заданном виде

Исследование данных

После импорта вашей информации во фрейм данных Pandas вы можете визуализировать данные, используя следующие методы:

  • df.shape() # Печатает количество строк и столбцов во фрейме данных
  • df.head(n) # Печатает первые n строк DataFrame
  • df.tail(n) # Печатает последние n строк DataFrame
  • df.info() # Детали индекса, типа данных и памяти
  • df.describe() # Сводная статистика для числовых столбцов
  • s.value_counts(dropna=False) # Просматривает уникальные значения и счетчики
  • df.apply(pd.Series.value_counts) # Уникальные значения и счетчики для каждого столбца
  • df.describe() # краткая статистика для числовых столбцов
  • df.mean() # Возвращает среднее значение каждого столбца
  • df.corr() # Возвращает корреляцию между столбцами в DataFrame
  • df.count() # Возвращает количество ненулевых значений в каждом столбце DataFrame
  • df.max() # Возвращает наибольшее значение в каждом столбце
  • df.min() # Возвращает наименьшее значение в каждом столбце
  • df.median() # Возвращает медиану каждого столбца
  • df.std() # Возвращает стандартное отклонение каждого столбца

Выбор

Чтобы просмотреть или провести дальнейший анализ данных, вам часто может потребоваться выбрать только одну часть или определенное подмножество данных. Эти приемы будут очень полезны:

  • df(col) # Возвращает столбец с меткой col как Series
  • df((col1, col2)) # Возвращает столбцы как новый DataFrame
  • s.iloc(0) # Выбор по позиции (выбирает первый элемент)
  • s.loc(0) # Выбор по индексу (выбирает элемент по индексу 0)
  • df.iloc(0,:) # Первая строка
  • df.iloc(0,0) # Первый элемент первого столбца

Поднимите свои навыки специалиста по данным на новый уровень с помощью магистерской программы Data Scientist от IBMExplore ProgrammeПоднимите свои навыки специалиста по данным на новый уровень

Очистка данных

Вполне вероятно, что вам придется очистить данные, если вы используете примеры из реальной жизни. Вот несколько полезных методов:

  • df.columns = ('a','b','c') # Переименовывает столбцы
  • pd.isnull() # Проверяет нулевые значения, возвращает логический массив
  • pd.notnull() # Противоположностью s является null()
  • df.dropna() # Удаляет все строки, содержащие нулевые значения.
  • df.dropna(axis=1) # Удаляет все столбцы, содержащие нулевые значения.
  • df.dropna(axis=1,thresh=n) # Удаляет все строки, имеющие менее n ненулевых значений
  • df.fillna(x) # Заменяет все нулевые значения на x
  • s.fillna(s.mean()) # Заменяет все нулевые значения средним значением (среднее значение можно заменить практически любой функцией из раздела статистики)
  • s.astype(float) # Преобразует тип данных серии в float
  • s.replace(1,'one') # Заменяет все значения, равные 1, на 'один'
  • s.replace((1,3),('one','three')) # Заменяет все 1 на 'один' и 3 на 'три'
  • df.rename(columns=lambda x: x + 1) # Массовое переименование столбцов
  • df.rename(columns={'old_name': 'new_ name'}) # Выборочное переименование
  • df.set_index('column_one') # Изменяет индекс
  • df.rename(index=lambda x: x + 1) # Массовое переименование индекса

Сортировка, фильтрация и группировка по

Методы группировки, классификации и ограничения ваших данных включают в себя:

  • df(df(col) > 0,5) # Строки, в которых столбец col больше 0,5
  • df((df(столбец) > 0,5) & (df(столбец)
  • df.sort_values(col1) # Сортирует значения по столбцу 1 в порядке возрастания
  • df.sort_values(col2,ascending=False) # Сортирует значения по столбцу 2 в порядке убывания
  • df.sort_values((col1,col2), возрастание=(True,False)) # Сортирует значения по столбцу 1 в порядке возрастания, а затем по столбцу 2 в порядке убывания
  • df.groupby(col) # Возвращает объект группировки для значений из одного столбца
  • df.groupby((col1,col2)) # Возвращает значения объекта группировки из нескольких столбцов
  • df.groupby(col1)(col2).mean() # Возвращает среднее значение значений в столбце 2, сгруппированное по значениям в столбце 1 (среднее значение можно заменить практически любой функцией из раздела статистики)
  • df.pivot_table(index=col1,values= col2,col3), aggfunc=mean) # Создает сводную таблицу, которая группируется по столбцу1 и вычисляет среднее значение столбцов2 и столбцов3
  • df.groupby(col1).agg(np.mean) # Находит среднее значение по всем столбцам для каждой уникальной группы столбцов 1
  • df.apply(np.mean) # Применяет функцию к каждому столбцу
  • df.apply(np.max, axis=1) # Применяет функцию к каждой строке

Вместе и по отдельности

Методы объединения двух кадров данных:

  • df1.append(df2) # Добавляет строки из df1 в конец df2 (столбцы должны быть идентичными)
  • pd.concat((df1, df2),axis=1) # Добавляет столбцы из df1 в конец df2 (строки должны быть идентичными)
  • df1.join(df2,on=col1,how='inner') # SQL-стиль объединяет столбцы в df1 со столбцами в df2, где строки

Запись данных

Наконец, существует множество способов передачи данных после того, как анализ принес результаты:

  • df.to_csv(filename) # Записывает в CSV-файл
  • df.to_excel(filename) # Записывает в файл Excel
  • df.to_sql(table_name, Connection_object) # Записывает в таблицу SQL
  • df.to_json(filename) # Записывает в файл в формате JSON.
  • df.to_html(filename) # Сохраняет как HTML-таблицу.
  • df.to_clipboard() # Записывает в буфер обмена

Поднимите свои навыки специалиста по данным на новый уровень с помощью магистерской программы Data Scientist от IBMExplore ProgrammeПоднимите свои навыки специалиста по данным на новый уровень

Хотите узнать больше?

Мы еще даже не начали прикасаться к тому, чего Python и наука о данных могут дать вам, но мы надеемся, что наша шпаргалка по Python для науки о данных дала вам представление о том, чего можно добиться. Если вы хотите узнать больше о науке о данных, посетите этот курс.

Программа последипломного образования Калифорнийского технологического института в области науки о данных, разработанная в сотрудничестве с IBM, дает толчок вашей карьере в этой области и дает вам первоклассные инструкции и навыки, необходимые для достижения успеха. Курс предоставляет углубленное обучение наиболее востребованным способностям в области науки о данных и машинного обучения, а также практический опыт работы с важными технологиями и инструментами, такими как Python, R, Tableau и принципы машинного обучения. Чтобы продвинуться по карьерной лестнице в области науки о данных, станьте специалистом по данным, глубоко вникнув в сложности интерпретации данных, освоив такие методы, как машинное обучение, и развив сильные способности к программированию.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *