Шпаргалка Pandas по науке о данных в Python
Пакет pandas, скорее всего, будет использоваться, если вы заинтересованы в совместной работе с данными в Python. Однако очень легко забыть точный синтаксис выполнения чего-либо даже после изучения панд — даже в нашем виртуальном курсе по пандам. Для вашего удобства мы разработали шпаргалку по пандам, в которой перечислены наиболее типичные вакансии панд.
Только не стоит полагаться только на это, это важно отметить, прежде чем мы перейдем к шпаргалке. Мы настоятельно рекомендуем пройти наш инклюзивный курс Python, если вы еще не изучили панд. Эта шпаргалка не предназначена для того, чтобы научить вас всему, что нужно знать о пандах; скорее, это поможет вам найти и вспомнить уже известную информацию.
Хотя быстрые, адаптируемые и креативные объекты данных Pandas призваны значительно упростить анализ реальных данных, это может быть не сразу для людей, которые только начинают. Возможности пугают именно потому, что в это программное обеспечение встроено так много возможностей. Эти шпаргалки Pandas могут быть полезны в этой ситуации. Это краткое введение в основы Pandas, которые вам понадобятся, чтобы начать использовать Python для организации ваших данных.
В результате, если вы только начинаете свое путешествие по науке о данных с Pandas, вы можете использовать его как удобный справочник. В качестве альтернативы, те из вас, кто еще не начал, могут просто использовать его в качестве руководства, чтобы упростить процесс изучения или даже использования.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Поднимите свои навыки специалиста по данным на новый уровень с помощью магистерской программы Data Scientist от IBMExplore Programme
Руководство: Шпаргалка по Pandas
Рекомендуется сохранить нашу страницу для дальнейшей помощи.
В этой шпаргалке мы будем использовать сокращения, перечисленные ниже:
Каждый объект серии pandas|df
Каждый объект DataFrame pandas |s
Пройдя вниз, вы заметите, что мы организовали связанные команды с помощью подзаголовков, чтобы вы могли быстро найти и найти правильный синтаксис в соответствии с задачей, которую вы хотите выполнить.
Также небольшое напоминание: чтобы использовать описанные здесь команды, вы сначала импортируете необходимые библиотеки следующим образом:
Импорт данных
Получение некоторых данных является первым шагом в любом типе анализа данных. У вас есть широкий выбор вариантов использования Pandas для добавления данных в вашу книгу Python:
- pd.read_csv(filename) # Из CSV-файла
- pd.read_table(filename) # Из текстового файла с разделителями (например, TSV)
- pd.read_excel(filename) # Из файла Excel
- pd.read_sql(query, Connection_object) # Читает из таблицы/базы данных SQL
- pd.read_json(json_string) # Считывает строку, URL-адрес или файл в формате JSON.
- pd.read_html(URL) # Анализирует URL-адрес HTML, строку или файл и преобразует таблицы в набор фреймов данных.
- pd.read_clipboard() # Берет идею вашего буфера обмена и вставляет его для чтения таблицы()
- pd.DataFrame(dict) # Из словаря, элементы для имен столбцов, значения для данных в заданном виде
Исследование данных
После импорта вашей информации во фрейм данных Pandas вы можете визуализировать данные, используя следующие методы:
- df.shape() # Печатает количество строк и столбцов во фрейме данных
- df.head(n) # Печатает первые n строк DataFrame
- df.tail(n) # Печатает последние n строк DataFrame
- df.info() # Детали индекса, типа данных и памяти
- df.describe() # Сводная статистика для числовых столбцов
- s.value_counts(dropna=False) # Просматривает уникальные значения и счетчики
- df.apply(pd.Series.value_counts) # Уникальные значения и счетчики для каждого столбца
- df.describe() # краткая статистика для числовых столбцов
- df.mean() # Возвращает среднее значение каждого столбца
- df.corr() # Возвращает корреляцию между столбцами в DataFrame
- df.count() # Возвращает количество ненулевых значений в каждом столбце DataFrame
- df.max() # Возвращает наибольшее значение в каждом столбце
- df.min() # Возвращает наименьшее значение в каждом столбце
- df.median() # Возвращает медиану каждого столбца
- df.std() # Возвращает стандартное отклонение каждого столбца
Выбор
Чтобы просмотреть или провести дальнейший анализ данных, вам часто может потребоваться выбрать только одну часть или определенное подмножество данных. Эти приемы будут очень полезны:
- df(col) # Возвращает столбец с меткой col как Series
- df((col1, col2)) # Возвращает столбцы как новый DataFrame
- s.iloc(0) # Выбор по позиции (выбирает первый элемент)
- s.loc(0) # Выбор по индексу (выбирает элемент по индексу 0)
- df.iloc(0,:) # Первая строка
- df.iloc(0,0) # Первый элемент первого столбца
Поднимите свои навыки специалиста по данным на новый уровень с помощью магистерской программы Data Scientist от IBMExplore Programme
Очистка данных
Вполне вероятно, что вам придется очистить данные, если вы используете примеры из реальной жизни. Вот несколько полезных методов:
- df.columns = ('a','b','c') # Переименовывает столбцы
- pd.isnull() # Проверяет нулевые значения, возвращает логический массив
- pd.notnull() # Противоположностью s является null()
- df.dropna() # Удаляет все строки, содержащие нулевые значения.
- df.dropna(axis=1) # Удаляет все столбцы, содержащие нулевые значения.
- df.dropna(axis=1,thresh=n) # Удаляет все строки, имеющие менее n ненулевых значений
- df.fillna(x) # Заменяет все нулевые значения на x
- s.fillna(s.mean()) # Заменяет все нулевые значения средним значением (среднее значение можно заменить практически любой функцией из раздела статистики)
- s.astype(float) # Преобразует тип данных серии в float
- s.replace(1,'one') # Заменяет все значения, равные 1, на 'один'
- s.replace((1,3),('one','three')) # Заменяет все 1 на 'один' и 3 на 'три'
- df.rename(columns=lambda x: x + 1) # Массовое переименование столбцов
- df.rename(columns={'old_name': 'new_ name'}) # Выборочное переименование
- df.set_index('column_one') # Изменяет индекс
- df.rename(index=lambda x: x + 1) # Массовое переименование индекса
Сортировка, фильтрация и группировка по
Методы группировки, классификации и ограничения ваших данных включают в себя:
- df(df(col) > 0,5) # Строки, в которых столбец col больше 0,5
- df((df(столбец) > 0,5) & (df(столбец)
- df.sort_values(col1) # Сортирует значения по столбцу 1 в порядке возрастания
- df.sort_values(col2,ascending=False) # Сортирует значения по столбцу 2 в порядке убывания
- df.sort_values((col1,col2), возрастание=(True,False)) # Сортирует значения по столбцу 1 в порядке возрастания, а затем по столбцу 2 в порядке убывания
- df.groupby(col) # Возвращает объект группировки для значений из одного столбца
- df.groupby((col1,col2)) # Возвращает значения объекта группировки из нескольких столбцов
- df.groupby(col1)(col2).mean() # Возвращает среднее значение значений в столбце 2, сгруппированное по значениям в столбце 1 (среднее значение можно заменить практически любой функцией из раздела статистики)
- df.pivot_table(index=col1,values= col2,col3), aggfunc=mean) # Создает сводную таблицу, которая группируется по столбцу1 и вычисляет среднее значение столбцов2 и столбцов3
- df.groupby(col1).agg(np.mean) # Находит среднее значение по всем столбцам для каждой уникальной группы столбцов 1
- df.apply(np.mean) # Применяет функцию к каждому столбцу
- df.apply(np.max, axis=1) # Применяет функцию к каждой строке
Вместе и по отдельности
Методы объединения двух кадров данных:
- df1.append(df2) # Добавляет строки из df1 в конец df2 (столбцы должны быть идентичными)
- pd.concat((df1, df2),axis=1) # Добавляет столбцы из df1 в конец df2 (строки должны быть идентичными)
- df1.join(df2,on=col1,how='inner') # SQL-стиль объединяет столбцы в df1 со столбцами в df2, где строки
Запись данных
Наконец, существует множество способов передачи данных после того, как анализ принес результаты:
- df.to_csv(filename) # Записывает в CSV-файл
- df.to_excel(filename) # Записывает в файл Excel
- df.to_sql(table_name, Connection_object) # Записывает в таблицу SQL
- df.to_json(filename) # Записывает в файл в формате JSON.
- df.to_html(filename) # Сохраняет как HTML-таблицу.
- df.to_clipboard() # Записывает в буфер обмена
Поднимите свои навыки специалиста по данным на новый уровень с помощью магистерской программы Data Scientist от IBMExplore Programme
Хотите узнать больше?
Мы еще даже не начали прикасаться к тому, чего Python и наука о данных могут дать вам, но мы надеемся, что наша шпаргалка по Python для науки о данных дала вам представление о том, чего можно добиться. Если вы хотите узнать больше о науке о данных, посетите этот курс.
Программа последипломного образования Калифорнийского технологического института в области науки о данных, разработанная в сотрудничестве с IBM, дает толчок вашей карьере в этой области и дает вам первоклассные инструкции и навыки, необходимые для достижения успеха. Курс предоставляет углубленное обучение наиболее востребованным способностям в области науки о данных и машинного обучения, а также практический опыт работы с важными технологиями и инструментами, такими как Python, R, Tableau и принципы машинного обучения. Чтобы продвинуться по карьерной лестнице в области науки о данных, станьте специалистом по данным, глубоко вникнув в сложности интерпретации данных, освоив такие методы, как машинное обучение, и развив сильные способности к программированию.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)