Основные термины науки о данных, которые должен знать каждый аналитик

Вы новичок в области науки о данных и хотите изучить ее? Вам трудно справиться со сложной информацией из-за задействованных технических терминов в области науки о данных? Мы создали глоссарий по науке о данных, чтобы помочь вам лучше понять темы предмета и понять его важность. Читайте дальше!

Ключевые термины науки о данных

Давайте рассмотрим ключевую терминологию науки о данных, которая имеет решающее значение для понимания предмета.

'А'

Оценка точности: определяется как соотношение между правильным прогнозом и общим прогнозом. Эта метрика оценки помогает оценить производительность моделей машинного обучения.

Функция активации: используется в искусственных нейронных сетях (ИНС), чтобы определить, активировать ли нейроны. Это решается при расчете его вывода на внешний слой относительно ввода предыдущего слоя. Нелинейное преобразование нейронной сети происходит за счет функции активации.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Алгоритм: относится к набору инструкций для выполнения определенной задачи. Это важно при работе с машинным обучением или большими данными. Алгоритмы помогают анализировать и организовывать данные для прогнозирования и построения прогнозных моделей.

API: Интерфейс прикладного программирования (API) относится к правилам, которые обеспечивают соединение между различными программными приложениями.

Искусственный интеллект: ИИ помогает машинам решать проблемы, используя данные и информатику. В этом контексте интеллект — это компьютерная программа, имитирующая человеческий интеллект.

Авторегрессия: модель временных рядов, которая использует предыдущие входные временные шаги для уравнения регрессии для прогнозирования значения следующего временного шага. Модель определяет, что выходная переменная линейно зависит от своей предыдущей входной переменной.

'Б'

Обратное распространение ошибки (BP): это алгоритм, который также называют обратным распространением ошибок. Он предназначен для оценки ошибок от выходных ко входным узлам. Этот алгоритм помогает минимизировать ошибки прогнозирования.

Бизнес-аналитика (BI): относится к анализу данных, который позволяет предприятиям принимать обоснованные решения на основе ценной информации из данных.

Теорема Байеса: Теорема применяется для оценки условной вероятности. Это означает, что правило Байера используется для определения вероятности события, связанного с другим событием или предварительным знанием условий.

Большие данные: Большие данные относятся к более быстрому сбору больших объемов данных из широкого спектра источников.

'С'

Кластеризация: она определяется как задача обучения без присмотра, в которой основное внимание уделяется группировке наблюдений по сходству и общим точкам.

Журнал изменений: он определяется как документация, включающая все рассмотренные и записанные шаги, которые были выполнены на протяжении всей работы с данными.

Корреляция: относится к силе и направлению связи между двумя или более переменными. Коэффициент Пирсона или коэффициент корреляции измеряет корреляцию.

Ковариация: Оценка связанной изменчивости любых двух случайных величин называется ковариацией.

'Д'

Панель мониторинга: живые данные можно отслеживать и отображать с помощью панелей мониторинга. Здесь базы данных и визуализации функций связаны с информационной панелью, которая обеспечивает автоматические обновления, отражающие последние данные в базе данных.

Аналитика данных. Аналитика данных охватывает анализ данных (информационный процесс, управляемый данными), науку о данных (теоретизирование и прогнозирование на основе доступных данных) и инженерию данных (генерацию систем данных). Таким образом, анализ данных относится к сбору, преобразованию и организации данных для получения выводов, прогнозов и обоснованных решений на основе данных.

База данных: База данных (БД) относится к сбору структурированных данных. Здесь данные организованы так, чтобы компьютер мог легко получить доступ к информации. База данных может быть создана и управляться с помощью программы на базе SQL.

Система управления базами данных: СУБД относится к программной системе для хранения, доступа и выполнения запросов к данным. Он работает как интерфейс пользовательской базы данных, позволяя им генерировать, читать, обновлять и удалять информацию или данные из набора данных.

Интеллектуальный анализ данных. Изучение данных с целью выявления закономерностей и ценной информации называется интеллектуальным анализом данных. Он известен как фундаментальный аспект анализа данных для обоснования бизнес-рекомендаций.

Набор данных. Сбор данных в структуру данных определенного типа называется набором данных. Набор данных может состоять из любых данных. Например, наборы бизнес-данных могут содержать данные, связанные с именем клиента, зарплатой, прибылью от продаж и т. д.

Визуализация данных: это относится к представлению информации с помощью диаграмм, графиков, карт, графиков или других визуальных инструментов. Это помогает развивать рассказывание историй, благодаря которому каждый может легко объяснить сложные данные более простым способом.

Хранилище данных: оно определяется как центральное хранилище для хранения обработанных и организованных данных из переменных источников. Таким образом, хранилище данных собирает комбинированные данные, т. е. текущие и исторические данные. Внутренние и внешние базы данных извлекают, изменяют и загружают эти данные.

Дерево решений: контролируемый алгоритм обучения для решения задач классификации. Он использует древовидные модели принятия решений, а также их последствия, результаты, ресурсы, затраты и прибыль. Этот подход помогает изобразить алгоритм, содержащий операторы условного управления.

Глубокое обучение (DL): Глубокое обучение — это искусственный метод обучения компьютеров обработке данных, подобно человеческому интеллекту. В науке о данных используются большие нейронные сети (также называемые глубокими сетями) для решения сложных задач, таких как обнаружение мошенничества и распознавание лиц.

'Е'

Исследовательский анализ данных (EDA). Он определяется как этап, применимый в конвейере обработки данных. EDA помогает понять данные посредством визуализации и статистического анализа.

Метрики оценки: в основном используются для оценки качества машинного обучения и статистических моделей.

'Ф'

Ложноотрицательный результат: когда информация или значения верны, но были ошибочно предсказаны как ложные, это называется ложноотрицательным.

Ложное срабатывание: когда значения или информация являются ложными, но были предсказаны как истинные, это называется ложным срабатыванием.

F-оценка: сочетает в себе точность и полноту для оценки эффективности классификации.

'Г'

Go: Это простой язык программирования, используемый для создания надежного и эффективного программного обеспечения. Этот язык программирования с открытым исходным кодом используется для сборки мусора, обеспечения безопасности памяти и структурной типизации.

Степень соответствия: модель, которая определяет, насколько она соответствует набору наблюдений. Это помогает понять разницу между ожидаемыми значениями модели и наблюдаемыми значениями.

'ЧАС'

Hadoop: среда распределенной обработки, применимая к огромным данным. Hadoop имеет открытый исходный код и позволяет нам использовать возможности параллельной обработки для управления огромными объемами данных.

Hive: для обработки структурированных данных в Hadoop используется проект программного обеспечения для хранилища данных под названием Hive. Он помогает в индексировании, хранении метаданных и работе со сжатыми данными.

Гипотеза: Возможный результат любой проблемы называется гипотезой. Это может быть правдой или неправдой.

'Я'

Вменение: относится к методу, применяемому для управления отсутствующими значениями данных.

Итерация: определяет, как часто параметр алгоритма обновляется при обучении модели в наборе данных.

'Дж'

Джулия: Это высокопроизводительный язык программирования высокого уровня с открытым исходным кодом. Язык используется для нескольких целей, таких как численные вычисления, определяющие поведение функции. Он предназначен для распределенных вычислений и параллелизма.

'К'

K-Means: относится к неконтролируемым алгоритмам, которые помогают решать проблемы, связанные с кластеризацией.

Керас: Это относится к простой, но высокоуровневой библиотеке нейронных сетей. Библиотека написана на языке программирования Python. Керас отвечает за упрощение проектирования и экспериментов с нейронными сетями.

Куртозис: Толщина распределения хвоста известна как куртозис. Куртоз подразделяется на три формы в зависимости от его значения: мезокуртический (значение равно 3), платикуртический (значение ниже 3) и лептикуртический (значение больше 3).

'Л'

Помеченные данные: если записанные данные имеют тег, класс или метку, набор данных называется помеченными данными. Например, помеченные наборы данных для видео могут содержать только видео.

Линейная диаграмма: визуальное отображение набора данных, представляющее информацию в виде серии точек, связанных отрезком линии.

'М'

Машинное обучение (ML): ML — это разновидность искусственного интеллекта, которая обрабатывает данные, имитируя человеческий интеллект. Машинное обучение позволяет алгоритмам со временем совершенствоваться и становиться более точными при составлении классификаций и прогнозов. ML может проектировать, создавать и поддерживать системы искусственного интеллекта и машинного обучения.

Среднее: арифметическое значение, полученное путем деления суммы всех значений набора данных на общее количество значений, присутствующих в наборе данных, называется средним.

Медиана: среднее значение любого набора данных, будь то в порядке убывания или возрастания, называется медианой. Если есть два средних значения, то есть четные числа, нам нужно взять среднее из этих значений, чтобы получить медиану набора данных.

Режим. Наиболее встречающееся или часто встречающееся значение набора данных называется режимом.

'Н'

Нормализация: она определяется как процесс, в котором все данные вызываются для приведения всех атрибутов в один и тот же масштаб.

NoSQL: он разработан как «не только SQL» и представляет собой систему управления базами данных. Он применяется для хранения и извлечения нереляционных баз данных.

Нулевая гипотеза: когда наблюдаемые данные противоречат альтернативной гипотезе и не представляют связи между двумя переменными, это называется нулевой гипотезой. При этом наблюдение происходит лишь случайно.

'О'

Открытый исходный код: относится к бесплатным лицензированным ресурсам и программному обеспечению для извлечения, изменения и обмена данными.

Порядковая переменная. Переменные с разными значениями, но одинакового порядка называются порядковыми переменными.

Выброс: Наблюдение, представленное далеко и которое отклоняется от всей выборки, называется выбросом.

Переобучение. Когда модель идеально вписывается в набор обучающих данных, но не может вписаться в тестовый набор, такая модель называется переоснащением. Это происходит, когда модель чувствительна и записывает доступные шаблоны, особенно в наборе обучающих данных.

'П'

Распознавание образов: относится к отрасли машинного обучения, которая в основном работает над распознаванием закономерностей и закономерностей в наборе данных.

Точность и полнота. Измерение точно предсказанных положительных результатов от общего числа положительных случаев называется точностью. Напомним, определяет количество правильных положительных предсказаний.

Переменная-предиктор: эти переменные используются для прогнозирования зависимых переменных.

Предварительно обученная модель. Модели, разработанные другими для решения аналогичных задач, называются предварительно обученными моделями. Для решения проблем предпочтительнее использовать предварительно обученные модели, чем создавать модели с нуля, поскольку они уже обучены другим проблемам в качестве исходных точек.

'К'

Квартиль: значения, дискретные в каждом квартале, такие как Q1, Q2, Q3, Q4, называются квартилями.

Количественный анализ. Количественный анализ — это процесс, в котором измеримые и проверяемые данные собираются и оцениваются для понимания поведения и эффективности бизнеса.

'Р'

Регрессия: проблема машинного обучения, которая прогнозирует будущие результаты с использованием данных. Он связывает зависимую переменную с несколькими независимыми переменными, чтобы наблюдать за изменениями.

Обучение с подкреплением (RL): отрасль машинного обучения, которая позволяет алгоритмам учиться на основе окружающей среды. Основываясь на прошлом опыте, RL принимает решения, близкие к желаемой цели.

Реляционная база данных: база данных, содержащая несколько таблиц, в которых информация взаимосвязана. Пользователь может получить доступ к связанным данным из нескольких таблиц в одном запросе, если необходимые данные хранятся в отдельных таблицах.

'С'

Ошибка выборки. Статистическая разница между всем набором данных и его подмножеством называется ошибкой выборки, поскольку все элементы выборки не содержат все элементы всего набора данных.

Стандартное отклонение: Частота разброса данных называется стандартным отклонением. Стандартное отклонение — это квадратный корень из дисперсии первичных данных.

Стандартная ошибка: когда выборочное среднее отклоняется от стандартного среднего данного набора, это отклонение называется стандартной ошибкой. Это помогает измерить точность образца.

Синтетические данные. Искусственно сгенерированные данные называются синтетическими данными и отражают статистические свойства первичного набора данных. Они широко используются в таких секторах, как здравоохранение и банковское дело.

'Т'

Токенизация: это процесс разделения текстовой строки на единицы (токены). Здесь токенами могут быть слова или их группы. Токенизация — очень важный шаг в НЛП.

Обучающий набор: относится к набору, извлеченному перед построением модели. Он охватывает от 70% до 80% всего набора данных, который будет использоваться для подбора моделей, которые в дальнейшем тестируются на тестовом наборе.

Тестовый набор: относится к подмножеству доступных данных, извлеченных для построения модели. Он охватывает от 20% до 30% данных, используемых для анализа точности модели, установленной на обучающем наборе.

Трансферное обучение. Применение предварительно обученной модели к новому набору данных называется трансферным обучением. Для решения проблемы создаются предварительно обученные модели. Модель помогает решать аналогичные проблемы с аналогичными данными.

'У'

Недостаточное оснащение: когда какая-либо модель не может идентифицировать шаблон из обучающего набора из-за того, что она построена с ограниченной информацией, это называется недостаточным оснащением. Модель не может выполнять задачи с невидимыми данными или даже с обучающим набором.

Неструктурированные данные. Данные, которые не принадлежат к предопределенной структуре данных, например структуре строк и столбцов, называются неструктурированными данными. Например, видео, электронные письма и изображения.

'В'

Дисперсия. Среднеквадратическая разница между каждым значением данных и средним значением данных называется дисперсией. Он показывает, как распространяются ценности. В машинном обучении дисперсия — это ошибка, возникающая из-за чувствительности модели или сложности обучающего набора.

'W'

Веб-скрапинг: процесс извлечения определенных данных с веб-сайта для их дальнейшего использования. Это можно удобно сделать с помощью языков программирования, таких как Python.

'З'

Z-показатель: Z-показатель, нормальный показатель, стандартный показатель или стандартизированный показатель относится к количеству единиц стандартного отклонения, на которое происходит отклонение от среднего значения набора данных.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *