Основные термины науки о данных, которые должен знать каждый аналитик

Вы новичок в области науки о данных и хотите изучить ее? Вам сложно справляться со сложной информацией из-за технических терминов науки о данных? Мы создали глоссарий науки о данных, чтобы вы лучше понимали темы предмета и могли узнать его важность. Читайте дальше!

Ключевые термины науки о данных

Давайте рассмотрим ключевые термины науки о данных, которые имеют решающее значение для понимания предмета.

«А»

Оценка точности: определяется как отношение правильного прогноза к общему прогнозу. Эта метрика оценки помогает оценить производительность моделей машинного обучения.

Функция активации: используется в искусственных нейронных сетях (ИНС) для определения необходимости активации нейронов. Это решается на основе расчета ее выходных данных на внешний слой относительно входных данных с предыдущего слоя. Нелинейное преобразование нейронной сети происходит благодаря функции активации.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Алгоритм: относится к набору инструкций для выполнения определенной задачи. Это важно при работе с машинным обучением или большими данными. Алгоритмы помогают анализировать и организовывать данные для составления прогнозов и построения прогностических моделей.

API: Интерфейс прикладного программирования (API) относится к правилам, которые обеспечивают связь между различными программными приложениями.

Искусственный интеллект (ИИ): помогает машинам решать проблемы, используя данные и компьютерную науку. Здесь интеллект — это компьютерная программа, имитирующая человеческий интеллект.

Авторегрессия: модель временного ряда, которая использует предыдущие входные временные шаги для уравнения регрессии, чтобы предсказать значение следующего временного шага. Модель определяет, что выходная переменная линейно зависит от своей собственной предыдущей входной переменной.

«Б»

Обратное распространение (BP): Это алгоритм, который также называется обратным распространением ошибок. Он предназначен для оценки ошибок от выходных до входных узлов. Этот алгоритм помогает минимизировать предсказательные ошибки.

Бизнес-аналитика (BI): это аналитика данных, которая позволяет компаниям принимать обоснованные решения на основе ценной информации, содержащейся в данных.

Теорема Байеса: Теорема применяется для оценки условной вероятности. Это означает, что правило Байера используется для определения вероятности события, связанного с другим событием или априорным знанием условий.

Большие данные: это более быстрый сбор больших объемов данных из широкого спектра источников.

'С'

Кластеризация: определяется как задача неконтролируемого обучения, направленная на группировку наблюдений по признаку сходства и общих точек.

Журнал изменений: определяется как документация, включающая все рассмотренные и зафиксированные шаги, которые были выполнены в ходе работы с данными.

Корреляция: относится к силе и направлению связи между двумя или более переменными. Коэффициент Пирсона или коэффициент корреляции измеряет корреляцию.

Ковариация: Оценка связанной изменчивости любых двух случайных величин называется ковариацией.

'Д'

Панель инструментов: Текущие данные можно отслеживать и отображать с помощью панелей инструментов. Здесь базы данных и визуализации функций связаны с панелью инструментов, которая обеспечивает автоматические обновления, отражающие последние данные в базе данных.

Аналитика данных: Аналитика данных охватывает анализ данных (информационный процесс, управляемый данными), науку о данных (теоретизирование и прогнозирование с помощью доступных данных) и инженерию данных (создание систем данных). Таким образом, аналитика данных относится к сбору, преобразованию и организации данных для предоставления выводов, прогнозирования и принятия обоснованных решений на основе данных.

База данных: База данных (БД) относится к набору структурированных данных. Здесь данные организованы так, чтобы компьютер мог легко получить доступ к информации. Базу данных можно создать и контролировать с помощью программы на основе SQL.

Система управления базами данных (СУБД): относится к программной системе для хранения, доступа и выполнения запросов к данным. Она работает как интерфейс базы данных пользователя, позволяя им генерировать, читать, обновлять и удалять информацию или данные из набора данных.

Data Mining: Изучение данных для поиска закономерностей и ценных идей называется data mining. Это известно как фундаментальный аспект аналитики данных для информирования бизнес-рекомендаций.

Набор данных: Сбор данных в некоторый тип структуры данных называется набором данных. Набор данных может быть составлен из любых данных. Например, бизнес-наборы данных могут содержать данные, связанные с именем клиента, зарплатой, прибылью от продаж и т. д.

Визуализация данных: относится к представлению информации посредством диаграмм, графиков, карт, графиков или других визуальных инструментов. Это способствует развитию сторителлинга, с помощью которого любой может легко объяснить сложные данные более простым способом.

Хранилище данных: определяется как центральный репозиторий для хранения обработанных и организованных данных из переменных источников. Таким образом, хранилище данных собирает объединенные данные, т. е. текущие и исторические данные. Внутренние и внешние базы данных извлекают, изменяют и загружают эти данные.

Дерево решений: контролируемый алгоритм обучения для задач классификации. Он использует древовидные модели решений вместе с их последствиями, результатами, ресурсами, стоимостью и прибылью. Этот подход помогает изобразить алгоритм, который содержит условные управляющие операторы.

Глубокое обучение (DL): Глубокое обучение — это искусственный метод обучения компьютеров обработке данных, подобной человеческому интеллекту. В науке о данных он использует большие нейронные сети (также называемые глубокими сетями) для решения сложных задач, таких как обнаружение мошенничества и распознавание лиц.

«Е»

Исследовательский анализ данных (EDA): определяется как фаза, применимая в конвейере науки о данных. EDA помогает понимать данные посредством визуализации и статистического анализа.

Метрики оценки: в основном используются для оценки качества моделей машинного обучения и статистических данных.

'Ф'

Ложноотрицательный результат: когда информация или значения верны, но были неверно предсказаны как ложные, это называется ложноотрицательным результатом.

Ложноположительный результат: когда значения или информация ложны, но прогнозировались как истинные, это называется ложноположительным результатом.

F-Score: объединяет точность и полноту для оценки эффективности классификации.

'Г'

Go: Это простой язык программирования, используемый для создания надежного и эффективного программного обеспечения. Этот язык программирования с открытым исходным кодом используется для сборки мусора, безопасности памяти и структурной типизации.

Goodness of Fit: Модель, которая определяет, как она подходит к набору наблюдений. Она помогает понять разницу между ожидаемыми значениями модели и наблюдаемыми значениями.

'ЧАС'

Hadoop: Распределенная структура обработки, применимая к огромным данным. Hadoop имеет открытый исходный код и позволяет нам использовать возможности параллельной обработки для управления огромными объемами данных.

Hive: Для обработки структурированных данных в Hadoop используется проект программного обеспечения хранилища данных под названием Hive. Он помогает в индексировании, хранении метаданных и работе со сжатыми данными.

Гипотеза: Возможный результат любой проблемы называется гипотезой. Она может быть либо истинной, либо ложной.

'Я'

Вменение: это метод, применяемый для управления отсутствующими значениями данных.

Итерация: определяет, сколько раз параметр алгоритма обновляется при обучении модели на наборе данных.

'Дж'

Джулия: Это высокоуровневый язык программирования с открытым исходным кодом и высокой производительностью. Язык используется для нескольких целей, таких как численные вычисления, определяющие поведение функций. Он разработан для распределенных вычислений и параллелизма.

«К»

K-средние: это неконтролируемые алгоритмы, которые помогают решать проблемы, связанные с кластеризацией.

Keras: Это относится к простой, но высокоуровневой библиотеке нейронных сетей. Библиотека написана на языке программирования Python. Keras отвечает за упрощение проектирования и экспериментов с нейронными сетями.

Эксцесс: Толщина хвоста распределения известна как эксцесс. Эксцесс подразделяется на три формы в зависимости от его значения, т. е. мезокуртик (значение равно 3), платикуртик (значение ниже 3) и лептикуртик (значение выше 3).

'Л'

Помеченные данные: Если записанные данные имеют тег, класс или метку, набор данных называется помеченными данными. Например, помеченные наборы данных для видео могут содержать только видео.

Линейная диаграмма: визуальное отображение набора данных, представляющее информацию в виде ряда точек, связанных отрезком линии.

«М»

Машинное обучение (МО): МО — это подмножество искусственного интеллекта, которое обрабатывает данные, имитируя человеческий интеллект. Машинное обучение позволяет алгоритмам со временем совершенствоваться и становиться более точными при создании классификаций или прогнозов. МО может проектировать, создавать и поддерживать системы ИИ и машинного обучения.

Среднее значение: арифметическое значение, получаемое путем деления суммы всех значений набора данных на общее количество значений, присутствующих в наборе данных.

Медиана: Любое среднее значение(я) набора данных, в порядке убывания или возрастания, называется Медианой. Если есть два средних значения, т. е. четные числа, мы должны взять среднее этих значений, чтобы получить медиану набора данных.

Мода: Наиболее часто встречающиеся или частые значения набора данных называются модой.

'Н'

Нормализация: определяется как процесс, в ходе которого все данные извлекаются для приведения всех атрибутов к одному масштабу.

NoSQL: Разработан как «не только SQL» и является системой управления базами данных. Применяется для хранения и извлечения нереляционных баз данных.

Нулевая гипотеза: Когда наблюдаемые данные противоречат альтернативной гипотезе и не представляют собой связь между двумя переменными, это называется нулевой гипотезой. В этом случае наблюдение происходит только случайно.

'О'

Открытый исходный код: относится к бесплатным лицензионным ресурсам и программному обеспечению для извлечения, изменения и обмена данными.

Порядковая переменная: Переменные с разными значениями, но с одинаковым порядком называются порядковыми переменными.

Выброс: Наблюдение, представленное далеко и выходящее за рамки общей картины выборки, называется выбросом.

Переобучение: Когда модель идеально подходит для обучающего набора данных, но не подходит для тестового набора, то модель называется переобучением. Это происходит, когда модель чувствительна и записывает доступные закономерности, особенно в обучающем наборе данных.

'П'

Распознавание образов: относится к разделу машинного обучения, который в основном занимается распознаванием закономерностей и шаблонов в наборе данных.

Точность и полнота: Измерение точно предсказанных положительных результатов из общего числа положительных случаев называется точностью. Полнота определяет количество правильных положительных прогнозов.

Предикторная переменная: эти переменные используются для прогнозирования зависимых переменных.

Предварительно обученная модель: Модели, разработанные другими для решения схожих проблем, называются предварительно обученными моделями. Предварительно обученные модели предпочтительнее, чем создание моделей с нуля для решения проблем, поскольку они уже обучены на других проблемах в качестве начальных точек.

«Кью»

Квартиль: Значения, которые являются дискретными в каждом квартале, например, Q1, Q2, Q3, Q4, называются квартилями.

Количественный анализ: Количественный анализ — это процесс, в ходе которого собираются и оцениваются измеримые и проверяемые данные для понимания поведения и эффективности бизнеса.

'Р'

Регрессия: проблема машинного обучения, которая предсказывает будущие результаты с использованием данных. Она связывает зависимую переменную с несколькими независимыми переменными для наблюдения за изменениями.

Обучение с подкреплением (RL): Раздел машинного обучения, который позволяет алгоритмам учиться на основе окружающей среды. Основываясь на обучении на основе прошлого опыта, RL принимает решения, близкие к желаемой цели.

Реляционная база данных: База данных, которая имеет несколько таблиц, где информация взаимосвязана. Пользователь может получить доступ к связанным данным в нескольких таблицах в одном запросе, если требуемые данные хранятся в отдельных таблицах.

'С'

Ошибка выборки: статистическая разница между всем набором данных и его подмножеством называется ошибкой выборки, поскольку все элементы выборки не содержат все элементы всего набора данных.

Стандартное отклонение: Частота дисперсии данных называется стандартным отклонением. Стандартное отклонение — это квадратный корень дисперсии первичных данных.

Стандартная ошибка: Когда выборочное среднее отклоняется от стандартного среднего данного набора, отклонение называется стандартной ошибкой. Это помогает измерить точность выборки.

Синтетические данные: искусственно созданные данные называются синтетическими данными и отражают статистические свойства первичного набора данных. Они широко используются в таких секторах, как здравоохранение и банковское дело.

'Т'

Токенизация: это процесс деления текстовой строки на единицы (токены). Здесь токенами могут быть слова или их группы. Токенизация — очень важный шаг в NLP.

Обучающий набор: относится к набору, извлеченному перед построением модели. Он охватывает около 70–80 % всего набора данных, который будет использоваться для подгонки моделей, которые затем тестируются на тестовом наборе.

Тестовый набор: относится к подмножеству доступных данных, извлеченных для построения модели. Он охватывает от 20% до 30% данных, используемых для анализа точности модели, подобранной на обучающем наборе.

Transfer Learning: применение предварительно обученной модели к новому набору данных называется transfer learning. Предварительно обученные модели создаются для решения проблемы. Модель помогает решать схожие проблемы с похожими данными.

'У'

Недообучение: Когда какая-либо модель не может идентифицировать шаблон из обучающего набора из-за того, что она построена с ограниченной информацией, это называется недообучением. Модель не может выполнять задачи на невидимых данных или даже на обучающем наборе.

Неструктурированные данные: данные, которые не принадлежат к предопределенной структуре данных, такой как структура строк и столбцов, называются неструктурированными данными. Например, видео, электронные письма и изображения.

'В'

Дисперсия: среднеквадратическая разница между каждым значением данных и средним значением данных называется дисперсией. Она показывает, как значения разбросаны. В машинном обучении дисперсия — это ошибка, которая возникает из-за чувствительности модели или сложностей в обучающем наборе.

'W'

Веб-скрейпинг: процесс извлечения определенных данных с веб-сайта для их дальнейшего использования. Это можно удобно сделать с помощью языков программирования, таких как Python.

'З'

Z-оценка: Z-оценка, нормальная оценка, стандартная оценка или стандартизированная оценка — это число единиц стандартного отклонения, на которое происходит отклонение от среднего значения набора данных.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *