Что такое персептрон? Руководство для начинающих на 2024 год
Ссылка на нейронную сеть, которая содержит вычисления для отслеживания функций и использует искусственный интеллект во входных данных, известна как персептрон. Этот нейрон связывается с искусственными нейронами, используя простые логические элементы с двоичными выходами. Искусственный нейрон вызывает математическую функцию и имеет узел, вход, веса и выход, эквивалентные ядру клетки, дендритам, синапсу и аксону соответственно, по сравнению с биологическим нейроном.
Что такое двоичный классификатор в машинном обучении?
Бинарный классификатор в машинном обучении — это тип модели, которая обучена классифицировать данные по одной из двух возможных категорий, обычно представленных в виде двоичных меток, таких как 0 или 1, истинное или ложное, положительное или отрицательное. Например, двоичный классификатор может быть обучен различать спамовые и неспамовые электронные письма или предсказывать, является ли транзакция по кредитной карте мошеннической или законной.
Бинарные классификаторы являются фундаментальным строительным блоком многих приложений машинного обучения, и для их создания можно использовать множество алгоритмов, включая логистическую регрессию, машины опорных векторов (SVM), деревья решений, случайные леса и нейронные сети. Эти модели обычно обучаются с использованием помеченных данных, где известна правильная метка или категория для каждого примера в обучающем наборе, а затем используются для прогнозирования категории новых, невидимых примеров.
Производительность бинарного классификатора обычно оценивается с использованием таких показателей, как точность, точность, отзыв и показатель F1, которые измеряют, насколько хорошо модель способна правильно идентифицировать положительные и отрицательные примеры в данных. Высококачественные двоичные классификаторы необходимы для широкого спектра приложений, включая обработку естественного языка, компьютерное зрение, обнаружение мошенничества и медицинскую диагностику, а также многих других.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Станьте самым высокооплачиваемым инженером по искусственному интеллекту! С нашей актуальной магистерской программой для инженеров по искусственному интеллектуУзнайте больше
Биологический нейрон
Человеческий мозг состоит из миллиардов нейронов. Нейроны — это взаимосвязанные нервные клетки в человеческом мозге, которые участвуют в обработке и передаче химических и электрических сигналов. Дендриты — это ветви, которые получают информацию от других нейронов.
Ядро клетки или Сома обрабатывает информацию, полученную от дендритов. Аксон — это кабель, который используется нейронами для передачи информации. Синапс — это связь между аксоном и дендритами других нейронов.
Давайте обсудим появление искусственных нейронов в следующем разделе.
Возникновение искусственных нейронов (на основе биологических нейронов)
Исследователи Уоррен Маккаллок и Уолтер Питтс опубликовали свою первую концепцию упрощенной клетки мозга в 1943 году. Ее назвали нейроном Маккаллока-Питтса (MCP). Они описали такую нервную клетку как простой логический элемент с двоичными выходами.
Множественные сигналы достигают дендритов и затем интегрируются в тело клетки, и, если накопленный сигнал превышает определенный порог, генерируется выходной сигнал, который будет передан аксону. В следующем разделе поговорим об искусственном нейроне.
Что такое искусственный нейрон
Искусственный нейрон — это математическая функция, основанная на модели биологических нейронов, где каждый нейрон принимает входные данные, взвешивает их отдельно, суммирует их и передает эту сумму через нелинейную функцию для получения выходных данных.
В следующем разделе давайте сравним биологический нейрон с искусственным нейроном.
Освойте стратегии развития искусственного интеллекта для бизнеса с помощью программы «Генераторный искусственный интеллект для трансформации бизнеса»Изучите программу
Биологический нейрон против искусственного нейрона
Биологический нейрон аналогичен искусственным нейронам в следующих отношениях:
Биологический нейрон | Искусственный нейрон |
Клеточное ядро (сома) | Узел |
Дендриты | Вход |
Синапс | Веса или взаимосвязи |
Аксон | Выход |
Искусственный нейрон с первого взгляда
Искусственный нейрон имеет следующие характеристики:
- Нейрон — это математическая функция, смоделированная на основе работы биологических нейронов.
- Это элементарная единица искусственной нейронной сети.
- Один или несколько входов взвешиваются отдельно
- Входные данные суммируются и передаются через нелинейную функцию для получения выходных данных.
- Каждый нейрон имеет внутреннее состояние, называемое сигналом активации.
- Каждое звено связи несет информацию о входном сигнале.
- Каждый нейрон связан с другим нейроном посредством соединительной линии.
В следующем разделе давайте поговорим о перцептронах.
Персептрон
Перцептрон был представлен Фрэнком Розенблаттом в 1957 году. Он предложил правило обучения перцептрона, основанное на оригинальном нейроне MCP. Персептрон — это алгоритм контролируемого обучения бинарных классификаторов. Этот алгоритм позволяет нейронам обучаться и обрабатывать элементы обучающего набора по одному.
Станьте самым высокооплачиваемым инженером по искусственному интеллекту! С нашей актуальной магистерской программой для инженеров по искусственному интеллектуУзнайте больше
Основные компоненты персептрона
Персептрон — это тип искусственной нейронной сети, которая является фундаментальной концепцией машинного обучения. Основными компонентами перцептрона являются:
- Входной слой: Входной слой состоит из одного или нескольких входных нейронов, которые получают входные сигналы из внешнего мира или из других слоев нейронной сети.
- Веса: каждому входному нейрону присвоен вес, который отражает силу связи между входным и выходным нейронами.
- Смещение: термин смещения добавляется к входному слою, чтобы предоставить перцептрону дополнительную гибкость при моделировании сложных закономерностей во входных данных.
- Функция активации: Функция активации определяет выходные данные перцептрона на основе взвешенной суммы входных данных и члена смещения. Общие функции активации, используемые в перцептронах, включают ступенчатую функцию, сигмовидную функцию и функцию ReLU.
- Выходные данные: Выходные данные перцептрона представляют собой одно двоичное значение, 0 или 1, которое указывает класс или категорию, к которой принадлежат входные данные.
- Алгоритм обучения: Персептрон обычно обучается с использованием алгоритма обучения с учителем, такого как алгоритм обучения перцептрона или обратного распространения ошибки. Во время обучения веса и смещения перцептрона корректируются, чтобы минимизировать ошибку между прогнозируемым и истинным выходными данными для данного набора обучающих примеров.
- В целом, персептрон — это простой, но мощный алгоритм, который можно использовать для выполнения задач двоичной классификации и который проложил путь для более сложных нейронных сетей, используемых сегодня в глубоком обучении.
Типы персептрона:
- Однослойный: однослойный перцептрон может изучать только линейно разделимые шаблоны.
- Многослойность: многослойные перцептроны могут узнавать о двух или более слоях, имеющих большую вычислительную мощность.
Алгоритм перцептрона изучает веса входных сигналов, чтобы нарисовать линейную границу решения.
Примечание. Обучение с учителем — это тип машинного обучения, используемый для изучения моделей на основе помеченных обучающих данных. Это позволяет прогнозировать выходные данные для будущих или невидимых данных. Давайте сосредоточимся на правиле обучения перцептрона в следующем разделе.
Персептрон в машинном обучении
Наиболее часто используемый термин в области искусственного интеллекта и машинного обучения (AIML) — «Персептрон». Это начальный шаг обучения программированию и технологиям глубокого обучения, которые состоят из входных значений, оценок, пороговых значений и весов, реализующих логические элементы. Персептрон — это развивающий этап искусственной нейронной связи. В 19 веке г-н Фрэнк Розенблатт изобрел перцептрон для выполнения конкретных вычислений высокого уровня для определения возможностей входных данных или бизнес-аналитики. Однако сейчас его используют и для других целей.
История персептрона
Перцептрон был представлен Фрэнком Розенблаттом в 1958 году как тип искусственной нейронной сети, способной обучаться и выполнять задачи двоичной классификации. Розенблатт был психологом и ученым-компьютерщиком, который был заинтересован в разработке машины, которая могла бы изучать и распознавать закономерности в данных, вдохновленную работой человеческого мозга.
Перцептрон был основан на концепции простой вычислительной единицы, которая принимает один или несколько входных данных и выдает один выходной результат, смоделированный по структуре и функции нейрона в мозге. Персептрон был разработан, чтобы иметь возможность учиться на примерах и корректировать свои параметры для повышения точности классификации новых примеров.
Алгоритм перцептрона первоначально использовался для решения простых задач, таких как распознавание рукописных символов, но вскоре он подвергся критике из-за ограниченной способности изучать сложные шаблоны и неспособности обрабатывать нелинейно разделимые данные. Эти ограничения привели к упадку исследований перцептронов в 1960-х и 1970-х годах.
Однако в 1980-х годах развитие обратного распространения ошибки, мощного алгоритма обучения многослойных нейронных сетей, возобновило интерес к искусственным нейронным сетям и положило начало новой эре исследований и инноваций в машинном обучении. Сегодня перцептроны считаются простейшей формой искусственных нейронных сетей и до сих пор широко используются в таких приложениях, как распознавание изображений, обработка естественного языка и распознавание речи.
Что такое модель перцептрона в машинном обучении?
Машинный алгоритм, используемый для контролируемого обучения различным задачам двоичной сортировки, называется «Персептрон». Кроме того, персептрон также играет важную роль в качестве искусственного нейрона или нейронной связи при обнаружении определенных вычислений входных данных в бизнес-аналитике. Модель перцептрона также классифицируется как один из лучших и наиболее конкретных типов искусственных нейронных сетей. Будучи алгоритмом контролируемого обучения бинарных классификаторов, мы также можем рассматривать его как однослойную нейронную сеть с четырьмя основными параметрами: входными значениями, весами и смещением, чистой суммой и функцией активации.
Как работает персептрон?
Как обсуждалось ранее, перцептрон считается однослойной нейронной связью с четырьмя основными параметрами. Модель перцептрона начинается с умножения всех входных значений и их весов, а затем складывает эти значения для создания взвешенной суммы. Далее эта взвешенная сумма применяется к функции активации «f» для получения желаемого результата. Эта функция активации также известна как ступенчатая функция и обозначается буквой «f».
ИЗОБРАЖЕНИЕ ПРЕДОСТАВЛЕНО: javapoint
Эта пошаговая функция или функция активации жизненно важна для обеспечения сопоставления выходных данных между (0,1) или (-1,1). Обратите внимание, что вес входных данных указывает на силу узла. Аналогично, входное значение дает возможность сдвинуть кривую функции активации вверх или вниз.
Шаг 1. Умножьте все входные значения на соответствующие значения веса, а затем сложите, чтобы вычислить взвешенную сумму. Ниже приводится математическое выражение этого:
∑wi*xi = x1*w1 + x2*w2 + x3*w3+……..x4*w4
Добавьте к этой взвешенной сумме термин, называемый смещением «b», чтобы улучшить производительность модели.
Шаг 2: Применяется функция активации с вышеупомянутой взвешенной суммой, дающей нам результат либо в двоичной форме, либо в непрерывном значении следующим образом:
Y=f(∑wi*xi + b)
Поднимите свои навыки специалиста по данным на новый уровень с помощью магистерской программы Data Scientist от IBMExplore Programme
Типы моделей перцептрона
Мы уже обсуждали типы моделей персептрона во введении. Здесь мы дадим более глубокий взгляд на это:
- Модель однослойного перцептрона. Один из самых простых типов ИНС (искусственных нейронных сетей) состоит из сети прямой связи и включает пороговую передачу внутри модели. Основная цель однослойной модели перцептрона — анализ линейно разделимых объектов с двоичными результатами. Однослойный перцептрон может изучать только линейно разделимые шаблоны.
- Модель многослойного перцептрона: она в основном похожа на модель однослойного перцептрона, но имеет больше скрытых слоев.
Прямой этап: на входном уровне на этапе включения функции активации начинаются и завершаются на выходном слое.
Обратная стадия. На обратной стадии значения веса и смещения изменяются в соответствии с требованиями модели. Backstage устранил ошибку между фактическим выходом и требованиями, возникающими в обратном направлении на выходном уровне. Многослойная модель перцептрона обладает большей вычислительной мощностью и может обрабатывать линейные и нелинейные закономерности. Кроме того, он также реализует логические элементы, такие как AND, OR, XOR, XNOR и NOR.
Преимущества:
- Многослойная модель перцептрона может решать сложные нелинейные проблемы.
- Он хорошо работает как с маленькими, так и с большими входными данными.
- Помогает нам получать быстрые прогнозы после обучения.
- Помогает нам получить одинаковый коэффициент точности для больших и маленьких данных.
Недостатки:
- В многослойной модели перцептрона вычисления являются трудоемкими и сложными.
- Трудно предсказать, насколько зависимая переменная влияет на каждую независимую переменную.
- Функционирование модели зависит от качества обучения.
Характеристики модели персептрона
Ниже приведены характеристики модели перцептрона:
- Это алгоритм машинного обучения, который использует контролируемое обучение бинарных классификаторов.
- В Персептроне весовой коэффициент запоминается автоматически.
- Первоначально веса умножаются на входные признаки, а затем принимается решение, сработает нейрон или нет.
- Функция активации применяет правило шага, чтобы проверить, является ли функция более значимой, чем ноль.
- Нарисована граница линейного решения, позволяющая различать два линейно разделимых класса +1 и -1.
- Если суммированная сумма всех входных значений больше порогового значения, она должна иметь выходной сигнал; в противном случае вывод не будет показан.
Ограничение модели персептрона
Ниже приведены ограничения модели перцептрона:
- Выходной сигнал перцептрона может быть только двоичным числом (0 или 1) из-за жесткой передаточной функции.
- Его можно использовать только для классификации линейно разделимых наборов входных векторов. Если входные векторы нелинейны, правильно их классифицировать непросто.
Станьте самым высокооплачиваемым инженером по искусственному интеллекту! С нашей актуальной магистерской программой для инженеров по искусственному интеллектуУзнайте больше
Правило обучения перцептрона
Правило обучения перцептрона гласит, что алгоритм автоматически определит оптимальные весовые коэффициенты. Затем входные признаки умножаются на эти веса, чтобы определить, срабатывает нейрон или нет.
Перцептрон получает несколько входных сигналов, и если сумма входных сигналов превышает определенный порог, он либо выводит сигнал, либо не возвращает выходной сигнал. В контексте контролируемого обучения и классификации это можно затем использовать для прогнозирования класса выборки.
Далее давайте сосредоточимся на функции перцептрона.
Функция перцептрона
Персептрон — это функция, которая отображает входной сигнал «x», который умножается на изученный весовой коэффициент; генерируется выходное значение «f(x)».
В уравнении, приведенном выше:
- «w» = вектор действительных весов
- «b» = смещение (элемент, который корректирует границу от начала координат без какой-либо зависимости от входного значения)
- «x» = вектор входных значений x
- «m» = количество входов в персептрон
Выход может быть представлен как «1» или «0». Он также может быть представлен как «1» или «-1» в зависимости от того, какая функция активации используется.
Давайте изучим входные данные перцептрона в следующем разделе.
Входы перцептрона
Персептрон принимает входные данные, модерирует их с определенными значениями веса, а затем применяет функцию преобразования для вывода конечного результата. На изображении ниже показан перцептрон с логическим выводом.
Логический вывод основан на таких входных данных, как зарплата, брак, возраст, прошлый кредитный профиль и т. д. Он имеет только два значения: Да и Нет или Истина и Ложь. Функция суммирования «∑» умножает все входные данные «x» на веса «w», а затем складывает их следующим образом:
В следующем разделе давайте обсудим функции активации перцептронов.
Станьте самым высокооплачиваемым инженером по искусственному интеллекту! С нашей актуальной магистерской программой для инженеров по искусственному интеллектуУзнайте больше
Функции активации персептрона
Функция активации применяет правило шага (преобразует числовой выход в +1 или -1), чтобы проверить, больше ли выходной сигнал весовой функции нуля или нет.
Например:
Если ∑ wixi> 0 =>, то конечный результат «o» = 1 (выдать банковский кредит)
В противном случае конечный результат «o» = -1 (отказать в банковском кредите).
Ступенчатая функция срабатывает при превышении определенного значения выхода нейрона; в противном случае он выводит ноль. Функция знака выводит +1 или -1 в зависимости от того, больше ли выходной сигнал нейрона нуля или нет. Сигмоида представляет собой S-образную кривую и выводит значение от 0 до 1.
Выход персептрона
Персептрон с логическим выходом:
Входы: x1…xn
Выход: o(x1….xn)
Веса: wi=> вклад входного сигнала xi в выходной сигнал персептрона;
w0=> смещение или порог
Если ∑wx > 0, выходной сигнал равен +1, иначе -1. Нейрон срабатывает только тогда, когда взвешенный входной сигнал достигает определенного порогового значения.
Выход +1 указывает, что нейрон сработал. Выходное значение -1 указывает, что нейрон не сработал.
«sgn» означает знаковую функцию с выходом +1 или -1.
Ошибка в персептроне
В правиле обучения персептрона прогнозируемый результат сравнивается с известным выходом. Если он не совпадает, ошибка распространяется обратно, чтобы можно было выполнить корректировку веса.
Давайте обсудим функцию принятия решения перцептрона в следующем разделе.
Персептрон: функция принятия решения
Функция решения φ(z) перцептрона определяется как линейная комбинация векторов x и w.
Значение z в функции решения определяется выражением:
Функция решения равна +1, если z больше порогового значения θ, и равна -1 в противном случае.
Это алгоритм Персептрона.
Смещение единицы измерения
Для простоты порог θ можно перенести влево и представить как w0x0, где w0= -θ и x0= 1.
Величина w0 называется единицей смещения.
Тогда функция решения будет выглядеть следующим образом:
Выход:
На рисунке показано, как функция принятия решения сжимает wTx до +1 или -1 и как ее можно использовать для различения двух линейно разделимых классов.
Перцептрон с первого взгляда
Перцептрон имеет следующие характеристики:
- Перцептрон — это алгоритм контролируемого обучения однослойных бинарных линейных классификаторов.
- Оптимальные весовые коэффициенты определяются автоматически.
- Веса умножаются на входные характеристики, и принимается решение, сработает нейрон или нет.
- Функция активации применяет правило шага, чтобы проверить, больше ли выходной сигнал весовой функции нуля.
- Нарисована граница линейного решения, позволяющая различать два линейно разделимых класса +1 и -1.
- Если сумма входных сигналов превышает определенный порог, он выводит сигнал; в противном случае вывода нет.
Типы функций активации включают знаковую, ступенчатую и сигмовидную функции.
Реализуйте логические вентили с помощью персептрона
Персептрон — классификатор гиперплоскости
Правило обучения перцептрона сходится, если два класса можно разделить линейной гиперплоскостью. Однако если классы не могут быть идеально разделены с помощью линейного классификатора, это может привести к ошибкам.
Как обсуждалось в предыдущей теме, граница классификатора для двоичного вывода в персептроне представлена уравнением, приведенным ниже:
На диаграмме выше показана поверхность принятия решений, представленная персептроном с двумя входами.
Наблюдение:
- На рисунке (а) выше примеры можно четко разделить на положительные и отрицательные значения; следовательно, они линейно разделимы. Это могут быть логические элементы, такие как И, ИЛИ, НИ, И-НЕ.
- На рис. (b) показаны примеры, которые не являются линейно разделимыми (как в вентиле XOR).
- Диаграмма (а) представляет собой набор обучающих примеров и поверхность принятия решений персептроном, которая правильно их классифицирует.
- Диаграмма (б) представляет собой набор обучающих примеров, которые не являются линейно разделимыми, то есть не могут быть правильно классифицированы какой-либо прямой линией.
- X1 и X2 — входы перцептрона.
В следующем разделе давайте поговорим о логических вентилях.
Что такое логический вентиль?
Логические вентили являются строительными блоками цифровой системы, особенно нейронных сетей. Короче говоря, это электронные схемы, которые помогают сложению, выбору, отрицанию и комбинации формировать сложные схемы. Используя логические элементы, нейронные сети могут обучаться самостоятельно, без необходимости вручную кодировать логику. Большинство логических элементов имеют два входа и один выход.
Каждая клемма имеет одно из двух двоичных состояний: низкое (0) или высокое (1), представленное различными уровнями напряжения. Логическое состояние терминала меняется в зависимости от того, как схема обрабатывает данные.
Основываясь на этой логике, логические элементы можно разделить на семь типов:
- И
- NAND
- ИЛИ
- НИ
- НЕТ
- исключающее ИЛИ
- ИСНО-ИЛИ
Реализация базовых логических вентилей с помощью персептрона
Логические элементы, которые можно реализовать с помощью Perceptron, обсуждаются ниже.
1. И
Если два входа имеют значение ИСТИНА (+1), выход Персептрона положителен, что соответствует ИСТИНЕ.
Это желаемое поведение вентиля И.
x1= 1 (ИСТИНА), x2= 1 (ИСТИНА)
w0 = -.8, w1 = 0,5, w2 = 0,5
=> o(x1, x2) => -.8 + 0,5*1 + 0,5*1 = 0,2 > 0
2. ИЛИ
Если любой из двух входов имеет значение ИСТИНА (+1), выход Персептрона положителен, что соответствует ИСТИНЕ.
Это желаемое поведение вентиля ИЛИ.
x1 = 1 (ИСТИНА), x2 = 0 (ЛОЖЬ)
w0 = -.3, w1 = 0,5, w2 = 0,5
=> o(x1, x2) => -.3 + 0,5*1 + 0,5*0 = 0,2 > 0
3. Исключающее ИЛИ
Вентиль «исключающее ИЛИ», также называемый вентилем «исключающее ИЛИ», имеет два входа и один выход.
Гейт возвращает ИСТИНА на выходе тогда и ТОЛЬКО если одно из входных состояний истинно.
Таблица истинности XOR
Вход | Выход | |
А | Б | |
0 | 0 | 0 |
0 | 1 | 1 |
1 | 0 | 1 |
1 | 1 | 0 |
XOR Gate с нейронными сетями
В отличие от вентилей «И» и «ИЛИ», для вентиля «ИСКЛЮЧАЮЩЕЕ ИЛИ» требуется промежуточный скрытый слой для предварительного преобразования, чтобы реализовать логику вентиля «ИСКЛЮЧАЮЩЕЕ ИЛИ».
Вентиль XOR назначает веса так, чтобы условия XOR были выполнены. Его нельзя реализовать с помощью однослойного персептрона и требуется многоуровневый персептрон или MLP.
H представляет скрытый уровень, который позволяет реализовать XOR.
I1, I2, H3, H4, O5 имеют значения 0 (ЛОЖЬ) или 1 (ИСТИНА).
t3= порог для H3; t4= порог для H4; t5= порог для O5
H3= сигмовидная (I1*w13+ I2*w23–t3); H4= сигмовидная (I1*w14+ I2*w24–t4)
О5= сигмовидная (H3*w35+ H4*w45–t5);
Далее давайте узнаем больше о функции активации сигмоида!
Функция активации сигмовидной кишки
На диаграмме ниже показан персептрон с функцией активации сигмовидной мышцы. Sigmoid — одна из самых популярных функций активации.
Сигмовидная функция — это математическая функция с сигмовидной кривой («S-кривая»). Это частный случай логистической функции, который определяется функцией, приведенной ниже:
Здесь значение z равно:
Сигмовидная кривая
Здесь показана кривая сигмовидной функции, называемая «S-кривая».
Это называется логистической сигмоидой и приводит к вероятности значения от 0 до 1.
Это полезно в качестве функции активации, когда вас интересует отображение вероятностей, а не точные значения входного параметра t.
Сигмовидный выходной сигнал близок к нулю при сильно отрицательном входном сигнале. Это может быть проблемой при обучении нейронной сети и может привести к медленному обучению и попаданию модели в локальные минимумы во время обучения. Следовательно, гиперболический тангенс более предпочтителен в качестве функции активации в скрытых слоях нейронной сети.
Сигмовидная логика для выборочных данных
Выход
Выходной сигнал Персептрона равен 0,888, что указывает на вероятность того, что выходной сигнал y будет равен 1.
Если сигмоида выводит значение больше 0,5, выход помечается как TRUE. Поскольку выходное значение здесь равно 0,888, окончательный результат помечен как TRUE.
В следующем разделе давайте сосредоточимся на функциях выпрямителя и softplus.
Функции выпрямителя и Softplus
Помимо функций активации Sigmoid и Sign, рассмотренных ранее, другими распространенными функциями активации являются ReLU и Softplus. Они исключают отрицательные единицы, поскольку на выходе функции max будет 0 для всех единиц 0 или меньше.
Выпрямитель или ReLU (выпрямленный линейный блок) — это широко используемая функция активации. Эта функция позволяет исключить отрицательные единицы в ИНС. Это самая популярная функция активации, используемая в глубоких нейронных сетях.
- Плавным приближением выпрямителя является функция Softplus.
- Производной Softplus является логистическая или сигмовидная функция.
В следующем разделе давайте обсудим преимущества функции ReLu.
Преимущества функций ReLu
Преимущества функции ReLu заключаются в следующем:
- Обеспечивает более быстрое и эффективное обучение глубоких нейронных архитектур на больших и сложных наборах данных.
- Редкая активация только около 50% единиц нейронной сети (поскольку отрицательные единицы удаляются)
- Более правдоподобно или односторонне по сравнению с антисимметрией таня.
- Эффективное распространение градиента, что означает отсутствие проблем с исчезновением или взрывом градиента.
- Эффективные вычисления с использованием только сравнения, сложения или умножения.
- Хорошо масштабируется
Ограничения функций ReLu
- Недифференцируемость при нуле. Недифференцируемость при нуле означает, что значения, близкие к нулю, могут давать противоречивые или трудноразрешимые результаты.
- Ненулевое центрирование. Ненулевое центрирование создает асимметрию вокруг данных (обрабатываются только положительные значения), что приводит к неравномерной обработке данных.
- Неограниченный — выходное значение не имеет ограничений и может привести к вычислительным проблемам при передаче больших значений.
- Проблема умирающего ReLU. Когда скорость обучения слишком высока, нейроны Relu могут стать неактивными и «умереть».
В следующем разделе давайте сосредоточимся на функции Softmax.
Функция Софтмакс
Еще одна очень популярная функция активации — функция Softmax. Softmax выводит вероятность принадлежности результата к определенному набору классов. Это похоже на логику категоризации в конце нейронной сети. Например, его можно использовать в конце нейронной сети, которая пытается определить, содержит ли изображение движущегося объекта животное, автомобиль или самолет.
В математике Softmax или нормализованная экспоненциальная функция представляет собой обобщение логистической функции, которая сжимает K-мерный вектор произвольных действительных значений в K-мерный вектор действительных значений в диапазоне (0, 1), сумма которых равна 1.
В теории вероятностей выходные данные функции Softmax представляют собой распределение вероятностей по K различным результатам.
В Softmax вероятность того, что конкретная выборка с чистым входом z принадлежит i-му классу, может быть вычислена с нормировочным членом в знаменателе, то есть суммой всех M линейных функций:
Функция Softmax используется в ИНС и наивных байесовских классификаторах.
Например, если мы возьмем входные данные (1,2,3,4,1,2,3), Softmax будет (0,024, 0,064, 0,175, 0,475, 0,024, 0,064, 0,175). Выходные данные имеют большую часть своего веса, если исходные входные данные равны «4». Эта функция обычно используется для:
- Выделение самых больших значений
- Подавление значений, которые значительно ниже максимального значения.
Здесь демонстрируется функция Softmax.
Этот код реализует формулу softmax и печатает вероятность принадлежности к одному из трех классов. Сумма вероятностей по всем классам равна 1.
Давайте поговорим о гиперболических функциях в следующем разделе.
Гиперболические функции
1. Гиперболический тангенс.
Гиперболическая функция или функция Тан часто используется в нейронных сетях в качестве функции активации. Он обеспечивает выходной сигнал от -1 до +1. Это расширение логистической сигмоиды; разница в том, что здесь выходной сигнал находится в диапазоне от -1 до +1.
Преимущество гиперболического тангенса перед логистической функцией состоит в том, что он имеет более широкий выходной спектр и диапазон значений в открытом интервале (-1, 1), что может улучшить сходимость алгоритма обратного распространения ошибки.
2. Гиперболические функции активации.
На графике ниже показана кривая этих функций активации:
Помимо них, tanh, sinh и cosh также могут использоваться для функции активации.
На основании желаемого результата специалист по данным может решить, какие из этих функций активации необходимо использовать в логике персептрона.
3. Гиперболический тангенс.
Этот код реализует формулу Тан. Затем он вызывает логистические функции и функции tanh для значения z. Функция tanh имеет в два раза больше выходного пространства, чем логистическая функция.
Благодаря большему выходному пространству и симметрии вокруг нуля функция tanh приводит к более равномерной обработке данных, и легче достичь глобальных максимумов в функции потерь.
Функции активации: краткий обзор
Ниже показаны различные функции активации, которые можно использовать с Perceptron:
Используемая функция активации — это субъективное решение, принимаемое специалистом по данным на основе постановки задачи и формы желаемых результатов. Если процесс обучения медленный или имеет исчезающие или взрывные градиенты, специалист по данным может попытаться изменить функцию активации, чтобы посмотреть, можно ли решить эти проблемы.
Будущее персептрона
С ростом популярности и использования машинного обучения будущее персептрона кажется значительным и перспективным. Это помогает интерпретировать данные, создавая врожденные закономерности и быстро их применяя. В эту эпоху кодирование постоянно развивается, и конец технологии перцептрона будет продолжать поддерживать и облегчать аналитическое поведение в машинах, что повысит эффективность современных компьютеров.
Краткое содержание
Подведем итог тому, что мы узнали в этом уроке:
- Искусственный нейрон — это математическая функция, задуманная как модель биологических нейронов, то есть нейронная сеть.
- Персептрон — это модуль нейронной сети, который выполняет определенные вычисления для обнаружения функций или бизнес-аналитики во входных данных. Это функция, которая отображает входной сигнал «x», который умножается на изученный весовой коэффициент, и генерирует выходное значение «f(x).
- «Правило обучения перцептрона» гласит, что алгоритм автоматически вычисляет оптимальные весовые коэффициенты.
- Однослойные перцептроны могут обучаться только линейно разделимым шаблонам.
- Многослойный персептрон или нейронная сеть прямого распространения с двумя или более слоями обладают большей вычислительной мощностью и также могут обрабатывать нелинейные закономерности.
- Персептроны могут реализовывать логические элементы, такие как AND, OR или XOR.
Заключение
В предыдущем обсуждении мы узнали о моделях персептрона, простейшем типе искусственной нейронной сети, которая передает входные данные и их веса, сумму всей взвешенной информации и функцию активации. Все модели Perceptron постоянно вносят свой вклад в AIML. Модели персептрона помогают компьютеру более эффективно работать над сложными задачами с использованием технологий машинного обучения. Это основы искусственных нейронных сетей, и такие модели должен знать каждый, чтобы углубленно изучать нейронные сети.
На этом мы подошли к концу этого руководства по персептрону, который является одной из наиболее важных концепций искусственного интеллекта. Это одна из часто задаваемых тем на собеседованиях по глубокому обучению. Однако, если вы хотите овладеть искусственным интеллектом, запишитесь на курс искусственного интеллекта Simplilearn, станьте инженером искусственного интеллекта и откройте новые возможности трудоустройства, как никогда раньше!
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)