Что такое ограниченные машины Больцмана? Руководство для начинающих по RBM

Метод ограниченной машины Больцмана, используемый для выбора и извлечения признаков, имеет решающее значение в эпоху машинного и глубокого обучения для уменьшения размерности, классификации, регрессии и многих других задач. В этой статье мы обсудим эту технику, ее особенности, работу и обучение.

Но прежде чем углубиться в это, сначала давайте поймем, что такое машины Больцмана.

Что такое машины Больцмана?

Ученый из Университета Торонто по имени Джеффри Хинтон впервые создал машину Больцмана в 1985 году. Некоторые называют его «крестным отцом глубокого обучения», и он является видным членом сообщества глубокого обучения.

Машина Больцмана — это генеративная модель без присмотра, которая основана на изучении распределения вероятностей из уникального набора данных и использовании этого распределения для получения выводов о неисследованных данных. Машина Больцмана имеет один или несколько скрытых слоев в дополнение к входному слою, также известному как видимый слой или скрытый слой.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Машина Больцмана использует нейронные сети, в которых нейроны связаны как с нейронами в одном слое, так и с нейронами в разных слоях. Каждый аспект Вселенной взаимосвязан. Связи двусторонние: как видимые, так и скрытые нейроны соединяются друг с другом. Больцман Машина генерирует данные; он не ждет ввода. Нейроны производят информацию независимо от того, видимы они или нет.

Все нейроны одинаково обрабатываются машиной Больцмана, которая не делает различия между видимыми и скрытыми нейронами. Совокупность объектов, а также порождающее состояние системы составляют машину Больцмана.

Энергетические модели

Выборочное распределение машины Больцмана использует распределение Больцмана. Следующее уравнение управляет распределением Больцмана:

Pi = e(-εi/kT)/ ∑e(-εj/kT)

k – постоянная Больцмана

∈i – энергия системы в состоянии i

Pi – вероятность нахождения системы в состоянии i

∑e(-εj/kT) — сумма значений для всех возможных состояний системы.

Т – температура системы

Распределение Больцмана определяет множество состояний системы, и машины Больцмана используют это распределение для генерации различных состояний машины. Согласно приведенному выше уравнению, вероятность того, что система окажется в состоянии I, уменьшается по мере увеличения энергии системы. Таким образом, в самом низком энергетическом состоянии система является наиболее стабильной (газ наиболее стабилен при распространении). В этом случае веса синапсов используются для определения энергии системы в машинах Больцмана. Система всегда стремится найти состояние с наименьшей энергией, изменяя веса после обучения и установления весов.

Давайте теперь разберемся в типах машин Больцмана.

Типы машин Больцмана

Различные типы машин Больцмана:

  • Сети глубоких убеждений (DBN)
  • Ограниченные машины Больцмана (RBM)
  • Глубинные машины Больцмана (DBM)

Мы кратко обсудим каждый из этих типов машин Больцмана.

Ограниченные машины Больцмана (RBM)

Ограниченный термин означает, что нам не разрешено соединять два типа слоев одного и того же типа друг с другом. Другими словами, два скрытых слоя или входных слоя нейронов не могут образовывать связи друг с другом. Однако между видимыми и скрытыми слоями могут существовать связи.

Поскольку в нашей машине нет выходного слоя, неясно, как мы будем обнаруживать, изменять веса и определять, был ли наш прогноз верным. На все вопросы отвечает один ответ: Ограниченная машина Больцмана.

Сети глубоких убеждений (DBN)

Рассмотрите возможность объединения нескольких RBM так, чтобы выходные данные первого RBM служили входными данными для второго RBM и так далее. Deep Belief Networks — это название, данное этим сетям. Соединения каждого уровня ненаправлены (поскольку каждый уровень представляет собой RBM). Между слоями одновременно направлены (кроме двух верхних слоев, связи которых ненаправлены). DBN можно обучать двумя разными способами:

  • Жадный алгоритм послойного обучения: RBM обучаются с использованием жадного алгоритма послойного обучения. Ориентация между слоями DBN устанавливается, как только отдельные RBM обучены (т. е. определены параметры, веса и смещения).
  • Алгоритм пробуждения-сна: DBN обучается снизу вверх с использованием алгоритма пробуждения-сна (поднимающиеся соединения указывают на пробуждение), а затем снизу вверх с использованием соединений, указывающих на сон.

Чтобы гарантировать, что соединения слоев работают только вниз, мы складываем RBM, обучаем их, а затем делаем это (за исключением двух верхних слоев).

Глубинные машины Больцмана (DBM)

Подобно ДБН, БДМ помимо связей внутри уровней имеют еще и ненаправленные связи между уровнями (в отличие от ДБН, в которой связи слоев являются направленными). DBM можно использовать для более сложных задач, поскольку они могут извлекать более сложные или сложные функции.

Теперь мы будем более подробно изучать RBM.

Что такое RBM?

Машины Больцмана включают соединения между видимыми и скрытыми узлами, а RBM — нет. Вот чем отличаются от них УОР. Машины Больцмана и RBM идентичны во всем остальном.

Нейронная сеть, являющаяся частью энергетической модели, называется RBM. Это генеративный, неконтролируемый, вероятностный алгоритм глубокого обучения. Целью RBM является поиск совместного распределения вероятностей, которое максимизирует функцию логарифмического правдоподобия. У RBM есть только два слоя: входной и скрытый, и он ненаправлен. Все скрытые узлы связаны со всеми видимыми узлами. RBM также называют асимметричным двудольным графом, поскольку он имеет два слоя: видимый или входной слой и скрытый слой. Видимые узлы не имеют никаких соединений внутри одного слоя. Скрытые узлы также не связаны внутри слоя. Только входные и скрывающие узлы имеют соединения.

Все узлы исходной машины Больцмана связаны. RBM называют ограниченной машиной Больцмана, поскольку она ограничивает внутриуровневую связность.

RBM не изменяют свои веса посредством обратного распространения ошибки и градиентного спуска, поскольку они ненаправлены. Они меняют свои веса, используя технику, известную как контрастивная дивергенция. Веса видимых узлов изначально создаются случайным образом и используются для создания скрытых узлов. Затем эти скрытые узлы воссоздают открытые узлы, используя те же веса. Повсюду для реконструкции видимых узлов использовались одни и те же веса. Из-за отсутствия связности созданные узлы отличаются друг от друга.

Теперь мы рассмотрим особенности ограниченной машины Больцмана.

Особенности ограниченной машины Больцмана

Некоторые ключевые характеристики машины Больцмана:

  • Связей между слоями нет.
  • Они используют симметричные и повторяющиеся структуры.
  • Это алгоритм обучения без учителя, то есть он делает выводы на основе входных данных без помеченных ответов.
  • В процессе обучения RBM пытаются связать состояния низкой энергии с состояниями высокой вероятности и наоборот.

Давайте теперь посмотрим на работу ограниченной машины Больцмана.

Работа УОР

Функция низкого уровня из целевого элемента обучения в наборе данных используется каждым видимым узлом. Узел 1 скрытого слоя умножает x на вес и добавляет его к смещению. Результаты этих двух процедур передаются в функцию активации, которая, учитывая входное значение x, создает выходной сигнал узла или мощность сигнала, проходящего через него.

Давайте теперь посмотрим, сколько входов будет смешано в одном скрытом узле. Выходные данные узла создаются путем умножения каждого x на отдельный вес, суммирования продуктов, добавления суммы к смещению и последующей передачи окончательного результата еще раз через функцию активации.

Каждый вход x умножается на соответствующий ему вес w в каждом скрытом узле. Другими словами, в этой ситуации один входной сигнал x будет иметь три веса, всего 12 весов (4 входных узла x 3 скрытых узла). Веса между двумя слоями всегда будут создавать матрицу с входными узлами в строках и выходными узлами в столбцах.

Четыре входных сигнала отправляются в каждый скрытый узел и умножаются на каждый вес. Каждый скрытый узел получает один выход в результате алгоритма активации после того, как сумма этих произведений еще раз добавляется к смещению (что приводит к возникновению хотя бы некоторых активаций).

Теперь, когда у вас есть базовое представление о том, как работает ограниченная машина Больцмана, давайте перейдем к рассмотрению процедур обучения УОК.

Обучение УОР

Для обучения RBM используются два метода — выборка Гиббса и контрастивная дивергенция.

Когда прямая выборка затруднительна, метод Монте-Карло с цепью Маркова, известный как выборка Гиббса, используется для получения серии наблюдений, которые грубо получены из заданного многомерного распределения вероятностей.

Прогноз представляет собой скрытое значение с помощью h и p(h|v), если входные данные представлены как v. P(v|h) используется для прогнозирования восстановленных входных значений, когда скрытые значения известны. Предположим, что после k раундов vk получается из входного значения v 0 после того, как этот процесс был выполнен k раз.

Чтобы аппроксимировать наклон графика, графический наклон, показывающий взаимосвязь между ошибками сети и ее весами, называется градиентом в контрастной дивергенции. Контрастная дивергенция — это грубый подход к обучению с максимальным правдоподобием, который используется, когда нам нужно аппроксимировать градиент обучения алгоритма и выбрать, в каком направлении двигаться, поскольку мы не можем напрямую оценить набор вероятностей или функцию.

Веса обновляются на компакт-диске. Градиент сначала определяется на основе восстановленных входных данных, а старые веса обновляются путем добавления дельты.

Давайте теперь рассмотрим различные преимущества и недостатки RBM.

Преимущества и недостатки RBM

Некоторые из преимуществ RBM:

  • Активации скрытого слоя могут быть включены в другие модели в качестве ценных функций для повышения производительности.
  • Из-за ограничений на соединения между узлами он работает быстрее стандартной машины Больцмана.
  • Эффективно вычисляемый и достаточно выразительный, чтобы закодировать любой дистрибутив.

Некоторые недостатки RBM:

  • Алгоритм обратного распространения ошибки более известен, чем алгоритм CD-k, который используется в RBM.
  • Поскольку вычислить функцию градиента энергии сложно, обучение становится более сложной задачей.
  • Модификация веса.

Теперь мы рассмотрим применение RBM.

Применение УОР

  • Радарное внутриимпульсное обнаружение в реальном времени

Мы можем реализовать радарное внутриимпульсное обнаружение в реальном времени, используя свойства RBM внутриимпульсного извлечения. Радарное извлечение имеет большое значение, но сталкивается с такими трудностями, как ограниченные возможности представления данных и устойчивость к шуму.

Функция неоднозначности радиолокационных сигналов (AF) используется в качестве внутриимпульсной характеристики для улучшения качества распознавания. Для извлечения важной информации из ФП использовались многочисленные методы уменьшения размерности. Однако старые алгоритмы обычно обрабатывают большой объем данных и быстро замедляются по мере увеличения количества точек выборки, что не соответствует требованиям современного интеллекта.

Для правильного извлечения признаков здесь используется ограниченная машина Больцмана (RBM), стохастическая нейронная сеть. Прежде чем использовать подход разложения по сингулярным значениям (SVD) для снижения шума при низком SNR в основной области гребня AF, мы сначала рассчитываем AF радиолокационных сигналов. Наконец, обученный RBM получает обработанные данные для получения результатов распознавания.

  • Распознавание рукописных цифр

Современные приложения включают проверку чеков, улики по уголовным делам, ввод данных и компьютеризацию офиса с использованием распознавания рукописных цифр, что в настоящее время является довольно распространенной проблемой. Кроме того, у него есть недостатки, в том числе непоследовательные стили письма, несоответствие размеров и форм, а также шум изображения, который изменяет топологию цифр. Для распознавания цифр здесь применяется гибридный алгоритм RBM-CNN. Во-первых, для извлечения функций используются методы глубокого обучения RBM. Затем в систему глубокого обучения CNN передаются функции, полученные для категоризации. Способность извлекать характеристики входных данных является сильной стороной RBM. Вводя скрытые единицы без присмотра, он создается таким образом, что может извлекать отличительные характеристики из огромных и сложных наборов данных.

Наши ученики также задают вопросы

1. Для чего используются ограниченные машины Больцмана?

Например, веса, присутствующие в соединениях для задачи поиска, могут быть фиксированными и использоваться для представления функции стоимости задачи оптимизации. Машины Больцмана обычно используются для решения различных вычислительных задач.

2. Используются ли до сих пор ограниченные машины Больцмана?

В настоящее время RBM широко не используются; вместо этого используются глубокие сети с прямой связью с такими слоями, как сверточные слои, полностью связные слои и добавление каких-то слоев регуляризации, таких как выпадение, а также недавняя пакетная нормализация с промежуточными слоями активации, обычно ReLU, но сигмовидная и танх также используется, а также, возможно, используются некоторые максимальные пулы.

3. В чем разница между машинами Больцмана и ограниченными машинами Больцмана?

В каждом алгоритме есть два уровня: явный и скрытый. Каждый нейрон видимого слоя машины Больцмана связан с каждым нейроном скрытого слоя, а также связаны отдельные нейроны всех слоев. RBM, с другой стороны, представляет собой частный случай машины Больцмана с тем ограничением, что нейроны внутри слоя не связаны между собой, т. е. отсутствует внутриуровневая связь, что делает их независимыми и их проще реализовать как условную независимость, которая так нам нужно будет вычислить только предельную вероятность, которую вычислить проще.

4. Что вы знаете об ограниченной машине Больцмана (RBM)?

Стохастическая искусственная нейронная сеть, которая является генеративной по своей природе и может изучать распределение вероятностей по набору входных данных, называется ограниченной машиной Больцмана (RBM).

5. Каковы два слоя ограниченной машины Больцмана?

Входной слой, или видимый слой, является первым слоем RBM, а скрытый слой — вторым.

Станьте экспертом AI-ML с Simplilearn

В этой статье мы кратко обсудили машины Больцмана и их типы, а также немного углубленно узнали об ограниченных машинах Больцмана (RBM), а также об их особенностях, работе, обучении, преимуществах, недостатках и приложениях.

Чтобы глубже изучить эти концепции и стать экспертом в области машинного обучения, изучите сертификацию AI и ML от Simplilearn уже сегодня!

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *