Искусственный интеллект создает синтетические данные для машинного обучения

Исследователям искусственного интеллекта в Израиле, ищущим методы лечения COVID-19, необходимо изучить записи тысяч ранних пациентов с пандемией. Обычно процесс получения разрешения от этих пациентов на доступ к их конфиденциальным данным для этого исследования занял бы недели или месяцы, но исследователи смогли получить доступ к данным почти мгновенно. Причина? Полученные ими данные были синтетическими: вместо необработанных медицинских карт пациентов израильская компания MDClone рекомбинировала исходные записи в новый, статистически достоверный набор данных, который исследователи могли использовать, не опасаясь нарушения конфиденциальности пациентов.

Системы искусственного интеллекта, использующие машинное обучение, разрабатывают правила и выводы о мире, которые затем определяют решения относительно новой информации. Машинное обучение зависит от доступа к достаточному объему данных об области приложения, что позволяет обучать систему и создавать надежный набор правил и выводов. Чем больше данных система имеет из примеров конкретного решения или ситуации, тем лучше модель, которую система может построить, чтобы предоставить интеллектуальную и полезную информацию. Однако могут возникнуть проблемы с получением данных, необходимых системе.

Введите синтетические данные. Синтетические данные относятся к наборам данных, которые содержат записи, которые имитируют реальные данные, но не являются реальными записями. Любая организация, стремящаяся применить искусственный интеллект, машинное обучение и глубокое обучение в своей деятельности, должна осознавать важность синтетических данных.

Что такое синтетические данные?

Существует два источника синтетических данных:

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Реальные данные. Реальные данные могут быть лишены личной информации (PII) и личной медицинской информации (PHI), но этого недостаточно для полной защиты конфиденциальности, поскольку записи данных все равно можно сравнить с другими идентифицируемыми источниками. Как и в примере с COVID-19, анонимизированные данные должны быть рекомбинированы таким образом, чтобы сохранить все статистические свойства набора данных, чтобы алгоритмы машинного обучения могли делать правильные выводы и создавать действительные правила.
Моделируемые данные. В некоторых случаях препятствием для машинного обучения является недостаток реальных данных. Иногда сбор реальных данных может стоить слишком дорого или занимать слишком много времени, чтобы быть практичным. В этих случаях, моделирование может предоставить данные это достаточно близко к реальным примерам, которые алгоритмы машинного обучения могут правильно обучить. Например, индустрия беспилотных транспортных средств использует комбинацию данных реальных датчиков транспортных средств, движущихся по дорогам, и смоделированных данных, полученных в результате моделирования вождения (даже видеоигры, такие как Grand Theft Auto).

Есть много причин использовать синтетические данные вместо необработанных реальных данных:

Конфиденциальность, конфиденциальность и другие ограничения на использование данных, такие как правила конфиденциальности в отношении здоровья HIPAA в США или защита конфиденциальности потребителей GDPR в Европейском Союзе.
Недостаточно реальных данных из-за стоимости или сложности сбора данных.
Невстреченные условия, такие как явления, которые никогда не наблюдались (например, супервулкан), места, которые никогда не были достигнуты (например, поверхность другой планеты) или просто условия работы системы, которая еще не использовалась.
Коррекция статистических аномалий или систематических ошибок в реальных данных, например, когда в реальных данных есть редкие выбросы, которые необходимо искусственно сделать более распространенными, чтобы у системы было достаточно примеров для обучения.

Где используются синтетические данные?

Синтетические данные поддерживают множество различных приложений. Некоторые из них:

Автоматизированное тестирование программного обеспечения для DevOps. Разработка программного обеспечения всегда требовала тестовых данных, но сегодня короткие циклы Agile-разработки DevOps требуют больше тестовых данных, чем когда-либо.
Разработка беспилотных автомобилей. Эксплуатация сенсорных автомобилей на реальных дорогах — дорогостоящий и медленный процесс, а синтез данных симуляций вождения обеспечивает гораздо больший набор данных для обучения искусственного интеллекта с автоматическим вождением.
Автоматизация производства и робототехника. Как и сбор автомобильных данных, сбор реальных данных в робототехнике и производственных приложениях может быть медленным и дорогостоящим, поэтому синтетические данные могут сделать обучение систем искусственного интеллекта в этих приложениях более эффективным.
Финансовые услуги. Как и данные здравоохранения, личные финансовые данные подлежат строгому контролю конфиденциальности, а синтетические данные дают разработчикам и корпоративным пользователям доступ к более крупным наборам данных без нарушения конфиденциальности.
Маркетинговые симуляции, включающие поведение потребителей. Реальное поведение потребителей в Интернете регулируется GDPR и другими ограничениями, поэтому синтетический набор данных позволяет более широко и глубоко обучать маркетинговому ИИ.
Клинические исследования здоровья. PHI строго регулируется, поэтому синтетические данные делают возможными ИИ и машинное обучение там, где в противном случае наборы данных могли бы быть слишком ограниченными, чтобы быть полезными.
Распознавание лиц. Использование фотографий реальных людей для обучения распознаванию лиц может нарушить ограничения конфиденциальности и привести к предвзятости из-за недостаточно представленных типов лиц, а синтетические данные о лицах могут решить эти проблемы.
Социальные медиа. Платформам социальных сетей необходимо научить системы искусственного интеллекта обнаруживать разжигание ненависти и экстремистский контент, поэтому им нужны наборы данных, на которые не распространяются правила и проблемы конфиденциальности.

Повысьте свои навыки и повысьте свою карьеру с помощью курса искусственного интеллекта и машинного обучения.

Синтетические данные помогают развитию ИИ

Синтетические данные — это растущая область исследований и разработок в области искусственного интеллекта и машинного обучения. Массачусетский технологический институт недавно представил свой Синтетическое хранилище данных проект с открытым исходным кодом, попытка предоставить универсальный источник синтетических данных для всех видов приложений машинного обучения. Хотя хранилище синтетических данных является новым, оно основано на исследованиях, которые проводятся в Массачусетском технологическом институте с 2013 года.

Поле синтетических данных также растет с точки зрения количества игроков. Вот десять компаний в бизнесе:

АйФай для ритейла
AI.Reverie для машинного зрения
Anyverse для беспилотных автомобилей
Cvedia для машинного зрения
DataGen для дополненной реальности во внутренних помещениях
Дайвплан для клинических данных здравоохранения
Гретель создает инструмент синтеза данных
Hazy для обнаружения финансового мошенничества
В основном искусственный интеллект для банковского дела, финансовых услуг и страхования.
OneView для геопространственных изображений

Синтетические данные открывают возможности не только для компаний в этой конкретной области, но и для всех приложений искусственного интеллекта, машинного обучения и глубокого обучения. Спрос на архитекторов искусственного интеллекта, инженеров по машинному обучению, экспертов DevOps и специалистов в области смежных технологий быстро растет. Курсы и программы Simplilearn, такие как наш курс искусственного интеллекта и машинного обучения в партнерстве с Университетом Пердью, дадут вам доступ к навыкам, необходимым для конкуренции в этой важной области.