Искусственный интеллект создает синтетические данные для машинного обучения

Исследователям искусственного интеллекта в Израиле, ищущим методы лечения COVID-19, необходимо изучить записи тысяч ранних пациентов с пандемией. Обычно процесс получения разрешения от этих пациентов на доступ к их конфиденциальным данным для этого исследования занял бы недели или месяцы, но исследователи смогли получить доступ к данным почти мгновенно. Причина? Полученные ими данные были синтетическими: вместо необработанных медицинских карт пациентов израильская компания MDClone рекомбинировала исходные записи в новый, статистически достоверный набор данных, который исследователи могли использовать, не опасаясь нарушения конфиденциальности пациентов.

Системы искусственного интеллекта, использующие машинное обучение, разрабатывают правила и выводы о мире, которые затем определяют решения относительно новой информации. Машинное обучение зависит от доступа к достаточному объему данных об области приложения, что позволяет обучать систему и создавать надежный набор правил и выводов. Чем больше данных система имеет из примеров конкретного решения или ситуации, тем лучше модель, которую система может построить, чтобы предоставить интеллектуальную и полезную информацию. Однако могут возникнуть проблемы с получением данных, необходимых системе.

Введите синтетические данные. Синтетические данные относятся к наборам данных, которые содержат записи, которые имитируют реальные данные, но не являются реальными записями. Любая организация, стремящаяся применить искусственный интеллект, машинное обучение и глубокое обучение в своей деятельности, должна осознавать важность синтетических данных.

Что такое синтетические данные?

Существует два источника синтетических данных:

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

  • Реальные данные. Реальные данные могут быть лишены личной информации (PII) и личной медицинской информации (PHI), но этого недостаточно для полной защиты конфиденциальности, поскольку записи данных все равно можно сравнить с другими идентифицируемыми источниками. Как и в примере с COVID-19, анонимизированные данные должны быть рекомбинированы таким образом, чтобы сохранить все статистические свойства набора данных, чтобы алгоритмы машинного обучения могли делать правильные выводы и создавать действительные правила.
  • Моделируемые данные. В некоторых случаях препятствием для машинного обучения является недостаток реальных данных. Иногда сбор реальных данных может стоить слишком дорого или занимать слишком много времени, чтобы быть практичным. В этих случаях, моделирование может предоставить данные это достаточно близко к реальным примерам, которые алгоритмы машинного обучения могут правильно обучить. Например, индустрия беспилотных транспортных средств использует комбинацию данных реальных датчиков транспортных средств, движущихся по дорогам, и смоделированных данных, полученных в результате моделирования вождения (даже видеоигры, такие как Grand Theft Auto).

Есть много причин использовать синтетические данные вместо необработанных реальных данных:

  • Конфиденциальность, конфиденциальность и другие ограничения на использование данных, такие как правила конфиденциальности в отношении здоровья HIPAA в США или защита конфиденциальности потребителей GDPR в Европейском Союзе.
  • Недостаточно реальных данных из-за стоимости или сложности сбора данных.
  • Невстреченные условия, такие как явления, которые никогда не наблюдались (например, супервулкан), места, которые никогда не были достигнуты (например, поверхность другой планеты) или просто условия работы системы, которая еще не использовалась.
  • Коррекция статистических аномалий или систематических ошибок в реальных данных, например, когда в реальных данных есть редкие выбросы, которые необходимо искусственно сделать более распространенными, чтобы у системы было достаточно примеров для обучения.

Где используются синтетические данные?

Синтетические данные поддерживают множество различных приложений. Некоторые из них:

  • Автоматизированное тестирование программного обеспечения для DevOps. Разработка программного обеспечения всегда требовала тестовых данных, но сегодня короткие циклы Agile-разработки DevOps требуют больше тестовых данных, чем когда-либо.
  • Разработка беспилотных автомобилей. Эксплуатация сенсорных автомобилей на реальных дорогах — дорогостоящий и медленный процесс, а синтез данных симуляций вождения обеспечивает гораздо больший набор данных для обучения искусственного интеллекта с автоматическим вождением.
  • Автоматизация производства и робототехника. Как и сбор автомобильных данных, сбор реальных данных в робототехнике и производственных приложениях может быть медленным и дорогостоящим, поэтому синтетические данные могут сделать обучение систем искусственного интеллекта в этих приложениях более эффективным.
  • Финансовые услуги. Как и данные здравоохранения, личные финансовые данные подлежат строгому контролю конфиденциальности, а синтетические данные дают разработчикам и корпоративным пользователям доступ к более крупным наборам данных без нарушения конфиденциальности.
  • Маркетинговые симуляции, включающие поведение потребителей. Реальное поведение потребителей в Интернете регулируется GDPR и другими ограничениями, поэтому синтетический набор данных позволяет более широко и глубоко обучать маркетинговому ИИ.
  • Клинические исследования здоровья. PHI строго регулируется, поэтому синтетические данные делают возможными ИИ и машинное обучение там, где в противном случае наборы данных могли бы быть слишком ограниченными, чтобы быть полезными.
  • Распознавание лиц. Использование фотографий реальных людей для обучения распознаванию лиц может нарушить ограничения конфиденциальности и привести к предвзятости из-за недостаточно представленных типов лиц, а синтетические данные о лицах могут решить эти проблемы.
  • Социальные медиа. Платформам социальных сетей необходимо научить системы искусственного интеллекта обнаруживать разжигание ненависти и экстремистский контент, поэтому им нужны наборы данных, на которые не распространяются правила и проблемы конфиденциальности.

Повысьте свои навыки и повысьте свою карьеру с помощью курса искусственного интеллекта и машинного обучения.

Синтетические данные помогают развитию ИИ

Синтетические данные — это растущая область исследований и разработок в области искусственного интеллекта и машинного обучения. Массачусетский технологический институт недавно представил свой Синтетическое хранилище данных проект с открытым исходным кодом, попытка предоставить универсальный источник синтетических данных для всех видов приложений машинного обучения. Хотя хранилище синтетических данных является новым, оно основано на исследованиях, которые проводятся в Массачусетском технологическом институте с 2013 года.

Поле синтетических данных также растет с точки зрения количества игроков. Вот десять компаний в бизнесе:

  • АйФай для ритейла
  • AI.Reverie для машинного зрения
  • Anyverse для беспилотных автомобилей
  • Cvedia для машинного зрения
  • DataGen для дополненной реальности во внутренних помещениях
  • Дайвплан для клинических данных здравоохранения
  • Гретель создает инструмент синтеза данных
  • Hazy для обнаружения финансового мошенничества
  • В основном искусственный интеллект для банковского дела, финансовых услуг и страхования.
  • OneView для геопространственных изображений

Синтетические данные открывают возможности не только для компаний в этой конкретной области, но и для всех приложений искусственного интеллекта, машинного обучения и глубокого обучения. Спрос на архитекторов искусственного интеллекта, инженеров по машинному обучению, экспертов DevOps и специалистов в области смежных технологий быстро растет. Курсы и программы Simplilearn, такие как наш курс искусственного интеллекта и машинного обучения в партнерстве с Университетом Пердью, дадут вам доступ к навыкам, необходимым для конкуренции в этой важной области.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *