Искусственный интеллект создает синтетические данные для машинного обучения
Исследователям искусственного интеллекта в Израиле, ищущим методы лечения COVID-19, необходимо изучить записи тысяч ранних пациентов с пандемией. Обычно процесс получения разрешения от этих пациентов на доступ к их конфиденциальным данным для этого исследования занял бы недели или месяцы, но исследователи смогли получить доступ к данным почти мгновенно. Причина? Полученные ими данные были синтетическими: вместо необработанных медицинских карт пациентов израильская компания MDClone рекомбинировала исходные записи в новый, статистически достоверный набор данных, который исследователи могли использовать, не опасаясь нарушения конфиденциальности пациентов.
Системы искусственного интеллекта, использующие машинное обучение, разрабатывают правила и выводы о мире, которые затем определяют решения относительно новой информации. Машинное обучение зависит от доступа к достаточному объему данных об области приложения, что позволяет обучать систему и создавать надежный набор правил и выводов. Чем больше данных система имеет из примеров конкретного решения или ситуации, тем лучше модель, которую система может построить, чтобы предоставить интеллектуальную и полезную информацию. Однако могут возникнуть проблемы с получением данных, необходимых системе.
Введите синтетические данные. Синтетические данные относятся к наборам данных, которые содержат записи, которые имитируют реальные данные, но не являются реальными записями. Любая организация, стремящаяся применить искусственный интеллект, машинное обучение и глубокое обучение в своей деятельности, должна осознавать важность синтетических данных.
Что такое синтетические данные?
Существует два источника синтетических данных:
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
- Реальные данные. Реальные данные могут быть лишены личной информации (PII) и личной медицинской информации (PHI), но этого недостаточно для полной защиты конфиденциальности, поскольку записи данных все равно можно сравнить с другими идентифицируемыми источниками. Как и в примере с COVID-19, анонимизированные данные должны быть рекомбинированы таким образом, чтобы сохранить все статистические свойства набора данных, чтобы алгоритмы машинного обучения могли делать правильные выводы и создавать действительные правила.
- Моделируемые данные. В некоторых случаях препятствием для машинного обучения является недостаток реальных данных. Иногда сбор реальных данных может стоить слишком дорого или занимать слишком много времени, чтобы быть практичным. В этих случаях, моделирование может предоставить данные это достаточно близко к реальным примерам, которые алгоритмы машинного обучения могут правильно обучить. Например, индустрия беспилотных транспортных средств использует комбинацию данных реальных датчиков транспортных средств, движущихся по дорогам, и смоделированных данных, полученных в результате моделирования вождения (даже видеоигры, такие как Grand Theft Auto).
Есть много причин использовать синтетические данные вместо необработанных реальных данных:
- Конфиденциальность, конфиденциальность и другие ограничения на использование данных, такие как правила конфиденциальности в отношении здоровья HIPAA в США или защита конфиденциальности потребителей GDPR в Европейском Союзе.
- Недостаточно реальных данных из-за стоимости или сложности сбора данных.
- Невстреченные условия, такие как явления, которые никогда не наблюдались (например, супервулкан), места, которые никогда не были достигнуты (например, поверхность другой планеты) или просто условия работы системы, которая еще не использовалась.
- Коррекция статистических аномалий или систематических ошибок в реальных данных, например, когда в реальных данных есть редкие выбросы, которые необходимо искусственно сделать более распространенными, чтобы у системы было достаточно примеров для обучения.
Где используются синтетические данные?
Синтетические данные поддерживают множество различных приложений. Некоторые из них:
- Автоматизированное тестирование программного обеспечения для DevOps. Разработка программного обеспечения всегда требовала тестовых данных, но сегодня короткие циклы Agile-разработки DevOps требуют больше тестовых данных, чем когда-либо.
- Разработка беспилотных автомобилей. Эксплуатация сенсорных автомобилей на реальных дорогах — дорогостоящий и медленный процесс, а синтез данных симуляций вождения обеспечивает гораздо больший набор данных для обучения искусственного интеллекта с автоматическим вождением.
- Автоматизация производства и робототехника. Как и сбор автомобильных данных, сбор реальных данных в робототехнике и производственных приложениях может быть медленным и дорогостоящим, поэтому синтетические данные могут сделать обучение систем искусственного интеллекта в этих приложениях более эффективным.
- Финансовые услуги. Как и данные здравоохранения, личные финансовые данные подлежат строгому контролю конфиденциальности, а синтетические данные дают разработчикам и корпоративным пользователям доступ к более крупным наборам данных без нарушения конфиденциальности.
- Маркетинговые симуляции, включающие поведение потребителей. Реальное поведение потребителей в Интернете регулируется GDPR и другими ограничениями, поэтому синтетический набор данных позволяет более широко и глубоко обучать маркетинговому ИИ.
- Клинические исследования здоровья. PHI строго регулируется, поэтому синтетические данные делают возможными ИИ и машинное обучение там, где в противном случае наборы данных могли бы быть слишком ограниченными, чтобы быть полезными.
- Распознавание лиц. Использование фотографий реальных людей для обучения распознаванию лиц может нарушить ограничения конфиденциальности и привести к предвзятости из-за недостаточно представленных типов лиц, а синтетические данные о лицах могут решить эти проблемы.
Социальные медиа. Платформам социальных сетей необходимо научить системы искусственного интеллекта обнаруживать разжигание ненависти и экстремистский контент, поэтому им нужны наборы данных, на которые не распространяются правила и проблемы конфиденциальности.
Повысьте свои навыки и повысьте свою карьеру с помощью курса искусственного интеллекта и машинного обучения.
Синтетические данные помогают развитию ИИ
Синтетические данные — это растущая область исследований и разработок в области искусственного интеллекта и машинного обучения. Массачусетский технологический институт недавно представил свой Синтетическое хранилище данных проект с открытым исходным кодом, попытка предоставить универсальный источник синтетических данных для всех видов приложений машинного обучения. Хотя хранилище синтетических данных является новым, оно основано на исследованиях, которые проводятся в Массачусетском технологическом институте с 2013 года.
Поле синтетических данных также растет с точки зрения количества игроков. Вот десять компаний в бизнесе:
- АйФай для ритейла
- AI.Reverie для машинного зрения
- Anyverse для беспилотных автомобилей
- Cvedia для машинного зрения
- DataGen для дополненной реальности во внутренних помещениях
- Дайвплан для клинических данных здравоохранения
- Гретель создает инструмент синтеза данных
- Hazy для обнаружения финансового мошенничества
- В основном искусственный интеллект для банковского дела, финансовых услуг и страхования.
- OneView для геопространственных изображений
Синтетические данные открывают возможности не только для компаний в этой конкретной области, но и для всех приложений искусственного интеллекта, машинного обучения и глубокого обучения. Спрос на архитекторов искусственного интеллекта, инженеров по машинному обучению, экспертов DevOps и специалистов в области смежных технологий быстро растет. Курсы и программы Simplilearn, такие как наш курс искусственного интеллекта и машинного обучения в партнерстве с Университетом Пердью, дадут вам доступ к навыкам, необходимым для конкуренции в этой важной области.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)