Может ли использование синтетических данных стать решением проблемы нехватки данных в генеративном искусственном интеллекте?
22.12.2025, 15:53
Синтетические данные
Данные занимают центральное место в работе руководителей, разбирающихся в ИИ: согласно опросу Deloitte, 75% организаций увеличивают свои инвестиции в технологии управления данными благодаря генеративному ИИ. Крупные языковые модели (LLM) в значительной степени зависят от качества данных, на которых они обучаются; если обучающие данные предвзяты, неполны или содержат ошибки, результаты могут быть ненадежными или даже вредными. Это классическая проблема «мусор на входе — мусор на выходе».
В настоящее время большинство LLM в основном обучаются на текстовых данных из открытых источников. Хотя таких данных много, в них может отсутствовать контроль качества и согласованность, что может привести к тому, что модели будут изучать нежелательное поведение, приводящее к получению некачественных результатов, которые могут звучать убедительно, но не обладать глубиной, точностью и достоверностью.
И все же, обучение моделей генеративного ИИ только на внутренних данных не обязательно решит проблемы корпоративных данных. Хотя внутренние данные часто могут быть более релевантными, точными и репрезентативными для предметной области организации и ее конкурентной позиции, что приводит к созданию моделей, дающих более надежные и контекстно подходящие результаты, они часто требуют значительной предварительной обработки, такой как очистка, разметка, анонимизация и структурирование, чтобы быть пригодными для обучения. В тех случаях, когда организации не инвестировали должным образом в управление данными, командам по управлению данными может быть сложнее предсказать, какие данные следует очистить, поскольку они не контролируют ни сами данные, ни вопросы, задаваемые в рамках запросов генеративного ИИ. Проще говоря, не все организации могут позволить себе использовать свои реальные данные.
"Один из новых подходов к решению этой проблемы — использование синтетических данных, которые имитируют реальные закономерности, не раскрывая конфиденциальную личную информацию, и могут быть использованы в случаях, когда реальные данные недоступны. Внедрение синтетических данных в различных отраслях может принести ряд преимуществ:
Синтетически сгенерированные данные, оторванные от исходного набора данных, не могут быть отслежены до своего источника, что важно в высокорегулируемых отраслях, таких как финансовые услуги и здравоохранение. Например, во время клинических испытаний медицинские компании могли бы использовать синтетические данные для снижения опасений по поводу конфиденциальности пациентов.
С точки зрения точности данных, синтетические данные могут способствовать не только правильному обучению, но и появлению новых бизнес-моделей, таких как лицензирование достоверного контента (например, разработчики ИИ лицензируют контент с журналистских сайтов) или создание фабрик ИИ для генерации более эффективных данных. Как минимум, можно заполнить пробелы, которые могут возникнуть из-за того, что модели обучения ведут себя как «интернет-симуляторы». Например, если модель выдает галлюцинации из-за недостатка обучающих примеров людей, выражающих счастье, или является предвзятой, поскольку использует нерепрезентативные данные определенной демографической группы, то использование синтетических данных может помочь создать более целостный набор данных.
Синтетические данные можно использовать в случаях, когда имеющихся данных мало. Например, компании, разрабатывающие беспилотные автомобили, могли бы использовать синтетические данные для моделирования реальных сценариев вождения, имитируя погодные и дорожные условия, чтобы получить необходимые данные.