Машинное обучение для автоматизации оценки хроматограмм при ВЭТСХ анализе
Современная аналитическая химия, в том числе в области контроля качества и установления подлинности растительного сырья, сталкивается с необходимостью быстрой, точной и воспроизводимой обработки больших объемов данных. Методы искусственного интеллекта и машинного обучения открывают новые горизонты для полной или частичной автоматизации аналитических процессов. Данная статья описывает потенциал системы машинного обучения для автоматической оценки хроматограмм в рамках ВЭТСХ-анализа с целью ботанической идентификации.

Содержание
1. Машинное обучение для ботанической
2.1. Снимки ВЭТСХ пластин
2.3. Пластины
2.4. Нанесение
2.5. Хроматография
2.6. Постхроматографическая дериватизация
2.7. Документирование
3. Аппаратное и программное обеспечение для машинного обучения
Машинное обучение для ботанической идентификации
Основной целью приведенного исследования была разработка системы машинного обучения для автоматизации оценки хроматограмм, генерируемых при ВЭТСХ анализе, для определения подлинности экстрактов растительного сырья. В настоящее время используется подход с визуальным сравнением снимков ВЭТСХ пластин с ботаническими эталонными стандартами аутентичных видов и их фальсификатов. Методы машинного обучения, такие как «машинное зрение», могут обеспечить более быструю и точную идентификацию такого сырья и продуктов на их основе.
Разработанная система «машинного зрения» продемонстрировала высокую точность в правильной идентификации имбиря, его близких видов или фальсификатов. Она может оценить и классифицировать правильный вид для любого количества снимков всего за несколько секунд, значительно снизив нагрузку на персонал и повысив надежность идентификации. Эта система программного обеспечения была проверена с использованием двух различных подходов, показывая, что она является точной и надежной.
Этапы исследования
Исследование демонстрирует полноценный рабочий цикл: от пробоподготовки образцов и хроматографического разделения до создания синтетических данных для расширения обучающей выборки, обучения нейронной сети и итоговой валидации модели на реальных изображениях. Описание этапов исследования смотрите далее.
Снимки ВЭТСХ пластин
Все снимки были получены из общедоступного онлайн-хранилища Атласа Ассоциации HPTLC. Оно включает 77 файлов изображений для следующих видов: Alpinia officinarum, Boesenbergia rotunda, Kaempferia galanga, Kaempferia parviflora, Zingiber montanum, Zingiber officinale иZingiber zerumbet.
Пробоподготовка образцов
К 1,0 г каждого порошкообразного образца добавляли 10 мл метанола с последующей 10-минутной обработкой ультразвуком. Образцы центрифугировали и супернатант использовали в качестве тестового раствора.
Пластины
Использовали ВЭТСХ пластины: HPTLC Silicagel 60 F254 (Merck), 20 × 10 см.
Нанесение
2,0 мкл образцов и стандартных растворов наносят в виде штриха с помощью автоматического аппликатора TLC Sampler (ATS 4): 15 дорожек, длина штриха 8,0 мм, расстояние от левого края 20,0 мм, дистанция между треками 11,4 мм, расстояние от нижнего края 8,0 мм.
Хроматография
Пластину фиксировали в держателе и устанавливали в автоматическую камеру для элюирования (ADC 2) с насыщением камеры (с фильтровальной бумагой) в течение 20 мин и после активации в течение 10 мин при относительной влажности 33% с использованием насыщенного раствора хлорида магния, ПФ: толуол-этилацетат 3:1 (об/об) до расстояния миграции 70 мм (от нижнего края) с последующей сушкой в течение 5 мин.
Постхроматографическая дериватизация
Пластины дериватизируют с использованием реагента анисовый альдегид, полученного добавлением к 85 мл ледяного метанола сначала 10 мл уксусной кислоты, затем 5 мл серной кислоты и 0,5 мл анисового альдегида. Раствор реагента (3 мл) распыляли с использованием аппарата Derivatizer (синяя насадка, уровень 3). Затем пластины нагревали при 100 ° С в течение 3 мин и оставляли охлаждаться до детектирования.
Документирование
Снимки пластин получали с помощью TLC Visualizer 3 в трех режимах: УФ 254 нм, УФ 366 нм и «белого света» после элюирования и затем после дериватизации в УФ 366 нм и «белом свете».
Система документирования CAMAG® TLC Visualizer 3 для работы с пластинами до 20х20см
Аппаратное и программное обеспечение для машинного обучения
Модель «машинного зрения» была создана на компьютерной системе с использованием графического процессора Nvidia GeForce RTX 3070 для вычислений. Система программного обеспечения для машинного обучения была реализована в Python с использованием кода Visual Studio в качестве среды IDE и PyTorch в качестве платформы машинного обучения. Система «машинного зрения» состоит из нескольких различных нейронных сетей, включая глубокую условную состязательную сеть (DCGAN), состоящую из дискриминатора и генератора, а также глубокую сверточную нейронную сеть (deep CNN).
Роль DCGAN в системе заключается в увеличении ограниченного набора данных путем создания большого количества синтетических изображений для каждого вида, основанных на разделе реальных ВЭТСХ снимков. Эти синтетические данные затем использовались для обучения модели CNN, которая была проверена отдельно по отношению как к реальным, так и к синтетическим наборам данных ВЭТСХ снимков.
Результаты и обсуждение
Система «машинного зрения» успешно создала реалистичные синтетические снимки ВЭТСХ пластин с использованием DCGAN. Эти синтетические изображения были эффективно использованы для обучения CNN, которая продемонстрировала высокий уровень точности в идентификации ботанических видов.
Для каждого из выбранных видов - Zingiber officinale, Alpinia officinarum, Boesenbergia rotonda, Kaempferia galanga, Kaempferia parviflora, Zingiber montanum, Zingiber zerumbet были обработаны и классифицированы ВЭТСХ снимки.
Система продемонстрировала 98,7% точность при тестировании на реальных снимках ВЭТСХ пластин, правильно классифицировав 76 из 77 ботанических образцов. Единственное неправильно классифицированное изображение было идентифицировано как Zingiber montanum вместо Kaempferia galanga.

Рис. 1 Репрезентативные снимки треков для каждого из видов, которые были оценены для системы машинного обучения.
Слева направо: Zingiber officinale, Alpinia officinarum, Boesenbergia rotonda, Kaempferia galanga, Kaempferia parviflora, Zingiber montanum и Zingiber zerumbet

Рис. 2 Общий обзор архитектуры глубокого CNN, аналогичной той, что использовалась для моделирования ботанической идентификации системы «машинного зрения».

Рис. 3 Пример синтетических данных, созданных DCGAN. Левое изображение: матрица 5 × 5 25 DCGAN генерировала синтетические изображения; правое изображение: матрица 5 × 5 реальных ВЭТСХ снимков.

Рис. 4 Примеры классификации и вероятностных результатов, предоставленных системой «машинного обучения» для ботанической идентификации.
Точность синтетического набора данных была на уровне 100%, что указывает на способность CNN эффективно изучать и различать особенности в контролируемом наборе данных. Для дальнейшей проверки надежности системы в ходе дополнительного тестирования с использованием имеющегося набора данных для проверки подлинности по снимкам точность классификации составила 97,3%.
Сравнение реальных и синтетических снимков подтвердило высокую точность полученных результатов. Прогностические возможности системы также оценивались путем вывода оценок вероятности видов для каждой классификации, обеспечивая дополнительную степень надежности в результатах модели «машинного зрения».
В целом, данная автоматизированная система продемонстрировала значительные улучшения в скорости и точности идентификации ботанических видов по сравнению с традиционными методами ручного анализа, исключив субъективность человека при сохранении высокой надежности.
Глювекс предлагает своим клиентам широкий выбор оборудования CAMAG. С подробным каталогом вы можете ознакомится в разделе производителя.
Подписывайтесь на наш Telegram-канал, чтобы быть в курсе новостей сервисного центра Глювекс и новых поступлений на склад, полезных и интересных публикаций на тему лабораторного оборудования и расходных материалов.