Учёные ТУСУРа разрабатывают ИИ-технологию, способную принимать точные решения при несбалансированных данных

Учёные факультета безопасности Томского госуниверситета систем управления и радиоэлектроники разрабатывают новые методы для построения алгоритмов классификации (нечётких классификаторов), которые позволят искусственному интеллекту принимать правильные решения при несбалансированных данных.
В настоящее время искусственный интеллект (ИИ) и его элементы всё чаще начинают применять в самых разных областях: в медицине, банковском деле, IT-сфере. Однако до сих пор существует проблема точности ИИ, особенно в случаях работы с несбалансированными данными. В самых разных отраслях может возникнуть ситуация, когда данных одних классов существенно больше, чем данных других, эта ситуация и называется несбалансированностью. Но зачастую именно экземпляры наименьших классов являются важнейшими для исследователей. Как пояснила аспирант ТУСУРа Марина Бардамова, в качестве примера несбалансированных данных можно привести анализ базы данных пациентов, сдавших кровь: большинство из них, вероятнее, будут здоровы, а заболевших, которых нужно выявить, окажется значительно меньше.
Универсальные алгоритмы неэффективны в решении данной задачи, что приводит к невозможности обработки данных с высоким уровнем точности для последующего практического использования.
«Один из наиболее распространённых сейчас подходов – исправление самих данных: чтобы уменьшить дисбаланс, либо вырезаются те, которые принадлежат к классам большинства, либо синтезируются новые данные, дополнительные к имеющимся целевым, и включаются в таблицу наблюдения. На наш взгляд, такой подход не совсем верный: если мы обрезаем данные, то можем потерять часть важной информации, если добавляем, может возникнуть путаница с реальными данными, их пересечение», – рассказала Марина Бардамова.
В рамках гранта РФФИ аспирант ТУСУРа разрабатывает специальные методы, которые позволяют реагировать на маленькие классы, представленные небольшим количеством данных, стараясь обучить нечёткие классификаторы определять несбалансированность данных и настраивать параметры с учётом важности классов меньшинства.
«Мы используем метаэвристические алгоритмы для отбора информативных признаков, которые позволяют настраивать наши нечёткие классификаторы таким образом, чтобы отсеять избыточные признаки, оптимизировать параметры, повысить точность классификации и разделить данные по конечным классам», – пояснила Марина Бардамова.
Она также отметила, что процесс обучения классификаторов осуществляется на основе реальных данных, предоставленных медучреждениями, предприятиями.
По её словам, ТУСУР – одна из немногих в мире групп учёных, которые работают с нечёткими классификаторами, поскольку в отличие от, например, популярных сегодня нейронных сетей они отличаются свойством интерпретируемости, более понятны конечному пользователю и более эффективны в ситуациях, когда невозможна жёсткая классификация.
С этой точки зрения, по мнению Марины Бардамовой, нечёткие классификаторы будут полезны в первую очередь в медицине, где зачастую у данных «размыты границы», их можно отнести к разным множествам с разной степенью принадлежности, например, когда болезнь только начинается и явных признаков ещё нельзя выявить. Если обучить ИИ работать с такими несбалансированными данными, он поможет врачам определять заболевания уже на начальных стадиях.