Модель классификации финансовых текстов при защите конфиденциальности пользователей

Исследователи из Технологического института Манипала, Университета Карнаги-Меллона и Технического университета Йылдыз недавно создали модель с поддержкой конфиденциальности для анализа и классификации финансовых текстов. Эта модель, представленная в статье, предварительно опубликованной на arXiv, основана на сочетании обработки естественного языка (NLP) и методов машинного обучения .

«Наша статья была основана на нашей предыдущей работе, названной «Сравнительный анализ дифференциальной конфиденциальности и федеративного обучения для моделей BERT», — сказал Приям Басу, один из исследователей. «Эта работа была нашей скромной попыткой объединить области обработки естественного языка (NLP) и машинного обучения с сохранением конфиденциальности».

Модель классификации финансовых текстов при защите конфиденциальности пользователей

Основная цель недавней работы Басу и его коллег заключалась в разработке модели НЛП, которая сохраняет конфиденциальность пользователей, предотвращая доступ к их данным другим лицам. Такая модель может быть особенно полезна для анализа банковских выписок, налоговых деклараций и других конфиденциальных финансовых документов.

«Машинное обучение в основном основано на данных и дает понимание, прогнозы и информацию, основанную на данных», — сказал Басу. «Следовательно, для нас очень важно углубиться в исследование того, как одновременно сохранить конфиденциальность пользователей».

Фреймворк, разработанный Басу и его коллегами, основан на двух подходах, известных как дифференциальная конфиденциальность и федеративное обучение, в сочетании с представлениями двунаправленного кодировщика из преобразователей (BERT), которые являются известными и широко используемыми моделями НЛП. Методы дифференциальной конфиденциальности добавляют некоторый шум к данным, которые передаются в модель. В результате сторона, обрабатывающая данные (например, разработчики, технические фирмы или другие компании), не может получить доступ к реальным документам и данным, поскольку отдельные элементы скрыты.

«С другой стороны, федеративное обучение — это метод обучения модели на нескольких децентрализованных устройствах, так что ни одно устройство не имеет доступа ко всем данным сразу», — пояснил Басу. «BERT — это языковая модель, которая дает контекстуализированные вложения для текста на естественном языке, которые можно использовать позже для решения множества задач, таких как классификация, маркировка последовательностей, семантический анализ и т. Д.»

Басу и его коллеги использовали разработанную ими стратегию для обучения нескольких моделей НЛП для классификации финансовых текстов. Затем они оценили эти модели в серии экспериментов, где использовали их для анализа данных из набора данных Financial Phrase Bank. Их результаты были многообещающими, поскольку они обнаружили, что модели НЛП работают так же, как и другие современные методы анализа финансовых текстов, обеспечивая при этом более надежную защиту данных.

Источник — Газета Daily.

Газета «DAILY» — Новости России и мира