Можно ли доверять общедоступным моделям машинного обучения для определения тональности текстов?




Дунаева Дарья Олеговна
аналитик Центра прикладного анализа больших данных ТГУ, Томск, Россия
ddo@data.tsu.ru

Басина Полина Александровна
аналитик Центра прикладного анализа больших данных ТГУ, Томск, Россия
basina@data.tsu.ru


Аннотация
На сегодняшний день одной из популярных задач для научного и коммерческого сектора является определение тональности текстов, например, отзывов или постов в социальных сетях. При это существует проблема, когда не все исследователи имеют возможность самостоятельно создать набор данных и собственную модель машинного обучения. Популярным способом является использование уже обученных общедоступных моделей для определения тональности текстов. Однако возникает вопрос, получают ли пользователи таких решений тот результат, которого бы хотели?
При наличии большого выбора готовых решений для определения тональности результаты работы моделей дают погрешности ввиду сложности и контекстуальной обусловленности лингвистической экспликации эмоций. В рамках представленной работы были проведены сравнения результатов работы 6 общедоступных моделей машинного обучения для определения тональности на размеченных исследователями данных.

Ключевые слова: обработка естественного языка, анализ тональности, машинное обучение