Эта статья является частью нашей эксклюзивной серии IEEE Journal Watch , созданной в сотрудничестве с IEEE Xplore.
Количество разжигающих ненависть высказываний в социальных сетях растет, что удерживает некоторых людей от участия и создает токсичную среду для тех, кто остается в сети. Было разработано множество различных моделей ИИ для обнаружения разжигания ненависти в сообщениях в социальных сетях, но по-прежнему сложно разработать такие модели, которые были бы эффективными в вычислительном отношении и могли бы учитывать контекст сообщения, то есть определять, действительно ли сообщение содержит ненависть. речь или нет.
Группа исследователей из Великобритании разработала новую модель ИИ под названием BiCapsHate, которая решает обе эти проблемы. Они описывают это в исследовании , опубликованном 19 января в IEEE Transactions on Computational Social Systems .
Тарик Анвар — преподаватель кафедры компьютерных наук Йоркского университета, принимавший участие в исследовании. Он отмечает, что споры в Интернете часто могут привести к негативным, ненавистным и оскорбительным комментариям, и что существующие методы модерации контента в социальных сетях не в состоянии это контролировать.
«Кроме того, разжигание ненависти в Интернете иногда отражается в реальной среде, что приводит к преступности и насилию», — говорит он, отмечая, что было несколько случаев, когда разжигание ненависти в Интернете приводило к физическому насилию и беспорядкам.
Чтобы решить эту проблему, команда Анвара разработала BiCapsHate, который во многом уникален по сравнению с другими ИИ, обнаруживающими разжигание ненависти. Модель состоит из нескольких продвинутых слоев глубоких нейронных сетей, каждый из которых предназначен для захвата различных свойств языка ненависти. Примечательно, что он включает в себя слой глубокого обучения, который переводит язык сообщений в социальных сетях в числовое значение и оценивает эту последовательность как в прямом, так и в обратном направлении. Таким образом, ИИ может «понимать» контекст сообщения в социальной сети и лучше определять, является ли сообщение ненавистным или нет.
Как указывает Анвар, в некоторых обстоятельствах язык может быть двусмысленным, когда слово может быть ненавистным в одном контексте и успокаивающим в другом. Он цитирует некоторые существующие ИИ, такие как HateBERT, ToxicBERT и fBERT, которые способны в некоторой степени улавливать ненавистный контекст. «Но они все еще недостаточно хороши и последовательны в своей работе», — подчеркивает он.
В своем исследовании Анвар и его коллеги сравнили BiCapsHate с этими другими моделями и обнаружили, что их модель значительно превосходит другие модели. BiCapsHate достиг 94% и 92% f-показателей для сбалансированных и несбалансированных наборов данных соответственно. F-оценка — это средство оценки точности систем ИИ. Чем выше f-оценка, тем выше точность.
Еще одним преимуществом BiCapsHate является то, что модель способна выполнять вычисления с использованием ограниченных аппаратных ресурсов. «[Другие модели] требуют высокопроизводительных аппаратных ресурсов, таких как графический процессор, и высокопроизводительные системы для вычислений», — объясняет Анвар. «Наоборот, BiCapsHate… может выполняться на машине с процессором даже с 8 гигабайтами оперативной памяти».
Примечательно, что ИИ до сих пор был разработан и протестирован для анализа языка ненависти только на английском языке, поэтому его необходимо будет адаптировать для других языков. Он также был менее искусным в обнаружении оскорбительных слов с легким или едва уловимым ненавистническим тоном по сравнению с более интенсивными примерами языка ненависти.
Далее исследователи надеются изучить способы оценки психического здоровья пользователей, которые выражают ненависть в Интернете. Если есть опасения, что человек психически неуравновешен и может проявлять физическое насилие по отношению к людям в реальном мире, можно рассмотреть возможность раннего вмешательства, чтобы снизить вероятность этого.
Эта статья появилась в печатном выпуске за июнь 2023 года под названием «Технология борьбы с ненавистническими высказываниями в социальных сетях».