На технологической конференции GigaConf 2024 исследователи Сбера и компании SberDevices представили GigaCheck — детектор для определения авторства русскоязычных текстов.
Точность работы GigaCheck составляет 94,7 процента. Показатель ближайшего конкурента — не более 85 процентов. На сегодняшний день GigaCheck — самый достоверный и качественный детектор подобного рода. Чтобы взломать его, в большинстве случаев текст придется изменить до степени неприменимости в реальных задачах.
Сейчас GigaCheck дает обобщенную оценку авторства. В ближайшее время GigaCheck сможет также определять, какие именно фрагменты текста сгенерированы LLM.
«С помощью GigaCheck мы проанализировали 220 000 текстов новостных ресурсов за последний месяц и выявили, что в среднем 6% из них создано LLM, а в некоторых крупных изданиях превышает треть от всего опубликованного контента. До сих пор вероятность создания подобного работающего детектора текстов считалась крайне низкой. Многие эксперты расценивали эту задачу как практически нерешаемую. Для разработки такого сервиса требуются серьёзные ресурсы и большие объёмы данных. Но даже неограниченных ресурсов может оказаться недостаточно. Например, один из признанных лидеров в области разработки систем искусственного интеллекта, компания OpenAI, в начале 2023 года анонсировал свой детектор для англоязычных текстов, но со временем был вынужден закрыть доступ к нему из-за невысокой точности. Тем важнее достижение нашей команды, которой, несмотря на все сложности, удалось разработать собственную эффективную технологию», — сказал управляющий директор управления экспериментальных систем машинного обучения SberDevices Сергей Марков.