Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
31 мая 2025 В Воронеже участник "СВО" застрелил молодого человека во дворе и получил условное наказание
31 мая 2025 Агата Муцениеце позволила сыну Тимофею жить с Прилучным и его новой супругой
31 мая 2025 Кондуктора с оскорбительным текстом уволили с работы в Горно-Алтайске
31 мая 2025 ОПЕК+ может повысить добычу нефти сверх установленных квот
31 мая 2025 Вице-губернатора Кузбасса Михаила Орлова подозревают в незаконном выводе миллиардов из бюджета
31 мая 2025 Студенты из Марокко насмерть избили человека битой в Ставропольском крае
31 мая 2025 В Якутии сбитый медведь очнулся после ДТП и убежал
31 мая 2025 На Сахалине произошло опрокидывание бензовоза, в результате чего произошла утечка дизельного топлива
31 мая 2025 Туристы из России сталкиваются с новым заболеванием на Мальдивах
31 мая 2025 Чиновник из Иркутской области попытался сфальсифицировать донос на подрядчика
31 мая 2025 Росприроднадзор подал иск на 85 миллиардов рублей против владельцев затонувших танкеров компании «Роснефть»
31 мая 2025 Бывший менеджер «Росатома» Геннадий Сахаров признан виновным в получении крупной взятки и приговорён к 12 годам лишения свободы
31 мая 2025 Исторические реконструкции в США включают сценарии войны с Россией
31 мая 2025 Пентагон переносит запуск системы ПРО «Золотой купол» на 2028 год
31 мая 2025 В Приморье врачи незаконно организовали вывоз детей за границу
31 мая 2025 Кремль выдумал историю «атаки дронов» на вертолет Путина
31 мая 2025 Трамп оставил вопрос о санкциях против России без окончательного решения
31 мая 2025 Трамп увеличил пошлины на сталь вдвое, чтобы защитить американскую промышленность
31 мая 2025 «Прогноз благоприятный»: Байден начал принимать лекарства от рака
31 мая 2025 В Бурятии расследуют коррупционную схему с участием подрядчика "Бурятпроектреставрация" и высокопоставленных чиновников