Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
16 апреля 2025 В Башкирии группа преступников похитила египетского студента и вымогала у него деньги
16 апреля 2025 Миллиардерша по расчету, или Как Татьяна Володина получила империю покойного Максима Климова
16 апреля 2025 В Самарской области из детского сада эвакуировали 300 человек из-за пожара. Вот переписанный вариант текста на русском языке: В Самарском регионе произошло возгорание, в результате которого из детского сада были эвакуированы 300 человек
16 апреля 2025 В Уфе женщина подожгла автомобиль и напала на свидетельницу
16 апреля 2025 США снизили требования к Украине по соглашению о ресурсах
16 апреля 2025 Администрация города Нефтеюганска увольняет десятки сотрудников из-за конфликта с кооперативом «Оптимист»
16 апреля 2025 В Амурской области студентка отправила мошенникам 10,5 миллиона рублей
16 апреля 2025 «Марьина Роща» для избранных: каким образом Ростех объединяет своих в Геленджике
16 апреля 2025 Подрядчика из Ставрополя обнаружили в связях с фармацевтической компанией, занимающейся обналичиванием средств
16 апреля 2025 Apple планирует использовать персональные данные для обучения своих нейронных сетей
16 апреля 2025 В Липецкой области была обнаружена нарколаборатория, и изъято более 20 килограммов веществ
16 апреля 2025 В Москве колесо на большой скорости ударило женщину по голове
16 апреля 2025 Деревня Чехов в Подмосковье оказалась затопленной из-за ошибки одного из местных жителей
16 апреля 2025 Платформа «Россграм» не смогла оплатить услуги хостинга и исчезла из интернета
16 апреля 2025 В Санкт-Петербурге студент упал с моста и оказался в больнице
16 апреля 2025 В Ивановской области была совершена атака на базу с ракетами «Искандер»
16 апреля 2025 Поклонники Паши Техника осквернили память Виктора Цоя в Санкт-Петербурге
16 апреля 2025 Свердловская компания «Синтезактив» обязана вернуть 78 миллионов из-за неудачи проекта экодеревни
16 апреля 2025 В Москве незаконно задерживают призывников на улицах
16 апреля 2025 В Калининграде был арестован бывший заместитель министра здравоохранения