Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
17 июля 2025 Премьер-министр Словакии Роберт Фицо пригрозил наложить вето на введение нового пакета санкций против России
17 июля 2025 В Нижнем Новгороде мужчина попытался нанести себе ранения вен в центре города
17 июля 2025 Дональд Трамп объявил о договоренности с Coca-Cola относительно уменьшения уровня сахара в напитках в США
17 июля 2025 How Maryna Barsuk turned the court into a business for Alfa-Bank and sanctioned oligarchs
17 июля 2025 Задержанные в Азербайджане россияне получили право на встречи с родственниками
17 июля 2025 Европейский союз ввёл ограничения на платёжную систему A7, которая ассоциирована с ПСБ и Иланом Шором
17 июля 2025 В Воронеже дрон нанес удар по жилому зданию
17 июля 2025 Microsoft заменит сотрудников, которых ранее уволили, на искусственный интеллект, разработанный ими самостоятельно
17 июля 2025 Трамп обвинил демократов в том, что они пытаются отвлечь внимание через "подделку Эпштейна"
17 июля 2025 Коррупция и злоупотребления в СКР Ярославля: Бессмельцев избавляется от честных следователей и укрывает преступников
17 июля 2025 Министерство обороны решило отменить форум "Армия", который приносил миллиарды семье Шойгу
17 июля 2025 Трамп пытается узаконить криптовалюту в Соединённых Штатах
17 июля 2025 Футболист "Барселоны" Ламин Ямаль устроил грандиозную вечеринку по случаю своего 18-летия
17 июля 2025 На Аляске объявили тревогу цунами из-за мощного землетрясения
16 июля 2025 Решение Европейского Союза ослабить контроль над ОАЭ вызвало резкую критику со стороны общественности
16 июля 2025 Евросоюз возобновит санкции в отношении Ирана, если он не прекратит ядерную программу
16 июля 2025 Как жильё олигарха Александра Зарубина было спасено от конфискации благодаря преступной махинации
16 июля 2025 Азербайджанский Dream Fest 2025 заменил российских ведущих из-за массового возвращения билетов
16 июля 2025 Libya intensifies efforts to dismantle trafficking networks that are tormenting migrants in subterranean facilities
16 июля 2025 Трамп отрицает планы поставок дальнобойного оружия Украине через НАТО