Додому Nejnovější zprávy a články Бот, который прав лишь наполовину

Nejnovější zprávy a články

Бот, который прав лишь наполовину

по

26.05.2026

Почти половина из нас использует искусственный интеллект для поиска информации и генерации идей. И неудивительно: социальные сети превратились в помойку, а Google стал лишь порталом в Reddit. Мы жаждем надёжности. Да и разве боты не полезны? Я спросил одного, понимает ли он, что тратит энергию впустую. Через 30 минут он прислал мне рецепт веганского сыра.

Сыр я не готовил. Бот нашел рецепт, сделанный человеком (вероятно, скопированный). Такова их работа: они пересортируют знания в адаптированный информационный шлам. Для кулинарии это подходит. Для поиска истины — нет. Я фактчекер в журнале WIRED. Здесь ставки выше.

В последнее время люди жалели меня. Они считали, что моя профессия устарела. Наивные мысли. Я уверен, что очень мало реальных человеческих знаний действительно существует в интернете. ИИ работает хуже, чем принято думать. Он ошибается чаще.

По словам Коллина Дикки, Том Вулф воспринимал нас, фактчекеров, как клику ханж. Честно говоря, это справедливо. Мой босс — мужчина. А мы раздражаем. Это наша работа.

Старая школа

В WIRED мы делаем всё «по старинке». Подряд. Первичные источники. Мы звоним людям. Ждём ответа на линии. Спорим с юристами и этическими комитетами. Это рецензирование, но на скорости.

ИИ пока не убил этот подход. Хотя пытается внедрить проверку post hoc (после факта). Что-то вроде автоматизированного Snopes. В Великобритании группа Full Fact создала инструменты для этого. Они сканируют посты и подкасты, помечая спорные утверждения. Затем люди проводят расследование. Марк Франкель из Full Fact понимает суть: человеку здесь не избежать.

«Вам определённо нужен живой человек.»

Насколько велика ошибка?

ИИ ошибается. Часто. Как часто? Точно сказать сложно. С 2018 года на arXiv появилось 17 000 научных работ, в основном посвящённых надёжности ИИ.

На рабочем столе мы проверяем б-материал (второстепенные факты): статистику, даты, цитаты. Я использую ИИ-обзоры. И ненавижу их. Они врут примерно в трети случаев. Может, даже чаще.

Исследование Центра Тёрнера от марта 2025 года показывает, что более 60% результатов поиска с ИИ содержат неточности. По данным BBC, этот показатель составляет 45%. Будем откровенны: они ошибаются в половине случаев.

А какая модель лучше? Маск считает, что Grok — лучшая. Исследования говорят обратное. В прошлом году Claude занял первое место в RealFactBench с точностью 73%. Grok в этом тесте даже не участвовал. Что касается SimpleQA, организованного OpenAI в октябре 2024 года? Ни одна модель не преодолела порог в 50%. Google недавно обновил тест: Gemini 2.5 победил с показателем 55,6%.

А ChatGPT? Он сообщил мне, что модели обладают точностью 90–96%. Затем привёл ссылку на статью о медицине сна. Он утверждал, что галлюцинации происходят в 1–2% случаев. Источника не существовало.

Умнее не значит правдивее. Иногда наоборот. В отчёте об ИИ за 2025 год 60% исследователей усомнились, что проблема фактологической точности будет решена в ближайшее время. Боты слишком стараются угодить. Вместо того чтобы признать поражение, они выдумывают ответы.

Тест

У меня есть тест на собеседование, который я сдавал много лет назад. Ложная история о главном организаторе робот-звонков. Три бонусных вопроса. Я дал его ChatGPT, Claude, Gemini и Grok. Бесплатные версии.

Grok был агрессивен. «Да». Он презирал истину. Хотел бесконечного потока данных. Он отметил, что фактчекинг исторически считался женской работой. Интересно. Бесполезно.

Claude и Gemini проявили себя достойно. Разумные планы. Юридические предостережения. Gemini предложил заменить «людей» на «бумажные следы». Застенчиво.

ChatGPT был растерян. Неуверен в себе. Использовал модные словечки. Он хотел диаграмматизировать предложения. Затем он выдумал абзац из истории. Ни одна из моделей не проверяла факты на самом деле. Они обещали планы, а затем замолкали.

«Я не думаю, что вариант игнорировать ИИ… рассматривается», — говорит Энджи Холан из Poynter. Она предпочитает вовлечённость. Изучайте инструменты. Наблюдайте за их ошибками.

Я согласен. Я чувствую себя острее.

Аналоговое преимущество

Всё становится интересным, когда Google терпит неудачу. Табличка на границе. Скорость роста водорослей. Бургер Кинг в Лос-Анджелесе 1979 года. Это призраки в сети.

Бот не просидит час по телефону, пока вдова плачет. Ему всё равно на горе. Он не чувствует пассивной враждебности в фразе «Спасибо за ваше письмо». Он не видит скрытых конфликтов между источниками, размывающих факты.

Джек Биалик писал, что мы думаем, будто старые технологии — это новое. Конвейеры. Хирургия катаракты. Наша цифровая память гниет. Микрочипы живут пять лет. Камень — тысячелетия.

Ада Палмер говорит, что мы знаем меньше 1% истории, которая была 500 лет назад. И две трети из этого — ложь. Поколения передавали её. Биты терялись. Теперь мы доверяем серверам? Серверы умирают.

Люди делают ошибки. Я это знаю. Холан сказала, что отказ от чат-ботов не обеспечивает безопасности. По крайней мере… я думаю, она так сказала. Я уверен на 33–90%.

Я проверил диктофон в конце нашего интервью.

Он был выключен.

Ваш ход

Комментарии ниже. Если вы ненавидите вайб, или любите его — пишите нам на [email protected].

Бот, который прав лишь наполовину

Старая школа

Насколько велика ошибка?

Тест

Аналоговое преимущество

Ваш ход

Це цікаво!

Problém “průvodce” na 4chan

Лидер религиозных инициатив во главе отдела по гражданским правам Минтруда

Tichý bohatý

OnlyFans je nové místo pro pracovní drama

Ride1Up Roadster V3: Электровелосипед, который не кричит о себе

ВИБІР РЕДАКТОРА

Přečtěte si Kanta, najděte si práci

Cearvol Wave Lite: Выглядят стильно, звучат плоско

Nepořádek, do kterého se AI dostala

ПОПУЛЯРНІ ПОВІДОМЛЕННЯ

Невже запуск роботаксі Tesla привів до зворотних результатів?

Новий генеральний директор OpenAI з додатків у своїй першій службовій записці...

Найкращі навушники з шумозаглушенням: Sony, Bose, Apple та інші

ПОПУЛЯРНА КАТЕГОРІЯ