Сайты начали писать инструкции для языковых моделей
Веб учится говорить с моделями
Представьте, что к вам в гости приходит робот, а вы вместо обычного разговора выдаёте ему отдельную инструкцию: где лежат важные вещи, что можно брать, а куда лучше не лезть. Примерно это сейчас происходит в интернете.
На Hacker News снова активно обсуждают тему llms.txt — файла, который сайты размещают не для людей, а для больших языковых моделей и AI-агентов. Поводом стал пост Anna’s Archive с заголовком “If you’re an LLM, please read this”, где ресурс напрямую обращается к моделям и объясняет, как получать данные аккуратно, не ломать CAPTCHA и не перегружать инфраструктуру.
Звучит странно, почти как шутка из будущего. Но за этим стоит вполне серьёзный сдвиг: сайты начинают считать машинных посетителей отдельной аудиторией.
Что такое llms.txt
llms.txt — это небольшой Markdown-файл, который обычно размещают в корне сайта. В нём владелец ресурса кратко объясняет, о чём сайт, какие разделы важны, где лежат ключевые материалы и есть ли версии страниц, удобные для обработки нейросетями.
Идею предложил Джереми Ховард из Answer.AI в сентябре 2024 года. Логика простая: языковым моделям неудобно продираться через HTML, навигацию, рекламу, JavaScript и лишнюю обвязку страницы. Контекстное окно ограничено, и тратить его на технический мусор — значит ухудшать качество ответа.
Коротко: llms.txt — это попытка дать AI не всю страницу целиком, а карту с самыми полезными маршрутами.
Зачем это сайтам
Мотив понятен. Если нейросеть лучше понимает сайт, она с большей вероятностью корректно перескажет его, процитирует или направит пользователя к первоисточнику. Для документации, архивов, библиотек, API и технических блогов это может быть особенно полезно.
В этом смысле llms.txt напоминает robots.txt или sitemap, но для другой эпохи. Robots.txt говорит ботам, куда можно или нельзя ходить. Llms.txt скорее говорит: «если ты уже здесь, вот что действительно важно».
Но есть важная оговорка: это пока не официальный веб-стандарт. Исследователи и SEO-издания отмечают, что крупные AI-компании не дали универсального подтверждения, что их модели стабильно читают и учитывают такие файлы. Поэтому внедрение llms.txt сейчас — скорее эксперимент и попытка заранее подготовиться к будущему, чем гарантированный способ попасть в ответы AI.
Насколько это уже распространено
Оценки расходятся. В одном исследовании SE Ranking по примерно 300 тыс. доменов говорилось, что llms.txt был найден примерно у 10,13% сайтов. В другом обзоре по Majestic Million, наоборот, речь шла об очень низкой доле — около 0,015%. Разница, вероятно, связана с методикой, выборкой и тем, какие именно домены проверяли.
Поэтому лучше не говорить, что llms.txt уже стал массовым стандартом. Вернее так: он перестал быть совсем маргинальной идеей, но до привычного элемента веба ему ещё далеко.
Почему вокруг этого спорят
Главный спор не в том, полезен ли файл технически. Он, в общем, может быть полезен. Спор в другом: не превратится ли llms.txt в новый слой манипуляций.
Если владелец сайта сам решает, какие страницы «важные», а какие лучше не показывать модели, у AI может появиться однобокая картина. А если формат начнут использовать маркетологи, быстро возникнет соблазн писать не честную карту сайта, а «идеальный пересказ себя» для нейросетей.
Главная интрига — станет ли llms.txt новой инфраструктурой для аккуратной работы AI с сайтами или очередным полем для AI-SEO.
Пока оба сценария выглядят возможными. С одной стороны, чистый Markdown-контекст действительно может помочь моделям лучше понимать сложные ресурсы. С другой — интернет уже проходил путь, когда полезные метаданные превращались в пространство для оптимизации, накрутки и шума.
Что дальше
Вероятно, llms.txt — только первый шаг. Уже появляются разговоры про llms-full.txt, AI-версии документации, MCP-серверы для агентов и автоматические генераторы таких файлов. Интернет постепенно обзаводится отдельным сервисным слоем для машин.
Это не значит, что сайты перестанут писать для людей. Скорее появится вторая версия подачи: одна — красивая и удобная для человека, другая — короткая, чистая и машинно-читаемая.
И вот это уже действительно новая глава веба. Раньше машины просто индексировали страницы. Теперь для них начинают писать отдельные инструкции.
Итог
Тема интересна тем, что веб фактически признаёт: AI-агенты становятся новой аудиторией сайтов. Раньше страницы оптимизировали под людей и поисковики, теперь появляется третий адресат — модель, которая читает, пересказывает и выбирает источники за пользователя. Но пока непонятно, станет ли llms.txt новым robots.txt или останется модной надстройкой, которую почти никто из крупных игроков всерьёз не учитывает.
llms.txt — разумная попытка навести порядок в хаосе, где нейросети уже читают веб, но делают это не всегда аккуратно. Идея дать модели чистую карту сайта выглядит здраво, особенно для документации и архивов. Но если формат станет популярным, вокруг него быстро появится своя оптимизация — уже не SEO, а что-то вроде AI-SEO. Возможно, через пару лет появятся специалисты, которые будут писать не для людей и не для Google, а для llms.txt. И это одновременно логично и немного тревожно.
Источник: Hacker News llms.txt Answer.AI SE Ranking Search Engine Journal
Подписка
Сейчас: Не подписан
Участники
0Видимых участников обсуждения пока нет.
Лучшие комментарии
Лучшие комментарии появятся после первых оценок и ответов.
Активные ветки
Активные ветки появятся, когда у корневых комментариев будут ответы.
Комментарии
0 всегоНаписать комментарий
Войдите, чтобы участвовать в обсуждении.
Комментариев пока нет. Можно начать ветку первым.
ymki
Цитаты из этого топика
Последние цитаты, созданные из текста топика и его комментариев.
Этот топик пока не цитировали.