Обзоры / Искусственный интеллект

ИИ-сленг в 2026 году: датасет, лосс, RAG и ещё 50 терминов — это уже базовый минимум индустрии

Рабочий словарь, чтобы понять, из чего сделан ИИ и как устроен рынок

Текст: Данила Куликовский

08 февраля 2026, 08:00

ИИ-сленг в 2026 году: датасет, лосс, RAG и ещё 50 терминов — это уже базовый минимум индустрии

Искусственный интеллект

Бизнес

Кибербезопасность

Деньги

Россия

Технологии

Тренды

ИИ-специалисты говорят короткими тегами. «Лосс поплыл», «датасет протёк», «градиенты шумят» — пару слов, и им всё ясно. Мы вместе с учёными из группы «Адаптивные агенты» Института искусственного интеллекта AIRI сделали словарь из 53 рабочих терминов, который можно считать азбукой ИИ-индустрии.

Для каждого тега — короткое объяснение, пример из практики и оценка уместности. Всё, чтобы понимать, о чём говорят ML-команды у себя в чатах и на созвонах, быстрее ставить задачи, задавать правильные вопросы и не выпадать из языка, на котором реально делают ИИ.

Почему в проде всё поехало

Здесь термины про данные и их качество: на чём модель учится и почему после релиза всё может сломаться даже при красивых метриках на тестах. Модель — это алгоритм, который обучили на пользовательских данных, чтобы он автоматически делал прогноз или принимал решение, например распознавал документ или сортировал обращения в поддержку.

Аугментации (augmentations)

Что значит? Искусственное разнообразие обучающих данных для ИИ. К начальным примерам добавляют слегка изменённые версии, чтобы модель не зависела от одного-единственного вида картинки, звука или текста.

Пример: «Добавим аугментации: повороты, шум, плохой свет, — чтобы модель распознавала чеки в реальных условиях, а не только идеальные фото».

4/5 — Частая практика в компьютерном зрении и распознавании речи.

Датасет

Что значит? Набор данных, на котором обучается модель. От того, насколько этот набор похож на реальную жизнь бизнеса, зависит, будут выводы ИИ полезны или нет.

Пример: «Почему модель на тестах была топ, а сейчас посыпалась?»

— «Мы обучали на данных только по крупным клиентам, а запустили на всей базе и датасет не показал основную аудиторию».

5/5 — Это база.

Лейблы (labels)

Что значит? Значения, которые модель должна предсказывать, например классы, категории, уровни приоритета, вероятность события. В эти значения уже зашиты управленческие приоритеты — что считать нормой, риском или исключением.

Пример: «В антифроде лейблы настроили так, что модель ловила частые, но безопасные отклонения».

4/5 — Всплывает постоянно, когда бизнес формулирует задачу для ИИ и определяет критерии успеха модели.

РАГ (RAG)

Что значит? Подход, при котором модель перед ответом поднимает нужные документы из поиска или базы знаний и опирается на них при генерации. Так удаётся отвечать ближе к фактам и снизить галлюцинации.

Пример: «Включаем RAG. Перед ответом подтягиваем нужные куски из базы знаний».

5/5 — Самый популярный паттерн внедрения LLM в бизнес.

Разметка (labeling)

Что значит? Обработка сырых данных в понятные для модели ответы. На разметке ИИ учится тому, как бизнес видит ситуацию.

Пример: «Для автоматизации поддержки заявки размечали по формальным признакам. Модель идеально повторила разметку, но важные обращения продолжали тонуть в общей очереди».

5/5 — Без неё ИИ не знает, чему учиться.

Фичи (features)

Что значит? Признаки, которые описывают объект или ситуацию и подаются в модель, например числа, категории и другие значения, в которые переведена бизнес-логика. От того, какие фичи выбраны и как подсчитаны, зависит поведение ИИ.

Пример: «Нам не алгоритм менять, а фичи пересобрать. Добавим частоту покупок, реакцию на акции и типовые наборы. Качество вырастет, потому что бизнес-логика лучше упакуется в признаки».

5/5 — Базовый язык табличного ML и аналитики.

Чанк (chunk)

Что значит? Небольшой фрагмент текста или документа, на который режут большие данные, чтобы уместить их в окно контекста, упростить поиск и RAG. Обычно это кусок на 500–2000 токенов с законченным смыслом.

Пример: «Режем документы на чанки, иначе всё не помещается в контекст».

4/5 — Гринфлаг всех RAG-проектов.

Эмбеддинги (Embeddings)

Что значит? Числовые векторы, в которых модель кодирует смысл текста, картинки или другого объекта. Позволяют искать похожие объекты и объединять их в кластеры.

Пример: «Строим эмбеддинги для тикетов. Тогда по смыслу найдём похожие кейсы и быстро предложим оператору готовое решение».

5/5 — Основа поиска и RAG.

Дата-дрифт (Data drift)

Что значит? Когда входные данные со временем меняются и уже не похожи на те, на которых обучалась модель. Формат может быть тем же, но распределение значений другое.

Пример: «У нас дата-дрифт: банк поменял тарифы, распределение транзакций изменилось, но модель начинает чаще ошибаться, хотя форматы данных те же».

4/5 — Ключевая вещь для ML-команды после релиза, которую отслеживают в проде вместе с метриками качества, чтобы вовремя заметить поломку и обновить данные.

Концепт-дрифт (Concept drift)

Что значит? Когда меняется логика связи между признаками и результатом. Например, пользователи, рынок или правила игры могут измениться и прежние зависимости больше не работают.

Пример: «Это концепт-дрифт, потому что инфляция и смена ассортимента поменяли поведение покупателей. Старая логика больше не работает».

3/5 — Возникает, когда меняется рынок, поведение клиентов, продукт или политика цен и прежние закономерности перестают работать.

Магазин фичей (Feature store)

Что значит? Единое место, где хранятся и обновляются фичи для моделей. В магазине фичей один раз настраивают расчёт показателей, и дальше модель использует их и при обучении, и после запуска в продукте.

Пример: «Признак „средний остаток за 3 месяца“ надо вынести в магазин фичей. Сейчас в обучении он считается по одной формуле, а в проде по другой, отсюда и просадка».

4/5 — Часто мелькает в ML-командах, там, где признаки считают централизованно и используют одинаково и для обучения, и для продакшена.

Тренировочно-производственный сдвиг (Train serving skew)

Что значит? Ситуация, когда данные для обучения и данные в продукте формально про одно и то же, но по факту различаются по правилам расчёта, структуре или наполнению.

Пример: «Похоже на тренировочно-производственный сдвиг. На обучении цена была уже со скидкой, а в проде в том же поле пришла цена до скидки».

4/5 — Частая причина падения качества после запуска модели в продакшен.

Всё про обучение модели

Этими терминами оперируют, когда проверяют, что модель действительно учится и находит закономерности и не развалится при первом новом сценарии.

Батч (batch)

Что значит? Данные, которые модель обрабатывает за один шаг обучения или расчёта. От размера батча зависят скорость обучения, нагрузка на железо вычислительных устройств и устойчивость процесса.

Пример: «Слишком маленький батч замедлял обучение рекомендаций, а увеличение ускорило процесс, но потребовало больше памяти».

5/5 — Встречается в любой задаче, где есть обучение ИИ-модели данными.

Бейзлайн (baseline)

Что значит? Это простая ИИ-модель, которая служит отправной точкой для сравнения и улучшения более сложных моделей. Она предназначена быть как можно проще, но при этом соответствовать задаче.

Пример: «Для оттока взяли бейзлайн-правило „не покупал 3 месяца — риск“. Сложная модель дала минимальный выигрыш при высокой стоимости разработки и поддержки».

5/5 — Без него прогресс модели сложно честно оценить.

Валидация

Что значит? Проверка качества ИИ-решения на отдельном наборе данных, который не использовался для обучения. Она помогает увидеть, как модель ведёт себя на новых примерах, пока её ещё можно спокойно доработать. Валидацию используют для подбора данных и архитектуры.

Пример: «На трейне метрики росли, но на валидации перестали улучшаться и начали падать — это показало переобучение».

5/5 — Норма для любой команды разработки.

Гиперпараметры

Что значит? Набор настроек модели и обучения, которые задаются до запуска и подбираются экспериментально.

Пример: «Модель вела себя нестабильно, пока команда не перебрала гиперпараметры: скорость обучения, размер батча и регуляризацию. После подбора качество стало расти без срывов».

4/5 — Рабочая рутина.

Градиент

Что значит? Величина, которая показывает, в каком направлении и насколько нужно изменить параметры модели, чтобы избежать ошибок. На градиентах основан сам процесс обучения.

Пример: «В скоринге ошибка почти не снижалась, потому что градиенты обнулились и модель перестала учиться».

4/5 — Постоянно всплывает при разборе проблем обучения модели, почему модель не учится или перестала улучшать качество выдаваемого результата.

Дропаут (dropout)

Что значит? Один из способов регуляризации, при котором во время обучения модель специально работает в усложнённом режиме, чтобы она не привыкала к конкретным примерам и лучше обобщала новые данные.

Пример: «Включаем дропаут. Без него модель выучила обучающую выборку и проседает на новых тикетах, а с дропаутом становится устойчивее».

4/5 — Классика для нейросетей.

Лосс (loss)

Что значит? Величина, которая показывает, насколько модель ошибается при обучении. Этот параметр используется как основной ориентир, идёт обучение в нужную сторону или зашло в тупик. Чем ниже лосс, тем лучше модель упрощает обучающие данные.

Пример: «Лосс быстро снижался, затем застыл — оказалось, что модель упёрлась в настройки и качество данных. После правок лосс снова пошёл вниз, а итоговые метрики выросли».

5/5 — Первое, на что смотрят при обучении модели. По лоссу видно, уменьшается ли ошибка и есть ли прогресс.

Метрика

Что значит? В обычной речи «метрика» — любой показатель, который необходимо замерять для выполнения результатов. В ML-командах это слово имеют в виду как конкретный числовой показатель качества модели под конкретную задачу. По метрикам команда оценивает, стала модель лучше или хуже и можно ли её выпускать.

Пример: «В рекомендациях оптимизировали клики, и CTR рос, но средний чек падал. Метрики пересобрали — добавили показатели выручки и удержания и переобучили модель под бизнес-цель».

5/5 — Главный маркер качества для команды ML-разработки.

Переобучение/оверфит (Overfitting)

Что значит? Ситуация, когда модель слишком подстроилась под обучающие данные, выучила их наизусть и из-за этого плохо работает на новых примерах.

Пример: «Похоже на оверфит. На наших тестах всё отлично, а в новом регионе модель массово ошибается, она выучила старый сегмент и не переносит закономерности».

5/5 — Вечная проблема с моделями.

Недообучение/андерфит (Underfitting)

Что значит? Обратная сторона оверфита. Модель слишком простая или мало обучена и не может уловить реальные закономерности в данных. По итогу она плохо работает и на обучении, и на новых данных.

Пример: «Это чистый андерфит. Модель слишком простая и почти не реагирует на изменения спроса, она не видит закономерности ни на обучении, ни в проде».

4/5 — Типичный сценарий для обучения модели.

Оптимизатор

Что значит? Алгоритм, который на основе градиентов решает, как именно обновлять параметры модели в ходе обучения. От него зависят скорость и устойчивость процесса.

Пример: «В динамическом ценообразовании обучение качалось, а качество то росло, то падало. После смены оптимизатора и его параметров обучение стало устойчивым, а время до рабочего результата сократилось».

4/5 — Важный технический рычаг, о котором регулярно вспоминают при доработке моделей.

Тест/бенчмарк

Что значит? В ML-командах под «тестом» или «бенчмарком» имеют в виду отдельный набор данных для финальной проверки модели перед релизом, который не использовали в обучении. На нём смотрят, как модель поведёт себя на новых примерах, и принимают решение о запуске.

Пример: «Трейн и валидация выглядели отлично, но тест провалился на данных нового региона».

5/5 — Обязательный шаг перед внедрением.

Трейн (Train set)

Что значит? Часть датасета, на которой модель обучается. Как раз на этом куске создаётся поведение, которое потом уходит в продукт.

Пример: «Рекомендательную модель обучили на трейне до ребрендинга и смены ассортимента».

5/5 — Это классика.

Эпоха

Что значит? Полный проход модели по всему обучающему датасету. После нескольких эпох смотрят, продолжает ли расти качество или модель уже выжала максимум.

Пример: «До 10-й эпохи метрики улучшались, потом рост остановился и началась деградация».

4/5 — Часто фигурирует в отчётах обучения модели.

Градиент-клиппинг (Gradient clipping)

Что значит? Приём, при котором слишком большие градиенты во время обучения принудительно ограничивают, чтобы шаг обновления параметров не был слишком резким.

Пример: «При обучении большой текстовой модели лосс периодически вылетал вверх и ломал процесс. После включения градиент-клиппинга обучение стабилизировалось и дошло до целевых метрик».

3/5 — Полезен в больших и сложных моделях.

Learning rate (LR)

Что значит? Настройка, которая определяет, как сильно модель меняет свои параметры за один шаг обучения. Слишком большой lr делает обучение нервным, слишком маленький — слишком долгим.

Пример: «В прогнозе спроса LR был слишком высоким. После снижения LR кривая стала ровной и качество удалось довести до нужного уровня».

5/5 — Частая причина проблем с обучением модели.

Тестируем воспроизводимость

Блок терминов про контроль обучения и эксперименты над моделью. Например, как фиксировать запуски, чтобы результаты можно было повторить, сравнить и объяснить, а главное — не потерять.

Чекпойнт (Checkpoint)

Что значит? Сохранённое состояние модели и её процесса обучения. Нужно, чтобы продолжить обучение или откатиться к рабочей версии.

Пример: «Откатываемся на последний стабильный чекпойнт. Новая итерация ухудшила качество, надо сравнить настройки и не потерять прогресс».

4/5 — Регулярно экономит часы и дни работы.

Воспроизводимость (Reproducibility)

Что значит? Это возможность повторить эксперимент с теми же данными и настройками и получить близкие метрики. Без этого нельзя полагаться на выводы по модели.

Пример: «У нас нет воспроизводимости. На пилоте эффект был, а повторить обучение с теми же настройками не получается. Пока не добьёмся воспроизводимости, верить цифрам нельзя».

5/5 — Стандарт хорошей работы.

Джоба (Run)

Что значит? Один конкретный запуск обучения или проверки модели с зафиксированными данными и настройками.

Пример: «Сравните джоба. В этом запуске другие данные и параметры, без фиксации джоба потом невозможно понять, откуда взялся лучший результат».

5/5 — Это основа работы с моделями.

Сид (Seed)

Что значит? Число, которым фиксируют случайность в расчётах. При одинаковом сиде и одинаковых настройках модель при повторном запуске даёт те же результаты.

Пример: «Зафиксируй сид. Сейчас каждый запуск даёт разные метрики, и мы не отличаем реальное улучшение от случайного шума».

3/5 — Важен, но о нём часто вспоминают в последний момент.

Продакшен и производительность

Эти слова используют для того, чтобы проверить, выдержит ли ИИ реальную нагрузку, скорость ответа, очереди запросов.

Задержка (Latency)

Что значит? Время от запроса до ответа модели. Ключевой параметр для интерфейсов, где пользователь ждёт результат здесь и сейчас.

Пример: «Задержка стала 700 мс. Чат ощущается тормозным, люди реже пользуются подсказками. Вернём 200–300 мс, иначе упадёт вовлечённость».

5/5 — Один из главных KPI в онлайн-сценариях. Например, чат-ассистенты, поиск, рекомендации, подсказки в интерфейсе и поддержка.

Инференс (Inference)

Что значит? Этап применения, когда обученная ранее модель уже работает на новых данных. Например, отвечает пользователю, выдаёт скоринг, прогноз, рекомендацию.

Пример: «После релиза вырос инференс по времени — это когда выдача тормозит. Оптимизируем код и инфраструктуру, иначе пользователи просто перестанут ждать ответ».

5/5 — В проде происходит каждый день.

GPU/VRAM

Что значит? GPU — ускоритель, на котором обычно обучают и запускают модели. VRAM — видеопамять. Объём VRAM чаще всего ограничивает размер модели и контекст.

Пример: «Модель не влезает в VRAM. Либо уменьшаем батч, либо ищем более мощную GPU, иначе не запустим».

5/5 — Предел реальности для любой ИИ-системы.

Запросы в секунду, или пропускная способность (Requests per seconds, Throughput)

Что значит? Сколько запросов или токенов система может обработать за единицу времени. Показывает, выдержит ли решение нужный поток нагрузки.

Пример: «На пике у нас не держится throughput. Запросы в очереди, всё копится — нужен батчинг и оптимизация инференса, чтобы выдерживать нагрузку».

4/5 — Очень важно.

Всё о LLM

Эти термины про работу с чат-моделями. Например, как управлять ответом, не сжечь бюджет на токены и не получить галлюцинации.

Элэлэмка (LLM)

Что значит? Большая языковая модель, которая умеет работать с текстом: анализировать, дописывать, резюмировать, отвечать на вопросы, помогать с кодом и прочее.

Пример: «Ставим LLM в поддержку. Она классифицирует входящие письма, предлагает ответ и подставляет шаблон — это сокращает ручную работу».

5/5 — Ключевое слово последних лет в ИИ.

Взлом награды (Reward hacking)

Что значит? Модель находит неожиданный, иногда жульнический способ увеличить числовое значение функции вознаграждения, полностью игнорируя истинную цель задачи.

Пример: «Смотри, это взлом награды. Мы оптимизировали вовлечённость, и бот нашёл короткий путь».

4/5 — Лежит в основе большинства заголовков статей про то, как нейросеть кого-то обманула.

Галлюцинации

Что значит? Когда модель выдаёт выдуманные факты, ссылки и детали, которых нет в реальности. С точки зрения стиля ответ выглядит корректно, но содержание неверно.

Пример: «Это галлюцинация — ассистент придумал регламент и номер документа, без RAG и контроля такой ответ может утащить бизнес в ошибочное решение».

5/5 — Один из главных рисков при использовании LLM.

ИИ-агент

Что значит? ИИ-система, которая сама выполняет цепочку шагов от пользователя. Агент может пользоваться внешними сервисами, обновлять карточки клиента, инициировать процессы и прочее. Работает как полноценный сотрудник.

Пример: «Это уже ИИ-агент, а не чат. Он читает письмо, тянет данные из CRM, предлагает ответ, создаёт задачу и отслеживает закрытие».

5/5 — Следующий уровень после LLM.

Окно контекста (Context window)

Что значит? Это максимальное количество токенов, которые модель может учесть за один раз, — вместе с запросом, историей диалога и своим ответом. Всё, что не помещается в окно, моделям приходится обрезать или разбивать на части.

Пример: «Не влезает в окно контекста. Целый архив договоров обрезается, поэтому режем документы на фрагменты и обрабатываем по очереди».

5/5 — Главное техническое ограничение при работе с LLM.

Промпт (Prompt)

Что значит? Текст запроса и инструкции к модели: что нужно сделать, в каком формате отвечать, на что опираться и чего избегать. От качества промпта напрямую зависит результат. Мы уже собирали топ промптов для бизнеса.

Пример: «Промпт надо переписать. „Напиши описание продукта“ даёт воду, а если задать аудиторию, структуру и запреты, получится текст для работы».

5/5 — Основа управления поведением LLM.

Системный промпт (System prompt)

Что значит? Набор базовых правил и установок для модели, которые задаются один раз и действуют по умолчанию, например роль, стиль, запреты, приоритеты. Пользователь его не видит, но именно он определяет характер ассистента.

Пример: «Поправим системный промпт: зафиксируем роль, тон, запреты и правила, чтобы ассистент не фантазировал».

4/5 — Обязателен в продуктовых ассистентах.

Температура (Temperature)

Что значит? Настройка, которая задаёт уровень случайности в ответах модели. Низкая температура делает ответы предсказуемыми и однообразными, высокая — креативными и разнообразными, но с риском странных идей.

Пример: «Снизим температуру для поддержки, чтобы ответы были стабильными, а для генерации идей повысим, чтобы было больше вариантов».

4/5 — Одна из самых популярных настроек.

Токены

Что значит? Мелкие части текста, которыми модель оперирует внутри: кусочки слов, символы, спецзнаки. Объём запросов и ответов, а ещё стоимость работы LLM обычно измеряют в токенах.

Пример: «Мы сжигаем слишком много токенов. Длинные логи и контекст на каждый запрос раздувают стоимость, режем контекст и меняем формат данных».

5/5 — Прямая связь с бюджетом и лимитами.

Про апгрейд больших моделей

Блок терминов про оптимизацию моделей: как сделать ИИ дешевле и практичнее, чтобы он помещался на доступном железе и не требовал большого бюджета.

Дистилляция (Distillation)

Что значит? Обучение небольшой модели на примерах и ответах большой, чтобы сохранить поведение, но снизить стоимость и требования к ресурсам. Большая модель выступает в роли учителя.

Пример: «Делаем дистилляцию. Большая модель слишком дорогая в эксплуатации, переносим поведение в компактную, ключевые сценарии сохраняем, стоимость режем».

3/5 — Появляется при оптимизации затрат на обучение модели.

Квантизация (Quantization)

Что значит? Понижение точности чисел в весах и расчётах модели, например до 8 или 4 бит, чтобы уменьшить потребление памяти и ускорить изменение с допустимой потерей качества.

Пример: «Квантизуем до 4 бит. Модель станет легче, инференс дешевле, и мы сможем крутить её на доступном железе».

4/5 — Стандарт для создания крупных моделей.

ЛОРА (LoRA)

Что значит? Способ дообучить большую модель, добавляя дополнительные блоки параметров вместо изменения всей модели. Позволяет сильно снизить требования к ресурсам.

Пример: «Сделаем LoRA-адаптацию: дообучим модель на одной GPU вместо того, чтобы перетренировать всё целиком и платить за кластер».

3/5 — Это подход для прикладных задач.

ПЕФТ (PEFT)

Что значит? Parameter-Efficient Fine-Tuning — общее название для методов, вроде LoRA и адаптеров, когда дообучается только небольшая часть параметров модели.

Пример: «Под разных клиентов используем ПЕФТ. Одна базовая модель плюс несколько адаптаций — дешевле поддерживать и проще обновлять».

2/5 — Чаще звучит в технических обсуждениях, чем в бизнесе.

Файнтюнинг (Fine-tuning)

Что значит? Дообучение уже готовой модели на своих данных под конкретную задачу.

Пример: «Делаем файнтюнинг на наших тикетах и гайдах. Нам нужны ответы по реальным процедурам и в нужном тоне».

5/5 — Один из основных рабочих инструментов ML- и продуктовых команд, которые адаптируют модель под свои процессы.

Продвинутые модели

Блок терминов про универсальные сценарии моделей и робототехнику, когда ИИ должен понимать и текст, и изображения, и видео, а ещё иногда выполнять действия в физическом мире.

Вээлэмка (VLM)

Что значит? Vision-Language-Model — это модель, которая понимает и связывает изображения или видео с текстом.

Пример: «Под это нужен VLM. Клиент присылает скриншот ошибки, модель читает текст на изображении, понимает контекст и сразу формирует тикет с приоритетом и подсказкой решения».

3/5 — Пока VLM-модели не стали массовым инструментом, но крупные игроки и медтех-стартапы уже используют технологию.

Виэлэйка (VLA)

Что значит? Vision-Language-Action — это продвинутые нейросетевые модели для робототехники. Они принимают и визуальные данные с камер или датчиков, и текстовые инструкции.

Пример: «В робототехнике нужен VLA. Он видит сцену с камеры, понимает текстовую команду и делает действие без ручного сценария на каждый шаг».

3/5 — Сейчас технология обсуждается в основном специалистами по ИИ, но в скором времени войдёт в обиход предпринимателей, связанных с робототехникой и автоматизацией.

Подписаться на наш телеграм-канал

Материалы по теме

Продажи автомобилей такси в лизинг в 2026 году упали на 40%: спрос снижается из-за новых требований к локализации Аналитики ожидают стабилизации рынка к маю 2026 года 04 марта 2026, 18:30
Apple выходит в массовый сегмент: компания представила самый бюджетный ноутбук — MacBook Neo стоит всего $599 Также стали известны первые цены на MacBook Neo в России 04 марта 2026, 18:00
Россияне стали чаще обращаться к юристам: спрос на оценку имущества и регистрацию товарных знаков вырос в 5-6 раз Юристы связывают это с перераспределением активов и изменениями в законодательстве 04 марта 2026, 15:45
Партнёрский материал Гайд по деловой связи от Телемоста Рассказываем, что надо сделать, чтобы звонки и коммуникация в чатах приводили к запланированным результатам.