Когда сегодня говорят про ИИ, создается ощущение внезапного прорыва. Как будто еще вчера ничего не было, а сегодня модели пишут тексты, код и генерируют картинки. В реальности почти все ключевые идеи машинного обучения появились десятилетия назад. Просто долгое время они были либо вычислительно невозможны, либо экономически бессмысленны.
Например, обучение современных больших моделей требует десятков тысяч GPU и инфраструктуры стоимостью сотни миллионов долларов – таких вычислительных мощностей просто не существовало еще 20 лет назад.
Если копать совсем глубоко, истоки ML лежат даже не в информатике, а в философии и математике. Аристотель еще в IV веке до н.э. создал формальную логику – первый шаг к механизации мышления. Готфрид Лейбниц в XVII веке мечтал о «машине рассуждений», которая могла бы разрешать споры с помощью вычислений. Он называл эту идею «calculus ratiocinator» и предполагал создание универсального символического языка для описания знаний.
В XIX веке Джордж Буль ввел булеву алгебру, показав, что логические утверждения можно выражать в виде уравнений. Позже именно булева логика станет математической основой цифровых схем и всей современной вычислительной техники.
Все это были попытки описать мышление как формальный процесс, который потенциально можно воспроизвести механически.
Но самое интересное происходит в XX веке
1943. Формальный нейрон
Уоррен Маккалок и Уолтер Питтс предлагают первую математическую модель нейрона. По сути, это бинарный классификатор, который суммирует входы и применяет порог. Уже здесь появляется ключевая идея – мышление можно выразить через формальные операции.
Их работа называлась «A Logical Calculus of the Ideas Immanent in Nervous Activity» и стала одним из первых мостов между нейробиологией и математикой. Формально модель можно записать как знак от взвешенной суммы входов w · x – что по сути является линейным классификатором.


1950-1956. Рождение ИИ как области
Алан Тьюринг задает вопрос «Могут ли машины мыслить?» и предлагает свой знаменитый тест, как практическое определение интеллекта. Статья Тьюринга «Computing Machinery and Intelligence» была опубликована в 1950 году и стала одной из самых цитируемых работ в истории теории вычислений.
В 1956 году Джон Маккарти проводит Дартмутский семинар и вводит термин «искусственный интеллект». В семинаре также участвовали Марвин Минский, Клод Шеннон и Натаниэль Рочестер – будущие ключевые фигуры всей области. Оптимизм был огромный! Казалось, что интеллект можно воспроизвести за одно-два десятилетия.


1957-1969. Перцептрон и первое разочарование
Фрэнк Розенблатт создаёт перцептрон – линейную модель, вдохновленную нейроном. Это была первая в мире искусственная нейронная сеть: большой компьютер из проводов и резисторов, способный «настраивать» свои связи, чтобы научиться отличать один класс изображений от другого. Проект активно финансировался ВМС США, которые видели в нем потенциал для автоматического распознавания образов.
Однако в 1969 году выходит знаковая книга Минского и Паперта «Перцептроны», где они математически доказывают фундаментальные ограничения простых нейросетей. В частности, было показано, что однослойный перцептрон не способен решать задачу XOR – классический пример линейной неразделимости.
Их вердикт надолго отбрасывает исследования в этой области и знаменует начало первой «зимы ИИ» – периода разочарования и спада финансирования. Интерес к нейросетям практически исчез на десятилетие, уступив место символическим методам.



1980-е. Поворот к обучению
Появляется метод обратного распространения ошибки. Это алгоритм, который позволяет эффективно обучать многослойные нейронные сети, «проталкивая» ошибку от выхода к входу и настраивая каждый слой. В 1986 году Дэвид Румельхарт, Джеффри Хинтон и Рональд Уильямс формализовали и популяризировали этот метод.
Теперь модель можно не программировать, а тренировать на данных. Фокус смещается с логики и правил на оптимизацию. Обучение становится задачей минимизации функции потерь с помощью градиентного спуска.

Новое тысячелетие
1990-2000-е. ML становится прикладным
Наступает эра практичных алгоритмов: метод опорных векторов, случайный лес, градиентный бустинг.
Метод опорных векторов был основан на теории статистического обучения Владимира Вапника и принципе максимального зазора. Random Forest был предложен Лео Брейманом в 2001 году как ансамбль решающих деревьев.
А для работы с последовательностями (текст, речь, временные ряды) появляются LSTM-сети – нейросети с «памятью». LSTM были предложены в 1997 году Хохрайтером и Шмидхубером для решения проблемы затухающего градиента.
ML начинает приносить прибыль: фильтры спама, оценка рисков, персонализированные рекомендации. Именно в этот период ML становится ядром скоринговых моделей банков, антифрод-систем и рекомендательных алгоритмов крупных платформ.

2012. Возвращение нейросетей
Модель AlexNet совершает переворот, выиграв ImageNet с феноменальным отрывом. Ошибка классификации снизилась примерно с 26% до 15%, что стало самым большим скачком за всю историю соревнования.
Ее успех наглядно показал: когда глубокая архитектура нейросети встречается с большими данными и мощью GPU, происходит не эволюция, а революция в возможностях машинного зрения. Модель обучалась на двух GPU NVIDIA GTX 580 — для академической среды того времени это было прорывным инженерным решением.

2017. Эра трансформеров
Выходит статья «Attention is All You Need». Она предлагает архитектуру «трансформер», основанную на механизме внимания. Авторы полностью отказались от рекуррентных слоев, что резко ускорило обучение и упростило масштабирование.
Это позволяет обрабатывать данные параллельно и идеально подходит для масштабирования. Именно эта архитектура легла в основу всех современных больших языковых моделей.

2020. Рождение больших языковых моделей
На базе трансформеров создается GPT-3 с 175 млрд параметров. Она демонстрирует эмерджентные способности – умение решать задачи, которым не обучалась явно.
Для сравнения: предыдущая версия GPT-2 имела 1,5 млрд параметров – рост масштаба составил более чем в 100 раз всего за год.
Модель обучалась на сотнях миллиардов токенов, собранных из открытых интернет-источников и книг. ИИ становится генеративной силой, способной создавать связный текст и код.

2022-2026. Большие модели как инфраструктура
ChatGPT делает ИИ массовым продуктом. Аудитория сервиса превысила 100 миллионов пользователей всего за несколько месяцев – один из самых быстрых ростов в истории цифровых продуктов.
Начинается гонка масштаба и качества: GPT-5, Gemini, DeepSeek. Модели становятся мультимодальными и начинают работать не только с текстом, но и с изображениями, аудио и видео.
ИИ встраивается в поиск, банки, IDE и бизнес-процессы, становясь такой же необходимой инфраструктурой, как когда-то базы данных. Компании начинают строить собственные LLM или дообучать открытые модели под внутренние данные, превращая их в стратегический актив.

Конечно, ML не сводится только к LLM. Табличные данные, причинный анализ, ансамбли и байесовские методы остаются фундаментом индустрии. Но именно масштабирование нейросетей стало драйвером текущего технологического скачка.
Что ждет нас дальше?
Если в XX веке главным вопросом было «можем ли мы научить машину мыслить», то сегодня вопрос звучит иначе: «как встроить обучение в архитектуру мира вокруг нас»?
И, возможно, следующий шаг – это переход от просто масштабных моделей к системам, которые умеют работать с общественными ограничениями, неопределенностью и ответственностью.
- Машинное обучение от философии к инженерии - 15.02.2026
- Матрица компетенций аналитиков данных - 04.12.2024
- Как правильно организовать работу с гипотезами? - 21.11.2023