Машинное обучение от философии к инженерии

Когда сегодня говорят про ИИ, создается ощущение внезапного прорыва. Как будто еще вчера ничего не было, а сегодня модели пишут тексты, код и генерируют картинки. В реальности почти все ключевые идеи машинного обучения появились десятилетия назад. Просто долгое время они были либо вычислительно невозможны, либо экономически бессмысленны.

Например, обучение современных больших моделей требует десятков тысяч GPU и инфраструктуры стоимостью сотни миллионов долларов – таких вычислительных мощностей просто не существовало еще 20 лет назад.

Если копать совсем глубоко, истоки ML лежат даже не в информатике, а в философии и математике. Аристотель еще в IV веке до н.э. создал формальную логику – первый шаг к механизации мышления. Готфрид Лейбниц в XVII веке мечтал о «машине рассуждений», которая могла бы разрешать споры с помощью вычислений. Он называл эту идею «calculus ratiocinator» и предполагал создание универсального символического языка для описания знаний.

В XIX веке Джордж Буль ввел булеву алгебру, показав, что логические утверждения можно выражать в виде уравнений. Позже именно булева логика станет математической основой цифровых схем и всей современной вычислительной техники.

Все это были попытки описать мышление как формальный процесс, который потенциально можно воспроизвести механически.

Но самое интересное происходит в XX веке

1943. Формальный нейрон

Уоррен Маккалок и Уолтер Питтс предлагают первую математическую модель нейрона. По сути, это бинарный классификатор, который суммирует входы и применяет порог. Уже здесь появляется ключевая идея – мышление можно выразить через формальные операции.

Их работа называлась «A Logical Calculus of the Ideas Immanent in Nervous Activity» и стала одним из первых мостов между нейробиологией и математикой. Формально модель можно записать как знак от взвешенной суммы входов w · x – что по сути является линейным классификатором.

Уоррен Маккалок
Уолтер Питтс
1950-1956. Рождение ИИ как области

Алан Тьюринг задает вопрос «Могут ли машины мыслить?» и предлагает свой знаменитый тест, как практическое определение интеллекта. Статья Тьюринга «Computing Machinery and Intelligence» была опубликована в 1950 году и стала одной из самых цитируемых работ в истории теории вычислений.

В 1956 году Джон Маккарти проводит Дартмутский семинар и вводит термин «искусственный интеллект». В семинаре также участвовали Марвин Минский, Клод Шеннон и Натаниэль Рочестер – будущие ключевые фигуры всей области. Оптимизм был огромный! Казалось, что интеллект можно воспроизвести за одно-два десятилетия.

Алан Тьюринг
Ученые, которые предложили провести Дартмутский семинар в 1956 году. Слева направо: Джон Маккарти, Марвин Мински, Клод Шеннон и Натаниэль Рочестер
1957-1969. Перцептрон и первое разочарование

Фрэнк Розенблатт создаёт перцептрон – линейную модель, вдохновленную нейроном. Это была первая в мире искусственная нейронная сеть: большой компьютер из проводов и резисторов, способный «настраивать» свои связи, чтобы научиться отличать один класс изображений от другого. Проект активно финансировался ВМС США, которые видели в нем потенциал для автоматического распознавания образов.

Однако в 1969 году выходит знаковая книга Минского и Паперта «Перцептроны», где они математически доказывают фундаментальные ограничения простых нейросетей. В частности, было показано, что однослойный перцептрон не способен решать задачу XOR – классический пример линейной неразделимости.

Их вердикт надолго отбрасывает исследования в этой области и знаменует начало первой «зимы ИИ» – периода разочарования и спада финансирования. Интерес к нейросетям практически исчез на десятилетие, уступив место символическим методам.

Схема искусственного нейрона
Фрэнк Розенблатт и его перцептрон
Марвин Ли Минский, один из создателей искусственного интеллекта
1980-е. Поворот к обучению

Появляется метод обратного распространения ошибки. Это алгоритм, который позволяет эффективно обучать многослойные нейронные сети, «проталкивая» ошибку от выхода к входу и настраивая каждый слой. В 1986 году Дэвид Румельхарт, Джеффри Хинтон и Рональд Уильямс формализовали и популяризировали этот метод.

Теперь модель можно не программировать, а тренировать на данных. Фокус смещается с логики и правил на оптимизацию. Обучение становится задачей минимизации функции потерь с помощью градиентного спуска.

Новое тысячелетие

1990-2000-е. ML становится прикладным

Наступает эра практичных алгоритмов: метод опорных векторов, случайный лес, градиентный бустинг.

Метод опорных векторов был основан на теории статистического обучения Владимира Вапника и принципе максимального зазора. Random Forest был предложен Лео Брейманом в 2001 году как ансамбль решающих деревьев.

А для работы с последовательностями (текст, речь, временные ряды) появляются LSTM-сети – нейросети с «памятью». LSTM были предложены в 1997 году Хохрайтером и Шмидхубером для решения проблемы затухающего градиента.

ML начинает приносить прибыль: фильтры спама, оценка рисков, персонализированные рекомендации. Именно в этот период ML становится ядром скоринговых моделей банков, антифрод-систем и рекомендательных алгоритмов крупных платформ.

Схема слоев долго-краткосрочной памяти
2012. Возвращение нейросетей

Модель AlexNet совершает переворот, выиграв ImageNet с феноменальным отрывом. Ошибка классификации снизилась примерно с 26% до 15%, что стало самым большим скачком за всю историю соревнования.

Ее успех наглядно показал: когда глубокая архитектура нейросети встречается с большими данными и мощью GPU, происходит не эволюция, а революция в возможностях машинного зрения. Модель обучалась на двух GPU NVIDIA GTX 580 — для академической среды того времени это было прорывным инженерным решением.

AlexNet – результат совместной работы трех исследователей: Алексея Крижевского, Ильи Суцкевера и Джеффри Хинтона
2017. Эра трансформеров

Выходит статья «Attention is All You Need». Она предлагает архитектуру «трансформер», основанную на механизме внимания. Авторы полностью отказались от рекуррентных слоев, что резко ускорило обучение и упростило масштабирование.

Это позволяет обрабатывать данные параллельно и идеально подходит для масштабирования. Именно эта архитектура легла в основу всех современных больших языковых моделей.

Архитектура модели трансформера
2020. Рождение больших языковых моделей

На базе трансформеров создается GPT-3 с 175 млрд параметров. Она демонстрирует эмерджентные способности – умение решать задачи, которым не обучалась явно.

Для сравнения: предыдущая версия GPT-2 имела 1,5 млрд параметров – рост масштаба составил более чем в 100 раз всего за год.

Модель обучалась на сотнях миллиардов токенов, собранных из открытых интернет-источников и книг. ИИ становится генеративной силой, способной создавать связный текст и код.

GPT3 имеет ширину 2048 токенов
2022-2026. Большие модели как инфраструктура

ChatGPT делает ИИ массовым продуктом. Аудитория сервиса превысила 100 миллионов пользователей всего за несколько месяцев – один из самых быстрых ростов в истории цифровых продуктов.

Начинается гонка масштаба и качества: GPT-5, Gemini, DeepSeek. Модели становятся мультимодальными и начинают работать не только с текстом, но и с изображениями, аудио и видео.

ИИ встраивается в поиск, банки, IDE и бизнес-процессы, становясь такой же необходимой инфраструктурой, как когда-то базы данных. Компании начинают строить собственные LLM или дообучать открытые модели под внутренние данные, превращая их в стратегический актив.

Конечно, ML не сводится только к LLM. Табличные данные, причинный анализ, ансамбли и байесовские методы остаются фундаментом индустрии. Но именно масштабирование нейросетей стало драйвером текущего технологического скачка.

Что ждет нас дальше?

Если в XX веке главным вопросом было «можем ли мы научить машину мыслить», то сегодня вопрос звучит иначе: «как встроить обучение в архитектуру мира вокруг нас»?

И, возможно, следующий шаг – это переход от просто масштабных моделей к системам, которые умеют работать с общественными ограничениями, неопределенностью и ответственностью.

Роман Романчук

Аналитик данных с более чем 10-летним опытом работы в российских и международных финтех-проектах, включая Сравни, Xsolla и Т-Банк. За это время прошел путь от рядового аналитика до директора, погружаясь в разработку стратегий, оптимизацию метрик и решение сложных бизнес-задач.