Интервью / Искусственный интеллект

«Мы знаем 50 миллионов книг через их описания, а не содержание»: зачем Ленинке искусственный интеллект

Генеральный директор РГБ Вадим Дуда — о том, как ИИ меняет работу с библиотечными фондами, кто сможет зарабатывать на её датасетах и почему авторское право не успевает за нейросетями

26 июня 2026, 11:00

16 минут

Фото: архив Вадима Дуды

Искусственный интеллект

Россия

Технологии

Автор:

Инга Писковатская

Российская государственная библиотека запускает ИИ-платформу, которая должна изменить работу с одним из крупнейших книжных фондов в мире. О том, как Ленинка превращает миллионы книг в основу для обучения искусственного интеллекта, кто может зарабатывать на таких данных, зачем ИИ нужен «модуль совести» и почему авторское право оказывается в новой зоне неопределённости, мы поговорили с генеральным директором РГБ Вадимом Дудой.

От каталогов к данным: как Ленинка собирается «прочитать» миллионы книг заново

— В мае РГБ заявила о создании ИИ-платформы. Что она собой представляет?

— Это прообраз будущей библиотечной системы — надстройки информационной инфраструктуры. Дело в том, что Ленинка является получателем обязательного экземпляра печатных изданий страны: книг, диссертаций, авторефератов, журналов, газет. Все они попадают к библиографам, которые описывают их, создают каталоги и распределяют по отраслям знаний.

Сейчас мы стараемся реализовать ключевой сдвиг — перейти от работы с описаниями к работе с содержанием. Это крайне сложная задача. Представьте, ежегодно в стране выходит около 100 тысяч книг, и все они проходят через Ленинку. Чтобы их полноценно проанализировать, нужны тысячи специалистов. Именно поэтому мы рассматриваем использование нейросетей и систем искусственного интеллекта, которые могли бы помочь в работе с этим массивом информации.

При этом важно, что речь идёт не просто о поиске по ключевым словам, а о связи с конкретными изданиями и документами. Идея в том, чтобы поиск уходил от метаданных и переходил к смысловому уровню. Мы планируем развивать эту систему не только для Ленинки, но и для всех библиотек страны. Это амбициозная задача.

— Что уже сейчас вы включаете в датасет*Датасет — это структурированный набор данных, на котором обучают и тестируют модели искусственного интеллекта., на котором обучаете ИИ?

— У нас есть четыре основных типа источников. Это книги, журналы, газеты и диссертации. Это уже очень большой поток информации. Плюс к этому — подписки на различные базы данных, российские и зарубежные. Но в первую очередь сейчас мы экспериментируем именно с книгами и диссертациями, в том числе переводными изданиями.

В датасет попадают и новые поступления, и часть ранее созданных фондов. У нас уже есть значительный массив электронных документов. Например, Национальная электронная библиотека — это около 6 миллионов документов и один из крупнейших электронных массивов в мире. С этим тоже можно и нужно работать.

— Получается, что пока нет системы, при которой каждая новая оцифрованная книга автоматически попадает в систему?

— Пока нет, но задача состоит именно в том, чтобы все текущие поступления — а по закону мы получаем не только бумажные экземпляры, но и PDF-копии — в перспективе попадали в единый контур. Но это не может быть сделано автоматически без согласования с издателями и правообладателями, здесь важен аккуратный подход. В идеале мы хотели бы, чтобы весь поток новых изданий попадал в систему, которая дальше позволит не просто находить описание книги, а вести поиск по смыслу и сразу выходить на нужный источник.

— Есть ли цель переописать с помощью ИИ весь массив ранее накопленных материалов?

— Это наша макрозадача, но важно понимать масштаб: Ленинка — это более 50 миллионов единиц хранения. В этом числе около миллиона — газетные подшивки, а если развернуть их в отдельные номера, получится уже порядка 120 миллионов документов. Это колоссальный массив информации, но мы знаем его только через описания, которые когда-то сделали люди: о чём книга, к каким темам она относится. Ещё в записях Ленинградского библиотечного общества 1920-х годов обсуждалось, насколько описание книг зависит от субъективного взгляда библиографа.

Если представить, что можно было бы действительно погрузиться внутрь всего нашего книжного массива не через описание, а через содержание, — это открыло бы совершенно другой уровень возможностей. Там можно было бы найти множество новых смыслов и неожиданных связей.

— Что вы имеете в виду под новыми смыслами и связями?

— Со временем книги меняют значение и становятся частью новых научных дисциплин. Например, в развитии искусственного интеллекта использовались теория распознавания образов и лингвистические наработки по неструктурированным данным — значительная часть этих текстов относится к 70–80-м годам. При этом при поступлении в фонды никто не маркировал их как основу будущего ИИ. Огромные массивы библиотек невозможно переописать задним числом, поэтому первичное описание часто не совпадает с современным научным контекстом. Именно поэтому эта работа должна быть постоянной — и её в полной мере может выполнять только основанная на искусственном интеллекте система.

— Сколько человек участвует в проекте и какие специалисты в него вовлечены?

— Сейчас в проекте задействованы около трёх тысяч человек. Это большая команда: в каждой крупной библиотеке есть службы комплектования, каталогизации и обработки книг — специалисты очень высокой квалификации.

Чтобы сохранить преемственность, мы привлекаем библиографов. Но мы видим, что людям, привыкшим работать в определённой технологической среде, сложно одновременно создавать новое. Поэтому над созданием ИИ-платформы в основном работают отдельные команды. Мы выделяем проект в отдельную ветку, чтобы не смешивать эксперименты и производство.

— На каком этапе вы сейчас находитесь?

— Сейчас это пилотная стадия — внутренняя разработка, недоступная для читателей. Пока что мы работаем с ограниченным массивом данных: загружаем книги в несколько нейросетей, тестируем разные модели и подходы.

При этом Ленинка ведёт параллельно два процесса: не останавливает традиционную работу библиографов и одновременно развивает новые технологии. Мы не можем одномоментно притормозить наработанные веками процессы: эксперименты идут отдельно, вне основного контура. Переход в новую систему возможен только после подтверждения её устойчивости. По нашим оценкам, на это может уйти около пяти лет.

Около 5 лет

уйдёт на переход в новую ИИ-систему Ленинки

Источник: генерация

Модуль совести для ИИ: фантазия или необходимость?

— С какими типами ошибок ИИ-система Ленинки сталкивается сейчас и какие из них сложнее всего поддаются исправлению?

— По мере масштабирования количество ошибок растёт — это закономерно. Мы уже видим, что основная сложность возникает не на уровне точных, структурированных данных, а там, где появляются интерпретации, особенно оценки морального характера или соответствие определённой системе ценностей. Здесь пока больше всего вопросов.

У меня нет готового ответа, как это решать. Есть, возможно, спорная мысль, которой я всё же поделюсь. Для систем искусственного интеллекта, вероятно, потребуется некий «модуль совести» — механизм, который будет соотносить выводы и решения с системой духовных и нравственных ценностей. Потому что такие системы будут формировать нарративы, влиять на общественные представления, подсказывать тенденции. По мере увеличения значимости их роли мы всё больше будем им доверять, даже в предварительной обработке информации. В этом смысле они должны работать не только в логике рациональности, но и в более широком ценностном контуре.

Как это реализовать технически — отдельный сложный вопрос. Возможно, через этический модуль, который будет выполнять роль своеобразной проверки на соответствие, условного внутреннего эксперта. По аналогии с тем, как человек проходит обучение и экзамены, прежде чем получить право учить других, такая система тоже должна проходить некую ценностную валидацию.

— Пока такой системы нет, по каким принципам и критериям вы принимаете решение, какие данные должны быть включены в ваш датасет, а какие нет?

— Это ещё один вопрос, который мы пока решаем. Очень тонкий и сложный. У меня пока нет на него окончательного ответа. Безусловно, нам важно уделить большое внимание пласту классической литературы, потому что речь здесь не только о рациональных алгоритмах, но и о более глубоких смыслах, о том, что можно назвать культурным кодом, национальной традицией.

В этом смысле задача действительно выглядит масштабной: создать датасет, который, если хотите, отражает национальное ДНК — основные нравственные, исторические и культурные смыслы. Это большая работа. Очевидно, что в одиночку Ленинка такую задачу не решит, — это предмет серьёзных научных исследований. Мы уже находимся в контакте с Академией наук, с крупными научными организациями и университетами. Ищем единомышленников.

— Если любой датасет в конечном счёте создаётся людьми и отражает их взгляд и систему ценностей, как вы считаете, возможно ли создать по-настоящему нейтральный датасет?

— На датасет всегда влияет тот, кто его создаёт. Так и должно быть. Это похоже на библиотечную систему: в её основе всегда стоит создатель библиотеки со своей системой взглядов, установок и ценностей.

Культура и традиции разных стран существенно различаются, и это естественно. В этом нет противоречия. Напротив, это важная часть мирового разнообразия. Именно в многообразии и заключается ценность подхода: важно не пытаться всё переплавить в единую систему, а бережно сохранять особенности каждой культуры.

Поэтому задача как раз в том, чтобы не создавать единый универсальный «котёл», а сохранять и уважать различия. Иначе мы действительно придём к тому, что начнём мыслить и говорить одинаковыми формулировками, а это уже риск.

— В чём вы тогда видите ценность национального датасета в эпоху глобальных ИИ-моделей, которые конкурируют между собой?

— Я думаю, что наше конкурентное преимущество будет не в объёме данных. Мир располагает огромным массивом англоязычной литературы, который по объёму значительно превосходит отечественный. Однако возникает другой вопрос: не несёт ли это определённый риск? Мы не должны потерять национальную идентичность и историческую преемственность. Если наши системы искусственного интеллекта будут в основном опираться на данные, сформированные в иной культурной среде, на других ценностях, традициях и представлениях о мире, то со временем это неизбежно начнёт влиять и на нас.

Очевидно, что датасет, который создаёт Ленинка, будет меньше, чем глобальные массивы. Но зато он будет в большей степени соответствовать национальным интересам, национальным ценностям и нашей исторической перспективе.

— Сегодня развитие ИИ во многом связывают с вычислительными мощностями. Но может ли со временем главным конкурентным преимуществом стать не «железо», а доступ к качественным данным и датасетам?

— Сейчас развитие ИИ во многом идёт по экстенсивному пути — за счёт наращивания вычислительных мощностей. Достаточно посмотреть на рынок: например, на рост капитализации NVIDIA, которая долгое время фактически доминировала в сегменте видеокарт. Сейчас появляются новые игроки, ситуация постепенно выравнивается, но за последние годы рост был действительно колоссальным.

Но я не уверен, что именно в наращивании вычислительных мощностей в будущем будет сосредоточено главное конкурентное преимущество. Скорее оно сместится в сторону более совершенных алгоритмов и, прежде всего, более качественной работы с данными. Важнее не бесконечно увеличивать объёмы вычислений, а повышать точность работы с контентом и датасетами. Потому что чем больше данных и вычислений, тем выше риск шума, искажений и потери смысла. Я скорее сторонник логики, качества и точности, чем бесконечного масштабирования.

Если смотреть под этим углом, крупнейшие библиотечные фонды становятся стратегическим ресурсом для развития национального ИИ. Ленинка — это прежде всего книги, а книги остаются одним из самых больших и при этом наиболее качественных массивов знаний в стране. По масштабу книжных фондов сегодня сложно найти сопоставимый источник. А качественные данные становятся таким же стратегическим активом, как и вычислительные мощности. Уверен, что в ближайшие годы многие технологические компании начнут рассматривать подобные ИИ-фонды именно в этой логике.

Источник: генерация

Национальный датасет: между общественным ресурсом и коммерческим продуктом

— Если представить, что на основе ИИ-платформы Ленинки со временем будет сформирован национальный корпус знаний для отечественного искусственного интеллекта, то кто, на ваш взгляд, должен отвечать за такой ресурс? Кому должно принадлежать право формировать и поддерживать эту инфраструктуру?

— Это настолько важная задача, что управлять таким ресурсом должна не одна организация. Скорее речь может идти о большом общественном совете или консорциуме с участием государства, библиотек, научных и технологических организаций. Это проект, который касается всего общества, а не только библиотечной отрасли, поэтому и управлять им нужно сообща.

Мы консультируемся с крупнейшими игроками ИТ-рынка. По ряду причин я пока не могу назвать конкретные компании, но подготовка такой экосистемы уже идёт. Подобный проект невозможно развивать исключительно внутри одной организации: он требует участия крупных технологических и научных партнёров уже на старте.

— На сайте библиотеки говорится, что в будущем технологические компании смогут использовать её датасет для своих целей. Как это будет работать?

— Пока, к сожалению, для этого нет готового нормативного поля. Сегодня мы не можем использовать для обучения ИИ полные тексты, которые поступают в Ленинку по системе обязательного экземпляра, в том числе для обучения собственных систем. Это одна из причин, почему проект развивается осторожно.

Сейчас мы работаем над тем, чтобы найти решение этих нормативных вопросов. Нам важно создать механизм, который позволит законно использовать для обучения большие массивы текстов, поступающих в фонды библиотеки. Я уверен, что в будущем такой датасет можно будет предоставлять для обучения различных систем искусственного интеллекта. По сути, это должно стать национальным достоянием, общим ресурсом.

— Кто тогда будет получать выгоду от этого, бизнес?

— Мне кажется, здесь вообще не стоит говорить о выгоде. Это не бизнес-проект. Кто получает выгоду от того, что мы воспитываем детей? Это история про развитие страны, науки, образования и культуры, а не про коммерческую отдачу.

— Я скорее о другом. Допустим, технологическая компания использует датасет библиотеки для создания собственного продукта, а затем начинает на нём зарабатывать. Получается, коммерческую выгоду будет получать частный бизнес, а ресурс при этом создаётся как общественное благо. На ваш взгляд, это нормальная модель взаимодействия?

— Для ответа проведу аналогию с тем, как библиотека работает сегодня. Например, дизайнерская команда приходит в Ленинку, изучает наши фонды, вдохновляется архивными материалами и создаёт новую коллекцию, которая затем становится коммерчески успешной. Компания получает прибыль, но библиотека предоставляет доступ к знаниям бесплатно.

В этом и заключается смысл библиотечной работы. Библиотека создаёт условия для появления новых идей, продуктов и проектов, в том числе успешных с коммерческой точки зрения. Но сама она не становится бизнес-партнёром этих проектов.

— Руководитель одной из известных ИТ-компании в колонке на сайте Russian Business рассказал о том, что одна из главных проблем развития искусственного интеллекта в России — отсутствие доступа к данным, особенно в таких сферах, как здравоохранение, промышленность, энергетика. Можно ли сказать, что если подобные массивы данных станут доступнее, это поможет развитию отечественных технологий в целом?

— Я не думаю, что фонды Ленинки когда-либо будут полностью открыты в информационной сети. В этом случае мы разрушим систему защиты авторских прав, которая создавалась десятилетиями. Но обеспечить максимально простой доступ к данным, которые могут использоваться для обучения будущих систем, — это задача, которую нам придётся решать.

Я глубоко убеждён, что доступ к достоверной информации станет одним из ключевых условий экономического роста. Чтобы страна получила серьёзные конкурентные преимущества в будущем, знания должны распространяться как можно шире. Это уже не просто вопрос культуры или образования — это вопрос развития государства.

Новая зона неопределённости: кто отвечает за контент, созданный ИИ

Источник: генерация

Новая зона неопределённости: кто отвечает за созданный ИИ контент

— Авторское право создавалось в эпоху, когда искусственного интеллекта в нынешнем виде просто не существовало. Хватает ли сегодняшнего законодательства для создания национальной ИИ-платформы на базе библиотечных фондов, или без новых правил здесь не обойтись?

— Мы только в самом начале формирования новой системы отношений. Появляются совершенно новые субъекты и новые вопросы, на которые пока нет готовых ответов. Допустим, нейросеть обучили на полном корпусе текстов Льва Толстого, а затем она создала произведение, стилистически очень на него похожее. Кто в таком случае автор? Кто бенефициар? Может ли вообще система обладать какими-то правами? Таких вопросов в ближайшие годы будет много.

При этом технологии уже влияют на творческие индустрии. Нейросети пишут вполне приличные тексты, создают музыку. Мы видим, сколько споров это вызывает. Вспомнить хотя бы дискуссии и протесты сценаристов в США. Запретить развитие этих технологий, конечно, не получится, но выстроить новую систему отношений между участниками рынка интеллектуальных прав придётся.

Пока единственный путь для нас — договариваться с авторами и правообладателями о законном использовании произведений на всех этапах работы. Другого механизма сегодня нет. Но в будущем, безусловно, нужно искать новые решения.

Любой автор или правообладатель должен иметь возможность получать справедливую компенсацию за использование результатов своего труда.

Другое дело, что мы пока не до конца понимаем, что именно в мире нейросетей следует считать использованием произведения, а что нет. Мы обучаем системы не для копирования текста, а для понимания стиля, языка, образа мыслей. И это создаёт ещё одну большую зону неопределённости.

— Где, на ваш взгляд, проходит граница между чтением книги человеком и «чтением» книги алгоритмом?

— Я люблю задавать встречные вопросы. Когда человек покупает книгу, должен ли он спрашивать разрешение автора на то, чтобы воспользоваться идеями из этой книги или вдохновиться прочитанным?

Пока что на вопрос о том, где проходит граница между чтением книги человеком и алгоритмом нет однозначного ответа. Но я уверен, что впереди нас ждёт формирование совершенно нового направления права, связанного с интеллектуальной собственностью в эпоху искусственного интеллекта. Появятся новые понятия, новые правила, будет много судебных споров и попыток найти баланс между интересами авторов, правообладателей и разработчиков технологий.

Мы постоянно обсуждаем эти вопросы с издателями, авторами и правообладателями. Единой позиции пока нет. Многие издатели относятся к развитию ИИ настороженно, и я их понимаю. С одной стороны, технологии дают новые возможности для создания и распространения книг. С другой — могут резко удешевить производство контента и породить такой поток искусственно созданных текстов, который начнёт вытеснять настоящих авторов, настоящие книги и настоящих издателей. А это, на мой взгляд, большая ценность, которую важно сохранить.

— Сегодня нейросети создают огромное количество контента. Как вы планируете защищать обучающие массивы от попадания в них текстов, которые были сгенерированы другими нейросетями? Насколько это серьёзный риск для качества будущих моделей?

— Пока мы такую задачу специально не решаем. У нас есть собственный большой поток документов — книги, диссертации, периодика, — о которых я уже говорил. Мы работаем с понятными и проверенными источниками и не используем материалы неизвестного происхождения.

Но могу сказать, как я лично отношусь к этой теме. Я принципиально не использую искусственный интеллект для написания текстов для соцсетей. Всё пишу сам, использую свои мысли.

Мне кажется, хорошим тоном было бы честно обозначать случаи, когда контент создан с помощью ИИ. Не потому, что это должно регулироваться законом, а потому что это вопрос уважения к аудитории. Если текст или изображение созданы нейросетью — просто сообщите об этом.

Хотя и здесь возникает много тонкостей. Если фотографию обработала автоматическая система — это уже ИИ или ещё нет?

Любопытно, что ещё несколько лет назад созданный искусственным интеллектом контент воспринимался как нечто необычное и ценное. Сегодня происходит обратное: всё больше ценится то, что сделано человеком самостоятельно.

Мне кажется, это закономерный процесс. Когда Гутенберг в 1455 году напечатал свою 42-строчную Библию, книга была предметом роскоши и большой ценности. Возможно, сейчас мы снова приходим к похожей ситуации: настоящая книга, работа журналиста, труд писателя становятся своего рода информационной роскошью.

Я не думаю, что искусственный интеллект вытеснит человека. Скорее мы научимся жить в мире, где рядом существуют два потока контента: созданный нейросетями и созданный человеком. И оба найдут своего читателя.

— Если Ленинка действительно станет хранителем крупнейшего русскоязычного массива данных для обучения отечественного ИИ, можно ли будет по-прежнему называть её библиотекой? Или она постепенно превращается в технологическую организацию нового типа?

— Наша миссия останется неизменной. Мы собираем, храним и предоставляем обществу доступ к информации, которая имеет значение для нашей страны. Если реализуется сценарий, о котором вы говорите, то он полностью укладывается в эту миссию. Мы также будем собирать и хранить знания, только, возможно, уже в форме датасетов и новых информационных массивов. И также будем предоставлять их в пользование в интересах общества и государства. Мы библиотека и останемся библиотекой навсегда.

Подписаться на телеграм-канал