Новости

Нейросети «Яндекса» расшифруют архивные записи со сложной дореволюционной орфографией

Новости
Карина Пардаева
Карина Пардаева

Редактор новостного отдела

Карина Пардаева

На сервисе «Яндекса» «Поиск по архивам» можно расшифровать записи со сложной дореволюционной орфографией. В открытом доступе — свыше 2,5 млн страниц исторических документов с текстовой расшифровкой. Сервис справляется с расшифровкой за пару секунд. Об этом RB.RU рассказали в пресс-службе компании.

Нейросети «Яндекса» расшифруют архивные записи со сложной дореволюционной орфографией

Новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнает утратившие актуальность буквы и понимает особую структуру архивных документов.

Первым представленным в сервисе фондом стал Главархив Москвы — именно на его материалах разработчики обучали нейросеть. Теперь база пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться. 

«Поиск по архивам» повысит эффективность работы историков, социологов, демографов, генеалогов и поможет тем, кто ищет сведения о своей семье.

Среди документов — метрические книги, исповедные ведомости, ревизские сказки с результатами переписи населения XVIII – начала XX веков. 

Записи можно найти по каталогу или через строку поиска. Есть фильтры по годам, архивам, фондам и описям. Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями «Яндекса». Если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии.

RB.RU готовит большое обновление — и мы хотим учесть пожелания и интересы вас, наших читателей. Если вы готовы поделиться своим мнением об RB.RU, переходите по ссылке, чтобы заполнить короткую анкету.

Фото на обложке: DigitalAssetArt / Shutterstock

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Продолжается соревнование по распознаванию произведений искусства по фотографии от Codenrock
  2. 2 Machine Learning или Operations Research — что лучше использовать для роста бизнеса?
  3. 3 Digital на стройке: 4 технологии девелопмента, которые только набирают обороты
  4. 4 Стартовал ML-контест от российской ИТ-компании Brand Analytics на платформе DevChamp
  5. 5 Как развивалась дискуссия вокруг сознания нейросети Google
FutureFood
Кто производит «альтернативную» еду
Карта