Rusbase
«Мы выпускаем уникальное для России
цифровое решение с открытым кодом».
Как «Первый ОФД» поможет конкурентам заработать на данных
Компания разработала систему, которая должна изменить и упростить отношения на рынке данных

10 сентября 2019



ОФД, или операторы фискальных данных — это компании, которые принимают, обрабатывают, хранят
и передают данные о расчетах в ФНС, а также могут продавать и обслуживать онлайн-кассы. Такие кассы, согласно Федеральному закону №54-ФЗ, обязаны использовать продавцы товаров и услуг (с рядом исключений, которые уже перечислялись, например, в этом материале). По сути, ОФД взяли на себя роль технологического диспетчера между ритейлерами, поставщиками услуг и ФНС.
ОФД хранят данные чеков покупателей, отправленные с кассовых аппаратов. В чеках содержится частичная информация о продавце товара, полная информация о наименованиях товаров, приобретенных в конкретном магазине в конкретное время, их цена. Информация о покупателях в чеках отсутствует (за исключением телефона или электронной почты при покупках онлайн, когда, к примеру, билеты высылаются на эти адреса). Чеки не содержат персональных данных, однако содержат коммерческую и фискальную тайну продавца (например, выручку и сумму уплаченного налога на добавленную стоимость). Эту тайну ОФД не раскрывают, соблюдая закон о применении контрольно-кассовой техники.
ОФД хранят данные чеков покупателей, отправленные с кассовых аппаратов. В чеках содержится частичная информация о продавце товара, полная информация о наименованиях товаров, приобретенных в конкретном магазине в конкретное время, их цена. Информация о покупателях в чеках отсутствует (за исключением телефона или электронной почты при покупках онлайн, когда, к примеру, билеты высылаются на эти адреса). Чеки не содержат персональных данных, однако содержат коммерческую и фискальную тайну продавца (например, выручку и сумму уплаченного налога на добавленную стоимость). Эту тайну ОФД не раскрывают, соблюдая закон о применении контрольно-кассовой техники.
Но хранение и передача информации, содержащейся в кассовых чеках, это еще не все услуги, которые оказывают ОФД. Операторы могут анализировать обезличенные данные и продавать результаты аналитики таких данных другим организациям. Об этом и пойдет речь в статье.

Сейчас на рынке представлена 21 компания-оператор фискальных данных. Все операторы внутри работают с данными по-своему, и ни у кого нет полной рыночной монополии. Даже клиент, который хочет консолидировать свои данные о проданных категориях товаров и готовый приобрести эту информацию, но имеющий в своем парке кассы, которые обслуживают несколько ОФД, вынужден выбирать для себя затратный вариант — последовательно обращаться в несколько ОФД, получая выгрузку в разных форматах и в разные сроки.
Но хранение и передача информации, содержащейся в кассовых чеках, это еще не все услуги, которые оказывают ОФД. Операторы могут анализировать обезличенные данные и продавать результаты аналитики таких данных другим организациям. Об этом и пойдет речь в статье.

Сейчас на рынке представлена 21 компания-оператор фискальных данных. Все операторы внутри работают с данными по-своему, и ни у кого нет полной рыночной монополии. Даже клиент, который хочет консолидировать свои данные о проданных категориях товаров и готовый приобрести эту информацию, но имеющий в своем парке кассы, которые обслуживают несколько ОФД, вынужден выбирать для себя затратный вариант — последовательно обращаться в несколько ОФД, получая выгрузку в разных форматах и в разные сроки.
Недавно «Первый ОФД» разработал решение, которое, похоже, может стать для рынка глотком свежего воздуха — это распределенная система хранения и обработки данных под названием «Юпана». Оказалось, что операторы фискальных данных, хоть и конкурируют между собой, готовы совместно использовать базы данных: это снизит издержки при продаже данных, а единый формат работы с данными будет выгоден для развития индустрии.
Rusbase встретился с топ-менеджментом «Первого ОФД» (АО «ЭСК») и архитекторами платформы «Юпана», чтобы узнать, как работает новое решение.
Виктор Михеев
Архитектор отдела аналитики
Максим Ларькин
Директор по развитию бизнеса
Михаил Лиманский
Ведущий разработчик отдела аналитики
ОФД и заказчики
— Расскажите, пожалуйста, какие запросы заказчики адресуют ОФД.
Виктор Михеев: Чаще всего к нам обращаются производители конкретных товаров. Запросом может быть анализ динамики продаж, анализ покупки сопутствующих товаров (что покупают вместе с определенным товаром), анализ промоакций: зависимость объема продаж от цены. Мы можем выполнять очень специфический анализ: у нас максимально детальные данные — благодаря им точность анализа высокая.
Михаил Лиманский: Самое главное, что данные с чеков появляются в нашей системе очень быстро. Как только чек пробился, через 1-2 секунды эти данные уже у нас — то есть фактически в реальном времени. При желании мы можем даже сделать живую карту по конкретному товару, где будут «вспыхивать» точки в тот самый момент, когда его купили. Правда, таких заказов пока не поступало.
В начале 2019 года «Первый ОФД» заключил соглашения о совместной работе в области больших данных с тремя операторами: «ОФД Ярус», «Такском» и «Контур ОФД». По информации от «Первый ОФД», еще с рядом ОФД ведутся переговоры.
Максим Ларькин: Часто к нам обращаются заказчики с просьбой увеличить покрытие рынка, чтобы максимально приблизиться к генеральной совокупности. Это возможно благодаря заключенным нами ранее контрактам об обмене данными с другими ОФД. Но сбор, агрегация и создание единого отчета занимает достаточно много времени, так как проводится практически в ручном режиме. Сейчас у нас есть возможность автоматизировать этот процесс (с помощью решения «Юпана», о котором будет речь дальше. — Rusbase).

Представьте, мы ежесуточно обрабатываем 20 миллионов чеков, 18 миллиардов чеков уже хранится в системе с февраля 2017 года. И если собрать общие данные по нам и партнерским ОФД, то объем данных, доступных для покупки клиентами, составит 75-80% рынка.
— А чем определяется доля рынка: количеством касс, продажами, байтами информации?
Максим Ларькин: В том и сложность, что официально, статистически, эта цифра считается количеством проданных касс. А нужно считать долю рынка объемами информации, долей чеков, принятых ОФД. Так, в «Первом ОФД» хранятся данные примерно по 20% всех российских чеков.
— Какова ваша ценовая политика для таких отчетов? Кто обращается с запросом на данные?
Максим Ларькин: Ценовая политика — это не тайна: на сайте «Первого ОФД» в разделе «Аналитика» есть конкретные цены — от 150 тысяч рублей за отчет при разовой выгрузке. Наши заказчики — ритейлеры, производители товаров и услуг, фармацевтические компании. Запросов много. И ценность информации из таких отчётов всем ясна. Скоро опубликуем один из наших ярких кейсов с заказчиком.
— Какая у компании доля доходов именно от этого направления?
Максим Ларькин: Сейчас это уже не 1%, а заметная часть дохода компании. И будет еще больше — у всех ОФД, если заказчику не нужно будет мониторить отчеты каждого ОФД, и агрегированную информацию ему предоставят в «одном окне». Именно эту идею мы и хотим реализовать.
Как объединить базы данных
— В чем сложность объединения баз данных разных ОФД?
Виктор Михеев: Главная проблема в том, что нет единого подхода к работе с данными на всех этапах. Каждый ОФД интерпретирует задание от клиента по-своему; у каждого свои методологии и наборы инструментов; каждый получает результат в своем формате и передает его в таком виде заказчику.

При этом данные от ККТ — контрольно-кассовой техники — ОФД передают в ФНС в строго определенном формате, этот процесс регламентирован.
Михаил Лиманский: Инфраструктурно-серверная часть у каждого оператора своя: кто-то строит инфраструктуру на IBM, кто-то — на Hewlett-Packard, есть и другие системы. На софтверном уровне кто-то принимает решение делать инфраструктуру, как мы, на open source (об этом будет рассказано дальше. — Rusbase), кто-то делает на Microsoft, кто-то на Oracle. И обрабатывают данные тоже все по-своему.
Максим Ларькин: Проблема еще и в том, что, поставив задачу провести аналитику одного показателя в конкретных условиях, заказчик может получить совершенно разные ответы от разных ОФД. Потому что запрос понят по-разному, шаблон разный, выдача разная и так далее.

Плюс к тому, у кого-то разработчики находятся в in-house, у кого-то на аутсорсе. У нас свой отдел разработки. Это около 50 человек (Виктор и Михаил как раз из этого отдела. — Rusbase).
— Ваши соглашения с конкурентами — прототип ассоциации деятелей рынка?
Виктор Михеев: Было бы здорово собирать всю информацию в какой-то единый кластер и делать единую технологию анализа. Но это невозможно, потому что участники рынка — жесткие конкуренты. Никто не согласится.
Максим Ларькин: Хотя изначально весь институт операторов фискальных данных задумывался в том числе и как центр аналитики данных, развития сервисов исследовательской деятельности как для самих клиентов ОФД, так и для внешних заказчиков.
Виктор Михеев: Существовала проблема: мы не могли анализировать всю информацию для клиентов. У этой проблемы есть две стороны, организационная и техническая. Организационную часть мы решили, заключив соглашения с конкурентами. Теперь мы можем покупать друг у друга обезличенную информацию, и это легально. Затем нас обеспокоила техническая сторона вопроса. С ней мы и работаем в нашей новой системе.

Если нескольким компаниям нужно делать одно и то же с огромным количеством данных, то можно применять централизованный или распределенный подход.
Михаил Лиманский: Создание общей базы данных всех операторов, то есть централизованный подход, не был воспринят участниками рынка. В принципе такой подход возможен, но не для работы с фискальными данными, которые имеют особый статус с точки зрения охраны информации и жесткие ограничения, установленные законодательством.
Виктор Михеев: Мне пришел запрос: а можно таких же целей достичь, только не централизованно — а чтобы все операторы имели доступ к системе на паритетных началах? Пришлось придумать распределенную систему, в которой несколько ОФД могут объединить данные и получить сводную аналитику по всем кластерам. Так и была создана «Юпана».
«Юпана» — счётное устройство, разновидность абака, использовавшаяся в математике инков государства Тауантинсуйу.
Выполнялось в форме стилизованной крепости, позволяло точно рассчитать все потребности, затраты и ресурсы индейских племен.
Как работает платформа «Юпана»
— Что такое «Юпана»? Платформа обработки данных?
Виктор Михеев: Да. Идея в том, что каждый присоединившийся к нам ОФД устанавливает себе модуль «Юпана», настраивает и интегрирует ее в свою инфраструктуру. После этого операторы выгружают данные и в едином формате могут получать результаты аналитики, отвечать на фактически любой запрос заказчиков. Причем с предсказуемыми результатами по времени.
— Значит, выдачу результата анализа данных можно стандартизировать для всех ОФД?
Виктор Михеев: Да, мы такой механизм создали. Причем это можно сделать не регламентативно, проработав миллион правил, а легко, с помощью программы.

Сейчас это декларативный язык, похожий на SQL. Запросы нужно будет создавать в определенном формате на этом языке, он «прилетает» во все узлы, то есть во все ОФД, где установлена «Юпана». Узлы обрабатывают запрос и формируют ответ в едином формате. В результате клиент получает результат в пригодном для дальнейшего использования виде.

— Это полностью автоматизированный процесс?
Виктор Михеев: У нас есть несколько идей, которые можно реализовать без участия человека или с его вмешательством. Но сейчас мы говорим только о платформе «Юпана».
— Кто поставляет и потребляет данные в «Юпане»?
Максим Ларькин: Данные можно получать от производителей контрольно-кассовой техники, операторов фискальных данных. Потреблять данные могут все: и заказчики — для анализа, и поставщики — для каких-то своих целей.

Нужно понимать, что в нашей платформе есть три уровня: первый, базовый, который ближе к «земле» — поставщики информации, о которых мы только что сказали. Второй — уровень универсальной методологии обработки данных, на нем программируется конкретный запрос заказчика (например — сколько напитка определенного бренда продавалось в Екатеринбурге по пятницам). Третий уровень характеризует формат и стоимость выдачи отчета заказчику.
— Раз уж зашёл разговор о выгоде. Я знаю, что вы хотите поставлять «Юпану» как open source, а не black box.
То есть каждый сможет получить результат труда команды «Первого ОФД»?
Максим Ларькин: Самое важное для нас сейчас — то, что введение единой системы хранения, обработки и анализа данных позволит оптимизировать расходы операторов на формирование ответов на запросы клиентов.

Михаил Лиманский: Сейчас каждый запрос мы прорабатываем отдельно и даем ответ только на основе своих данных. Он объективный, но неполный. Мы можем сделать полный, если нам предоставят данные другие ОФД (или мы им,
так как «Юпана» может работать зеркально). Для того, чтобы решить одну задачу, слишком много контрагентов тратят свои ресурсы: деньги, время, силы — и это приводит к тому, что совокупные затраты сторон перекрывают финансовые возможности потребителей этой информации. Использование «Юпаны» позволит меньше платить и ОФД, и ККТ, и производителям товаров, ритейлерам, то есть заказчикам аналитической информации.

Максим Ларькин: ОФД и другие пользователи у себя могут сохранить целостность своей системы, не модернизируя свое программное обеспечение.
При этом, безопасно включив «Юпану» в свою архитектуру, они вместе с нами получат выгоду от внедрения единой платформы.
Выгоды от внедрения «Юпаны»
— Какие это выгоды? И каковы особенности «Юпаны»?
Михаил Лиманский: Платформа «Юпана» бесплатная, представили мы ее как решение open source, что для России редкость. Так как исходный код системы открыт, каждый ОФД может подстроить ее под свою текущую инфраструктуру.
У компаний, которые хотят с нами сотрудничать, также есть возможность понять, что происходит внутри платформы. Можно убедиться, что наш код делает действительно то, что должен, и у него нет каких-то backdoors,
через которые можно украсть чужие данные.

Компании могут модернизировать код — добавить новые функции, исправить или ускорить процессы, контрибьютить свои доработки, — а после этого включать или не включать его в общедоступный проект. «Юпана» базируется на других продуктах с открытым кодом, например, фреймворках Spark,
Hadoop и языке Scala. А еще систему можно в любой момент отключить.
— Сколько происходит обработка запроса в «Юпане»?
Виктор Михеев: Очень по-разному. Все зависит от запроса. Но чтобы не быть голословными, скажем так: от секунд до часов, дней, даже месяцев.
Зачем «Первый ОФД» сделал код общедоступным
— Почему все же open source?
Михаил Лиманский: Это не чистая благотворительность. Вообще, в первую очередь потому, что такие решения легче развивать. Другие компании присоединяются к разработке. Значит, над системой работаем не только мы, но и пользователи.
— Это окупаемая история? Ваши выгоды превзойдут затраты?
Максим Ларькин: Честно говоря, мы понимаем хорошо наши затраты, так как платформа разрабатывалась с 2017 года. Но очевидно, что выгода, которую приобретут все участники рынка, мы в том числе, значительно превзойдет затраты.

Каждый решит свои задачи: ОФД получат дополнительный доход, заказчики
— более полную и объективную информацию. Сработает синергетический эффект: появятся новые потребители и пользователи нашей системы.
Уровень доверия к данным сразу после объединения баз многократно вырастет, рынок тоже вырастет молниеносно.
— «Юпану» уже тестировали в боевых условиях?
Михаил Лиманский: Система уже протестирована и многократно доработана. Мы уже используем для решения задач наших клиентов «Юпану» в продуктовом контуре как промышленное решение.
Это действительно работает.
Как ОФД смогут присоединиться
к системе
— Что нужно сделать ОФД, чтобы присоединиться
к платформе «Юпана»?
Михаил Лиманский: Все в целом несложно. Нужно:
1
Скачать код
2
Установить его
3
Настроить и внедрить в архитектуру своей системы
4
Перевести формат данных в формат «Юпаны»
5
Интегрироваться с внешними источниками данных (для ОФД они внутренние)
6
Положить данные в «Юпану»
7
Генерировать запросы и радоваться жизни
Важно, что мы готовы помогать и консультировать по внедрению системы.
Junior/middle devOps — уровень начального или среднего сотрудника отдела взаимодействия специалистов по разработке со специалистами
по обслуживанию, от англ. Development и Operations.

Максим Ларькин: Мы провели простой тест. Дали сотруднику junior/middle devOps наш продукт с задачей «установить и запустить» и мануал. Сотрудник запустил его в течение двух дней. Это очень быстро.
— На каких условиях ваши контрагенты, другие ОФД, согласились присоединиться к системе?
Максим Ларькин: По сути, никаких особых условий нет. Это сделано для удобства участников и им не нужно будет тратить свои ресурсы. Сейчас три ОФД (кто это — будет раскрыто позже. — Rusbase) в ожидании выпуска нашего решения в открытый доступ, чтобы начать его применять у себя. На портале GitHub уже доступен программный продукт — исходный код с мануалом.
— Сколько времени пройдет, по вашим оценкам, с момента проявления интереса к платформе от ОФД до получения первых результатов?
Виктор Михеев: Если внедрять систему сразу, не откладывая, то от недели до месяца и более. Это и от специалистов зависит, и от «железа». Выгрузка базы данных, например, в «Юпану» может занять 2-3 недели. Чтобы интегрировать «Юпану» в ОФД, нужно настроить корректную передачу данных в «Юпану». Причем ежедневная (или еженедельная, ежемесячная — по желанию ОФД или ККТ) выгрузка данных — после добавления уже сохраненных данных — будет занимать секунды. Напомню, чек появляется в нашей системе через 1-2 секунды после его генерации кассовым аппаратом.
— Дадите ссылку на расположение «Юпаны»?
Максим Ларькин: Для Rusbase — да. Мы же знаем, что вас прочитают все.

©Rusbase, 2019
Автор: Валерия Минчичова
Фото к материалу: Unspalsh, Depositphoto (IgorTishenko)
Екатерина Бороздина