Колонки

Дата-инженер, дата-сайентист и прикладной лингвист: как устроены самые востребованные в IT профессии

Колонки
Александр Ефимов
Александр Ефимов

Директор по аналитическим и индустриальным решениям SAS Россия/СНГ

Дарья Кушнир

Граница между «физиками» и «лириками» постепенно стирается. Раньше аналитика и компьютерные науки считались сферой, в которую могут попасть только выпускники математических и технических факультетов, а сегодня в ней востребованы лингвисты. Дата-инженер, дата-сайентист и прикладной лингвист теперь работают в связке, такая комбинация позволяет достичь максимальной эффективности. О том, какие задачи решают представители этих профессий, рассказал Александр Ефимов, директор по аналитическим и индустриальным решениям компании SAS.

 
Дата-инженер, дата-сайентист и прикладной лингвист: как устроены самые востребованные в IT профессии
Присоединиться

Кто есть кто

Кто такой лингвист, интуитивно помнимают все, а вот с дата-инженером и дата-сайентистом все не так однозначно. Между этими профессиями и задачами, которые решают их представители, нередко возникает путаница. Чтобы с ней разобраться, важно понимать: три кита современной IT-сферы – это математика, инженерия и бизнес. Дата-инженер скорее занимается математикой и инженерией, а дата-сайентист ближе к бизнес-составляющей, хотя это разделение достаточно условно. Дата-инженер в первую очередь занимается данными, их подготовкой и выверкой, а дата-сайентист на основе этих данных уже решает конкретные бизнес-задачи. В современных реалиях дата-инженер и дата-сайентист работают в связке. 

Роль дата-инженера сильно недооценена, иногда его воспринимают как  «вспомогательный» персонал, который проводит подготовительную рутинную работу. Но 80% успеха любого аналитического проекта зависит именно от того, насколько аккуратно собраны и подготовлены данные, а это как раз задача дата-инженера. 

Для повышения качества этих данных при решении задач необходимы лингвисты. Сейчас в аналитике текстов пытаются применять нейронную сеть: алгоритм сам разберет любой текст, найдет, что нужно, и все будет хорошо. Когда мы применяем какой-то алгоритм, нам нужен набор заранее подготовленных подходящих текстов для его обучения. Тогда на помощь приходит прикладной лингвист. Он создает алгоритмы обработки естественного языка и лингвистические правила, чтобы извлечь события, имена, добавить информацию о частях речи и так далее. После его работы можно применять алгоритмы машинного обучения. 

Один за всех, все за одного 

Дата-инженер создает базу для решения этих и многих других задач. Данные всегда нужно собрать, сформировать в понятную структуру , привести в подобающий вид, чтобы дата-сайентист смог их обработать.

Задачи дата-сайентиста лежат уже  в области аналитики: оценить кредитоспособность заемщика, спрогнозировать отток клиента, предсказать отклик на маркетинговую кампанию или рекламное предложение. Это классические задачи, которые были, есть и будут. Но появляются и новые: не просто понять, вернет клиент кредит или не вернет, а выявить, умышленно или нет. Отдельный круг новых задач дата-сайентистов связан с компьютерным зрением: разрешать или нет авторизацию в банкомате в зависимости от того, смотрит клиент в камеру или уклоняется от нее. Или, например, выявить магазинных воров через сопоставление базы фото и кадров с видеокамеры в супермаркете. Сейчас популярными становятся задачи для промышленности – добиться, чтобы проходная автоматически определяла, когда сотрудник идет на объект без каски или защитного комбинезона, и не допускала его к работе. 

Каждому – по специалисту

Сейчас аналитика очень востребована, в каком-то смысле она даже стала модной, поэтому всем потребовались дата-сайентисты. То же самое можно сказать о дата-инженерах. Во времена, когда даже терминов «дата-инженер» и «дата-сайентист» не существовало, профессия уже была, просто дата-инженеров называли ETL-специалистами. 

С лингвистами все чуть сложнее. Таких позиций в IT-сфере долгое время вообще не существовало. И сейчас все еще существует стереотип о том, что нейронная сесть сама со всем справится.

Многие коммерческие компании приходят к пониманию, что разбирать жалобы или следить за новостями можно в автоматическом режиме, а чтобы отладить процессы, было бы неплохо пригласить лингвиста. А те, кто всегда работал с текстами, начинают осознавать, что жизнь их лингвистов упростили бы специалисты-математики. В итоге мы приходим к ситуации, когда граница между дисциплинами становится все более размытой. Уже сейчас у нас в компании есть лингвисты, которые понимают, что делают алгоритмы, и есть немало математиков, которые умеют применять нейронные сети к текстам. И тех, и других, я уверен, будет становиться все больше. 

Задачи у всех трех специалистов, с одной стороны, разные, а с другой – это кирпичи одного и того же здания. От правильного сочетания людей в команде, правильного использования их способностей будет зависит качество выполнения задачи.

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Пора выбирать: готов ли ты определиться с профессией?
  2. 2 Кем работать в IT в 2020 году — список перспективных профессий
  3. 3 «Актуальных профессий не существует». Что делать школьнику, чтобы преуспеть