Все, что мы видим в новостях сегодня про AI, — это лишь часть айсберга, в то время как под водой скрывается огромный объем фундаментальных научных исследований с десятками тысяч научных публикаций в рецензируемых журналах и на конференциях.
Изучать всю эту «академию» сложно, и это могут позволить себе только те, у кого достаточно свободного времени, ну или те, кто, собственно, пишут эти исследования. Но можно сделать ход конем — посмотреть на топ-100 наиболее резонансных работ в AI и в целом сделать неплохие выводы, кто и куда движет нас в области искусственного интеллекта.
Стас Важенин, Head of Strategy & Research в NtechLab, автор Telegram-канала Full Ratchet, сделал краткий обзор топ-100 наиболее цитируемых статей за последние годы в ИИ. Кто их публикует? Кто спонсирует? О чем говорят больше всего? Как выглядит топ-5 чемпионов и топ-100 научных статей в области ИИ? Он вдохновился данными с платформы Zeta Alpha, а цитируемость взял с Semantic Scholar, Scopus, WoS.
Содержание:
- Дисклеймер
- Так что было интересного за последние 3 года?
- TL;DR
- А где Россия?
- Сам список топ-100 статей
- Топ-5 наиболее цитируемых академических статей за 2022
Для людей, не близко знакомых с научным процессом, уточню, важность научных публикаций — это не только распространение информации, но и верификация результатов исследований, а еще — главная мера эффективности научной работы. Это и отличает исследовательскую статью от, например, этого материала.
Дисклеймер
Согласен, индекс цитирования, который я беру за основу, не самая верная метрика для оценки влиятельности публикации, если считать по разным источникам, как Scopus, Semantic Scholar или Google. Сегодня, например, мы видим резонанс вокруг глубокого обучения. В результате там больше всего статей, там работает больше всего людей, больше конференций. И, следовательно, больше цитирований в общем. Ну, вы поняли.
Для тех, у кого совсем нет времени, TL;DR в последнем абзаце.
Так что было интересного за последние 3 года?
Давайте сначала разберемся, кто вообще драйвит всю эту «ИИ-академию». Если посмотреть на количество самых цитируемых работ в области ИИ за последние 3 года, мы увидим, что США доминирует. Более половины статей из топ-100 вышли из США, по 10% из Китая, Великобритании, Германии. А еще раньше США публиковали вообще две трети всех статей из топ-100.
Доля США, конечно, снижается в последнее время, но хочу обратить внимание на другой факт — данные в графике приводятся только по англоязычным исследованиям, то есть пишутся на английском языке.
Несмотря на это, Китай удерживает второе место.
На английском языке. Очень убедительно. А что творится в самой Китайской академии, так это и вовсе космос, там работ сотни тысяч. Но про это я напишу как-нибудь в следующей статье.
Любопытно также, что Европа представлена лишь несколькими странами. Можно особенно выделить Великобританию, основные работы в области AI в стране публикует DeepMind, на них пришлось почти 70% всех академических статей. Deepmind — это такой исследовательский локомотив в области AI, которую Google приобрела за $500 млн в 2014 году.
Читайте по теме: Китайские ученые стали мировыми лидерами по количеству научных статей
Давайте теперь посмотрим на авторов нашего списка топ-100 наиболее цитируемых работ. Исследовательские подразделения Google уже достаточно долго чувствуют себя очень уверенно в лидерах. За ним следуют академические научные подразделения из Meta, Microsoft, UC Berkeley и Стенфордского университета.
Может показаться очень неочевидным: а зачем корпорациям вообще лезть в академическую область? Даже целый ряд IT-гигантов из Fortune 500 содержат подразделения, занимающиеся чисто фундаментальными исследованиями в разных областях, от экологии до AI, среди которых — IBM, Huawei, Tencent, Amazon, и многие другие.
Обычно компании содержат такие команды в конкурентных гонках за инновациями, талантами, патентами, репутацией.
Короче, это я к чему — академические институции, от которых, кажется, должен быть сильнейший выхлоп исследований по качеству и количеству, часто оказываются не главными движущими силами всей этой истории. Наоборот — оказывается, корпорации мощнее и звонче выкатывают больше самых резонансных работ.
Если посмотреть по общему количеству научных публикаций, то Google также лидирует. При этом второе и третье места в рейтинге (университет Цинхуа и University и «Майкрософт») отстают с незначительной разницей (график ниже). На графике можно заметить, что нет OpenAI и Deepmind — эти организации публикуют меньше работ, но если публикуют — делают это красиво.
Много — не значит качественнее. Чтобы было понятно — Google публикует под 9 тыс. статей, из которых только 20 попадают в топ-100 самых цитируемых, а OpenAI и Deepmind публикуют чуть меньше 100 статей, из которых в топ-100 попадают сразу около 10.
Другим любопытным наблюдением для меня стало появление китайского университета Цинхуа в топ-3 организаций по общему количеству научных публикаций. А также в топе Пекинский университет, Китайский университет Гонконга и университет Наньянг.
Еще раз обращу внимание, что это рейтинг англоязычного академического мира.
Ну и последний график — о том, какая доля выпущенных работ конвертируется в топ-100 самых резонансных. То есть насколько хорошо организации выкатывают публикации, которые реально стреляют и расходятся аки пирожки. И мы увидим безоговорочное лидерство OpenAI с их блокбастерами. Далее следуют R&D группа EleutherAI, китайский ИИ вендор Megvii, Deepmind и другие. Спасибо маркетингу и, безусловно, качеству работ.
TL;DR
Ключевые темы последнего года, вокруг которых сосредоточена сотня лучших научных работ в области AI, следующие:
- разработка алгоритмов обработки естественного языка,
- моделей компьютерного зрения,
- исследование алгоритмов в робототехнике,
- сетки и алгоритмы для работы с визуальным контентом,
- инфраструктура для развертывания нейросетей.
Наиболее цитируемые работы сегодня — это чисто биоинжинерные темы про сворачивание белков и предсказание 3D-структуры белков с AlphaFold и Colabfold, нейросетка DALL-E 2, архитектуры сеток ConvNet и языковая сетка PaLM от Google.
Больше всего статей генерят корпорации, университеты и Китай — Google AI, университет Цинхуа, «Майкрософт», Карнеги — Меллон, MIT. А наиболее влиятельные выкатывают в большинстве корпорации: Google AI, Meta, «Майкрософт» и Беркли.
А где Россия?
Большая, отдельная тема. Но если кратко — за 2020 год в России было около 1120 научных публикаций в области AI в рецензируемых журналах. В 2021 году было уже около 1700 научных публикаций, но это только на русском языке. Общее количество публикаций от российских исследователей хоть и стабильно растет, но все еще небольшое — остается на уровне 1% от мировых.
В рейтинге стран, исследователи которых опубликовали наибольшее число статей в рецензируемых журналах по AI, мы находимся на 18-м месте. Это неплохо. В 2021 году мы поднялись на 3 места, с 22-го на 18-е. Нас обгоняют Индонезия, Бразилия, Нидерланды, Иран, Индия, Корея и другие страны.
Самые активные организации по публикациям на конференциям в России стабильно являются Сколтех, НИУ ВШЭ, МФТИ, ИТМО. Три ведущих университета — Сколтех, НИУ ВШЭ, МФТИ можно особенно похвалить — они ответственны за 82% всех публикаций на конференциях. Среди коммерческих организаций самые активные у нас — «Яндекс», «Сбер», российские подразделения Samsung AI, Huawei.
Сам список топ-100 статей
Читайте также:
Реально смотреть на продукт и его потенциал — как в этом поможет STS
Подружить физиков и биологов: как синхронизировать научную команду за 5 шагов
Топ-5 наиболее цитируемых академических статей за 2022
- 1. AlphaFold Protein Structure Database. Нейросеть AlphaFold 2 для расширения покрытия баз протеиновых структур
Саммари: «Гугловое» подразделение DeepMind выкатило работу про вторую версию своей революционной системы предсказания 3D-структуры белков. Фактически им удалось решить задачу фолдинга белка, которая оставалась неразрешенной более 50 лет.
- Автор: DeepMind
- 1520 цитирований
- Ссылка на исследование
- 2. Colabfold: making protein folding accessible to all. Эффективная опенсорсная модель фолдинга белков
Саммари: Новый подход для предсказания 3D-структуры белков инструментом ColabFold на платформе Google Colab. Очень важная работа, поскольку задача фолдинга белков требует больших вычислительных мощностей, а с Colabfold становится доступной и демократизированной для всех.
- Авторы из нескольких организаций
- 1300 цитирований
- Ссылка на исследование
- 3. Hierarchical Text-Conditional Image Generation with CLIP Latents. Универсальный классификатор изображений
Саммари: Статья о методе генерации изображений, использующем совместное пространство векторных представлений текста и изображений, полученных из модели CLIP.
- Авторы из OpenAI
- 890 цитирований
- Ссылка на исследование
- 4. A ConvNet for the 2020s. ConvNet — сверточная нейронная сеть
Саммари: Статья про подход к созданию сверточных нейронных сетей для анализа и классификации изображений. Авторы предлагают легкую архитектуру для таких сеток. Речь идет про два компонента — блоки построения признаков и адаптивное объединение.
- Автор: Meta & UC Berkeley
- 740 цитирований
- Ссылка на исследование
- 5. PaLM: Scaling Language Modeling with Pathways. Массивная языковая сетка от Google, новая инфраструктура MLOps и ее производительность
Саммари: Статья о методе обучения языковых моделей, который позволяет существенно снизить количество параметров и мощности, не уменьшая при этом точности. Речь в статье идет как раз про новую архитектуру языковой модели PAM (Pathaway Aggregated Language Model).
- Автор: Google
- 560 цитирований
- Ссылка на исследование
Фото на обложке: Shutterstock / Gorodenkoff
Иллюстрации предоставлены автором.
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter
Материалы по теме
- Пройти курс «Где взять деньги на бизнес»
- 1 Иррациональное поведение: причины, модели и примеры
- 2 11 невероятных материалов будущего
- 3 «Роскосмос» и NASA продлят соглашение о перекрестных полетах до 2027 года
- 4 Сидячая работа и её последствия для здоровья — что важно знать каждому офисному сотруднику
ВОЗМОЖНОСТИ
28 января 2025
03 февраля 2025
28 февраля 2025