Опубликовано первое исследование на базе текстов цифровой библиотеки Google

Расскажите друзьям

Новая база данных позволяет ученым исследовать культурные тенденции за несколько веков

Лингвисты, исследуя слова в миллионах книг за два века в растущей цифровой библиотеке Google, обнаружили новый способ отслеживать динамику известности, эффект от цензуры, распространение изобретений и взрывной рост новых терминов в англоязычном мире.

Новое исследование, опубликованное в журнале Science, показывает, как исследователи с помощью огромного корпуса цифровых текстов Google могут отслеживать культурные тенденции и изучать человеческую культуру за последние 200 лет.

Ученые из Гарвардского университета, Массачусетского технологического института, сотрудники Google и энциклопедии Британника представили в отчете о своем исследовании базы данных из двух миллиардов слов и фраз, содержащихся в 5,2 млн книг цифровой библиотеки Google. С помощью этого инструмента исследователи смогут прослеживать культурные тенденции на основе используемых авторами слов, имен и названий.

Это первый опыт применения массива цифровых книг Google в академических целях.

Анализируя компьютеризированные тексты, ученые могут обнаружить такие явления как растущая жесткость риторики в стране, готовящейся к войне - на примере более частого употребления слова "враг" (enemy). Кроме того, они могут проследить изменения вкусов в пище: так, любовь к колбасе, пик которой пришелся на 1940-е годы, согласно результатам исследования, после этого неуклонно снижается, тогда как упоминание слова "суши", начиная с 1980-х начало резко расти, что свидетельствует о росте популярности японской кухни.

Они также обнаружили снижение частоты употребления слова "Бог" в современную эпоху - по сравнению с пиком, достигнутым в 1840-х, частота употребления этого слова резко сократилась.

"Мы можем обнаружить определенные закономерности употребления слов в том, что касается места, времени и культурного контекста  в масштабе, который в миллион раз превышает то, что было возможно в прошлом, - говорит в интервью WSJ Марк Либерман, компьютерный лингвист из Университета Пенсильвании, в исследовании непосредственно не участвовавший. -  Везде, где применяются новые инструменты, можно обнаружить интересные закономерности".

Язык развивается

Цифровые тексты позволяют зарегистрировать структуру развития живого языка - с 1950 в английском языке появилось почти 500 тысяч новых слов, что отчасти отражает развитие научно-технического прогресса с его новыми терминами.

"Это  поразительно, - говорит известный культуролог Роберт Дарнтон, директор университетской библиотеки Гарварда, который не участвовал в проекте, и который выступал с критикой оцифровки книг для библиотеки Google. - Они создали то, что в корне изменит наше представление об истории и литературе".

С момента изобретения печати в мире было опубликовано около 129 млн книг. В 2004 году программисты начали делать их электронные копии, на данный момент собрав 15 млн книг, содержащих более двух триллионов слов на 400 языках мира.

"Мы осознали, что сидим на огромном сокровище в виде этих данных, - говорит менеджер проекта Google Books Йон Орвант. - Мы хотим, чтобы исследователи препарировали эти данные таким образом, чтобы начать задавать вопросы, которые раньше не возникали".

Проект цифровой библиотеки подвергался нападкам в связи с возможными нарушениями авторских прав, а также в связи с потенциальной угрозой возникновения информационной монополии. Чтобы избежать обвинений в нарушении авторского права, ученые публикуют обширный каталог частоты употреблений слов и фраз, а не голые тексты. Google Labs разместила эти данные на сайте.

В настоящее время в этих сводах данных есть книги на китайском, английском, французском, немецком, русском и испанском языках за период с 1500 года - это примерно 4% от всех опубликованных книг. В базу данных не вошли периодические издания, которые могли бы отражать популярную культуру с другой точки зрения.

Подсчитав, с какой частотой в цифровых текстах Google появляются знаменитости, ученые Гарварда пришли к выводу, что в наше время люди приобретают массовую популярность в более юном возрасте, чем в предыдущие периоды, и достигают небывалых пиков известности. "Оборотная сторона медали - это то, что и забывают о вас быстрее", - говорит ведущий гарвардский исследователь Дж. Б. Майкл.

О знаменитостях

Изучая частоту употребления известных имен, Майкл с коллегами обнаружили, что президент США Джимми Картер всплыл из безвестности в 1974 году, когда начал свою избирательную кампанию, и опередил Микки Мауса, Мерилин Монро и астронавта Нила Армстронга по частоте упоминания. Однако, покинув президентское кресло, Картер начал быстро терять популярность, тогда как персонаж мультфильма, кинозвезда и астронавт напротив, продолжили набирать популярность.

В текстах можно также проследить логику цензуры, отражающую политические процессы. Так, в немецкой литературе периода нацизма - с 1936 по 1944 год - практически исчезли упоминания известного художника еврейской национальности Марка Шагала. В английской литературе того же периода его имя употребляется довольно часто.

Другие ученые изучают эмоциональные и социальные изменения в мире на основе анализа концепций. "Эмпатия" выросла с 1940-х годов, - говорит специалист Гарварда по когнитивной лингвистике Стивен Пинкер - А такие понятия как "сила воли", "самоконтроль" и "благоразумие" стали менее употребляемыми".
Нашли опечатку? Выделите текст и нажмите Ctrl + Enter


Комментарии

  • Игорь Андреев 15:24, 17.12.2010
    0
    еще немного и начнется исследование массового воровства в экономике РФ за последние 20 лет.
Зарегистрируйтесь, чтобы оставлять комментарии и получить доступ к Pipeline — социальной сети, соединяющей стартапы и инвесторов.
#EdCrunch
1 октября 2018
Ещё события


Telegram канал @rusbase