Мы можем не просто выбрать два любых показателя на осях, но и посмотреть их развитие в динамике.

обзор

Оцените материал

Комментариев: 5

Вставить в блог

Наглядная жизнь

Алексей Ивановский · 23/11/2011

АЛЕКСЕЙ ИВАНОВСКИЙ о грядущей революции в информации

Перейти в фотогалерею материала › Всего фото: 7

Новые вопросы

В 2008 году в маленьком городке Занесвиль в американском штате Огайо местный адвокат совместил на одной карте города два массива данных — о домах, подключенных к воде, и о том, где живут чернокожие семьи, а где — белые. Полученный результат его несколько удивил — удивил он и местного судью. Судья выписал штраф в 11 миллионов долларов — в качестве компенсации ущерба черным семьям. Оказалось, что без видимых на то причин к воде были подключены почти исключительно белые.

Читать!

Это простой, но яркий пример того, как в современном мире большие массивы информации, если с ними правильно работать, способны высвечивать спрятанные закономерности и создавать новые смыслы. И дело тут не только и не столько в количестве статистической информации, а в новых методах ее обработки и визуализации.

Сбор информации, конечно, лучше всего начинать с самого себя. И это уже не новая идея. Еще в октябре 2009 года журнал Wired сделал темой номера то, как с помощью нехитрых гаджетов перевести свою жизнь в цифры — предлагалось измерить калории, сердцебиение, денежные траты, фазы сна, потребление кофеина и еще десяток показателей. Даже Apple запатентовала наушники, способные измерять сердцебиение, температуру и уровень кислорода в крови. Это крайне полезная информация для вашего врача — но не для вашего соседа.

Но грядет новая революция в информации — информация начинает наслаиваться. Стоит добавить к информации о вашем здоровье еще один уровень — ваше местоположение — и мы получим, например, ингалятор для астмы с gps-передатчиком, который выпустила компания Asthmapolis. Это означает, что теперь можно составить карту, на которой будет видно, в каких местах люди чаще всего испытывают приступы астмы. Такая карта — бесценный способ создавать новые и проверять старые гипотезы. Химическое производство рядом с домом увеличивает риск заболевания астмой? Стоит посмотреть на карту, и если рядом с заводом красных точек в процентном соотношение больше — то да, а если нет — то наша теория в корне неверна и причины болезни надо искать в чем-то другом. Именно фальсификация неверных гипотез и создание новых— одно из самых важных свойств нового подхода к данным. Он позволяет задавать новые вопросы.

История в оранжевом кружке

Первым массовым интернет-проектом, позволяющим вольно работать со статистикой и извлекать из нее новые смыслы, стал, как мне кажется, Gapminder.org — проект шведского профессора Ганса Рослинга (Hans Rosling). Это удивительная среда, позволяющая строить графики из любой доступной в открытых статистических источниках информации. Мы можем не просто выбрать два любых показателя на осях, но и посмотреть их развитие в динамике. Посмотрим на примере России.

По оси Х на этом графике — среднее количество детей в семье, а по Y — ожидаемая продолжительность жизни. Стоит нажать play — и вся история России отразится в мельтешении оранжевого кружка. Большие патриархальные семьи XIX века постепенно становятся чуть здоровее и чуть меньше — но наступает 1917 год, и продолжительность жизни падает почти на 20 лет. Как только все успокаивается, она должна была бы расти — но тут наступает время раскулачивания и сталинских репрессий, и, несмотря на успехи медицины, продолжительность жизни держится на низком уровне. Только динамика чуть налаживается — как начинается война, и продолжительность жизни опять не растет. Но стоит войне закончиться — и она взлетает за десять лет сразу к 65. При этом очевидно снижение рождаемости — от шести детей в семье в начале века до почти одного в конце. Даже такие трудновыразимые вещи как застой — и те отражаются на графике: посмотрите, как толчется кружок все семидесятые и восьмидесятые.

Если смотреть не Россию, а все страны, станет заметно, как все они тянутся в левый верхний угол графика, к маленьким семьям и большой продолжительности жизни.

Подобная статистика очень дробит нашу карту мира. Оказывается, что Африка — это крайне разнообразный континент, где есть и успешные богатые страны с низкой рождаемостью и смертностью (Намибия или Мадагаскар), и страны с большой рождаемостью и смертностью (например, Чад). Очевидно, что к ним нужны разные подходы: в первые уже могут вкладывать деньги инвесторы, а вторые еще остро нуждаются в гуманитарной помощи.

Это, пожалуй, центральная идея профессора Рослинга, как раз и занимавшегося долгое время проблемой голода в Африке. Понимание динамики и разнообразности процессов — путь к точечному, единственно верному подходу к решению глобальных проблем.

Gapminder — это прекрасная возможность увидеть в цифрах мировые события. Можно, например, построить графики, чтобы увидеть поколение бэби-бумеров в Америке, или гражданскую войну в Италии, или экономическое чудо Азиатских тигров, или китайскую политику снижения рождаемости — все эти процессы видны как на ладони.

Но это всего лишь крайне удачное описание порой не очень известных процессов. Мы же в поисках чего-то большего, а именно — новых смыслов.

Почему забыт Чайковский и популярна ли честь?

И тут нам на помощь приходят самые современные технологии. Начнем с привычного: Google оцифровал миллионы книг. А пара предприимчивых математиков построила сервис расчета частоты употребления слов.

Это ровно тот же поиск слов по документу, к которому мы привыкли. Только вместо пары страниц мы исследуем миллионы книг. И тут уже можно подметить трудноформализуемые зависимости.

Почему в Великую Отечественную войну вспомнили про Рахманинова — понятно: он активно помогал русским из США, — а вот почему забыли про Чайковского? С чем связан очевидный ренессанс Глинки в конце 1940-х и начале 1950-х — с эпохой борьбы с космополитизмом в СССР? Это не риторические вопросы — возможно, на них уже есть ответы. Прелесть подобных сервисов в том, что они позволяют такие вопросы задавать.

Развенчание культа личности Сталина? Пожалуйста — вот вам график. Падение Сталина нагляднее в сравнении с не теряющим популярности до начала девяностых Лениным.

И вот подобные графики уже могут быть инструментами для открытий: стоит проанализировать всех писателей по упоминаемости — и как только мы будем видеть подобное резкое падение, это почти наверняка следствие цензуры или репрессий. А если слишком сильный рост (как у Сталина в тридцатые) — это почти наверняка пропаганда.

Не нужно читать биографию Ахматовой или Пастернака, чтобы увидеть кризисные точки в их взаимоотношениях с властью: окажется, что для Ахматовой это, прежде всего, негласное постановление ЦК ВКП(б) 1925 года, запретившее ее публикации, а для Пастернака — вторая половина тридцатых, резко маргинализовавшая его статус в советской номенклатуре. Парадоксальным образом гибель Мандельштама оборачивается всплеском интереса к его судьбе, так же как история вокруг запрета «Доктора Живаго» визуализирована резко уходящей вверх кривой упоминаний.

Все культурные движения, связанные с языком, теперь можно визуализировать. Как изменилось понимание чести за два века? Как в 1820-х всем вдруг приглянулись слова «лапти» и «палати»? Все это видимо и осязаемо.

И тут мы подбираемся к самому сердцу нового переворота в информации — переводу огромных массивов количественной информации в удобные в работе инструменты. Двадцать лет назад немыслимо было пересчитать употребление слова «честь» в полумиллионе книг.

Нам кажется, что все забыли о чести — у нас есть возможность проверить эту гипотезу. Насколько эффективным было развенчание культа личности Сталина? Мы можем сказать точно: во сколько раз упала его упоминаемость.

90 тысяч часов семейной жизни

Новые виды работы с количественной информацией особенно хорошо видны на следующем примере: профессор MIT Деб Рой поставил в каждой комнате своего дома по специальной видеокамере и записал за три года 90 000 часов видео о жизни своей семьи и, что особенно важно, о жизни своего новорожденного сына.

MIT (Massachusetts Institute of Technology) — один из самых технически сильных вузов в мире, и там сделали невероятное: ученые расшифровали все эти девяносто тысяч часов — распознали речевым анализатором все слова, проследили узоры передвижений по комнатам и широту лексикона как ребенка, так и его родителей. Ученые увидели картину, которую никто еще так не наблюдал: картину становления языка у конкретно взятого ребенка. Можно посмотреть, как впервые — в одну из секунд за эти три года — были произнесены звуки, слова и словосочетания. А можно попробовать подметить какие-то закономерности.

Так, Рой с коллегами смогли посчитать скорость появления у ребенка новых слов. И обнаружили удивительные закономерности между речью ребенка и речью родителей. Оказалось, что речь родителей плавно упрощается перед тем, как ребенок начинает учить новое слово — и становится самой простой ровно в тот момент, когда он это новое слово выучивает. Потом речь родителей постепенно усложняется, пока ребенок не начинает учить еще одно слово — тогда речь снова упрощается, и цикл повторяется.

Какие бессознательные механизмы ответственны за это — зеркальные нейроны Рамачандрана? Мы смогли заметить явление и поставить вопрос — это уже половина успеха. Вместо видео с ускоренно распускающимся цветком мы теперь можем послушать, как возникает каждое слово — как ребенок медленно, но уверенно превращает невнятное «ga-ga» в отчетливое «water».

Самое удивительное, что в своей лаборатории Рой пошел дальше и применил похожий принцип к телевидению: проанализировал вещание каналов, а параллельно — социальные сети. Сумел посчитать отклики в социальных сетях на те или иные события. И посмотрел, как волны информации расходятся по интернету, — то есть напрямую увидел, как работает теория мемов. Как люди делятся информацией, как они ее обсуждают и какая информация круги какого размера может в этой среде оставить.

Масштаб зависит от нас

К чему все это ведет? К супер-дискретности в информации. Теперь регион можно разбить на страны и посмотреть на их динамику, а страны разбить на группы населения и дальше на семьи и дома — можно найти точечный подход к каждому из них. Медицинскую информацию можно собирать круглосуточно и повсеместно — а это прямая дорога к триумфу превентивной медицины. Культурные движение теперь можно увидеть на графиках, обнаруживая при этом ранее скрытые взаимосвязи. Становление человеческого языка, одну из самых удивительных вещей на земле, теперь можно анализировать с поразительной точностью. Можно задавать новые вопросы и искать на них ответы.

Читать!

В одной из новелл Борхеса речь шла про империю, где картографы достигли такого влияния, что начертили карту страны размером со страну — и пользы от этой карты не было никакой. Не придет ли к такой бесполезной модели бесконечная дискретизация информации? К счастью, ответ — нет. Современные методы позволяют нам менять масштаб карты, как нам заблагорассудится. И чем точнее будет карта — тем точнее мы сможем увидеть по ней пройденный путь и проложить дальнейший маршрут. Будь то распределение гуманитарной помощи по деревням Чада, политика в сфере здравоохранения или оптимальные стратегии детского развития.

Версия для печати

Вставить в блог

Комментарии Всего:5

Комментарии

Sergey Zyatkov· 2011-11-23 18:32:35

Спасибо! А можно ссылку на сервис подсчета слов?
Ivanovskii Alex· 2011-11-23 19:44:29

простите — добавили. сервис вот тут http://books.google.com/ngrams
PanJerzy· 2011-11-23 20:13:32

Спасибо! Очень полезная информация!

Читать все комментарии ›

Медиа / Новости

Все новости ›

Самое читаемое

Наглядная жизнь

АЛЕКСЕЙ ИВАНОВСКИЙ о грядущей революции в информации

Читать!

Читать!

КомментарииВсего:5

Комментарии Всего:5