ВЛИЯНИЕ МЕТОДОВ БОЛЬШИХ ДАННЫХ НА СОВРЕМЕННОЕ ОБЩЕСТВО

ОСИН АЛЕКСЕЙ АНАТОЛЬЕВИЧ

Доктор философских наук, индивидуальный предприниматель

Аннотация: 
В статье автором раскрыты основные аспекты влияния методов Больших данных на современное общество. А именно сделан акцент на рассмотрение применения этих методов, как в интернете, так и за его приделами.

С появления первого прототипа современного Интернета, кардинально

изменившего жизнь всего мирового социума и повлекший за собой переход от

индустриального общества к обществу информационному, прошло уже почти полвека. С

появлением Интернета постепенно менялись области его применения в деятельности

человека: сначала оборонная и космическая промышленность, затем производственный и

торговый сектор и наконец в 90-х годах ХХ века, когда многие люди получили

возможность подключаться к Всемирной сети, влияние распространилось на социальную

область.

Последние пять лет Интернет технологии активно развиваются в сфере обработки

Больших данных как серии подходов, инструментов и методов обработки

структурированных и неструктурированных данных огромных объёмов и значительного

многообразия для получения воспринимаемых человеком результатов, эффективных в

условиях непрерывного прироста.

Впервые термин "Большие данные (Big Data)" был введен Клиффордом Линчем и

появился в журнале Nature в сентябре 2008г. Изначально термин вводился в научной

среде, но уже с 2009г этот термин активно применяется в корпоративно-деловой прессе, а

к 2010г появляются первые программно-аппаратные продукты и решения, относящиеся

непосредственно к обработке больших массивов данных. В 2011г Gartner отмечает

Большие данные как второй тренд в информационно-технологической инфраструктуре

после виртуализации и как более существенный, чем энергосбережение u1080 и мониторинг.

Прогнозируется, что внедрение технологий больших данных окажет наибольшее влияние

на информационные технологии в производстве, торговле, здравоохранении,

государственном управлении, и др. С 2013г большие данные как академический предмет

начал изучаться в некоторых западных вузовских программах по дисциплине "наука о

данных". [1]

Ответ на вопрос о том откуда же появились большие данные и почему эта проблема

стала так остро последние пять лет лежит на поверхности. По оценкам социолога Мартина

Гильберта, объём накопленной человечеством информации в 2007г достигал 300 эксабайт

(эксабайт в миллиард раз больше гигабайта). За пять лет, которые миновали с тех пор,

этот показатель увеличился почти вчетверо до 1 200 эксабайт. Например компания Nanex

записывает и анализирует котировки — и делает это со скоростью биржевых роботов, за

сутки архив данных вырастает до нескольких петабайтов. Но это ничто по сравнению с

использованием повсеместно различных датчиков, начиная видеокамер на городских

улицах и заканчивая счётчиками Google Analytics, присутствующих почти на любой

странице в интернете. К тому же люди перестали удалять информацию, насколько бы

ничтожной она не была: Nanex никогда не уничтожит свои архивные данные, а Twitter не

удалит неактивные твиты 2006г, несмотря на то, что новые регистрируются со скоростью

около 4500 штук в секунду. И хотя большинство данных можно назвать информацией

только из-за занимаемого ими места на информационных носителях, методы Больших

данных позволяют из этого объема получить полезные выводы. [2]

Главное изменение отмеченное профессором управления и регулирования

интернета в Оксфордском университете Виктором Майер-Шенбергером и Кеннета Кукье

в том числе и для социологии, которое возможно после введение методов Больших

данных это отказ от выборок. Раньше выборки позволяли что-то узнать о целом, изучив

незначительную долю собранных данных. Теперь нет нужды ограничиваться частью,

когда можно u1074 взять всю информацию о чем-либо целиком. При отказе от выборок

появляется несколько интересных побочных эффектов:

 появляется возможность идентифицировать в данных более мелкие детали,

выявляя при составлении классификации подкатегории, которые в ином случае с большей

долей вероятности потерялись бы;

 появление избытка информации уменьшает потребность в точности. Так как

погрешности, из-за работы с выборками, перестают быть проблемой, можно обходиться

изначальными данными с относительно высоким уровнем "информационного мусора" и

получать допустимые результаты;

 корреляционные зависимости становятся важнее понимания причин

закономерности. Сегодня не ставятся задачи понимания закономерности, так как это не

требуется для того, чтобы их отыскать в собранных данных, и чтобы их использовать для

достижения целей. [3]

Вот несколько примеров применения методов и технологий Больших данных в

современном обществе:

В 2012 г газета New York Times описала, как американская сеть розничных

магазинов Target собирает и анализирует информацию о своих покупателях, для того

чтобы определить, какой покупатель ждёт ребёнка. Маркетологи компании Target

предположили, с наступлением беременности покупательские привычки изменяются.

Вопрос как определить, когда это происходит?

Компания Target хранит в своих центрах огромную базу данных, которая содержит

список покупателей, а также список их покупок (пополнение базы идет при оплате

кредитной картой, использовании скидочной карты и пр.). Аналитики компании Target

выделили из базы список покупательниц, о которых точно известно, когда у них родился

ребёнок, проанализировали чем отличаются покупки, сделанные до беременности, от

покупок во время неё. Оказалось, что в начале беременности (около трех месяцев) многие

покупают специальные пищевые добавки. Следующий признак: покупательницы

начинают приобретать мыло и вату без запаха в больших количествах, чем ранее. Если

несколько u1087 признаков совпадают, то очень велика вероятность того, что клиентка

беременна. А значит, ей можно направлять письма и sms с рекламой и дисконтными

купонами на товары для новорожденных детей.

Точность данного метода оказалась настолько высокой, что чуть не привела к

скандалу. Компания систематически стала получать жалобы от обескураженных

родителей, которые не понимали, почему магазин предлагает их несовершеннолетним

дочерям скидки на пелёнки и товары для грудничков. Оказалось, что алгоритм Target

замечал беременность быстрее родственников. [4]

Второй пример уже из банковского сектора это американская компания ZestCash,

занимающаяся предоставлением краткосрочных займов малообеспеченным гражданам с

плохой кредитной историей, которым отказали другие банки и финансовые организации.

Обычные кредиторы опасаются доверять деньги тем, кто не в состоянии подтвердить

свою платёжеспособность, но они не знают о своих потенциальных клиентах и пятидесяти

процентов того, что знает о них ZestCash, которые собирают данные о своих клиентах как

онлайн (из интернет-сервисов, социальных сетей и пр.) так и офлайн.

В отличие от конкурентов, оценивающих риск по технологиям прошлого,

руководствуясь дюжиной не сложных и очевидных признаков, в ZestCash принимают во

внимание все многообразие факторов, влияние многих из них на результат трудно

объяснить, но данные свидетельствуют, что оно есть. В ZenCash делают ставку на методы

и технологии Больших данных, которые позволяют увидеть в получаемой информации

закономерности, которые незаметны и даже непонятны для отдельного человека.

Например: если клиент, признается в том, что он вряд ли сумеет вернуть деньги в

назначенный срок, то в большинстве банков он попадёт в список неблагонадёжных

клиентов. В ZestCash аналитики обнаружили, что в действительности такое признание не

уменьшает, а увеличивает вероятность того, что кредит будет полностью погашен. [2]

На конференции EmTech 2013, которую в октябре 2013г провёл Массачусетский

технологический институт, в числе прочих обсуждалась тема "Больших данных". По

мнению некоторых выступающих, эта технология даёт слишком большие возможности

для злоупотребления ею. Первым об этом заговорил бывший директор Microsoft по

исследованиям и стратегии Крейг Манди. По его мнению, сбор информации о людях,

которым занимаются и корпорации, и государственные органы, уже давно вышел из-под

контроля. Он считает, что теперь стоит бороться не столько со сбором персональной

информации, сколько с использованием этой информации без разрешения.

Кейт Кроуфорд из Microsoft Research объяснила участникам EmTech чем именно

опасен сбор и анализ данных: компании всё чаще и чаще пытаются узнать о своих

клиентах побольше, по крупицам собирая информацию о них из общедоступных

источников — например, форумов, социальных сетях и других интернет сервисах. Чаще

всего, эти данные используются для того, чтобы точнее подбирать рекламу и

маркетинговые предложения, причем не только в контекстной рекламе Яндекса и Google

или персонализированных рекомендациях в Amazon. Этот же подход эксплуатируют и

компании, работающие в офлайне. Например, сеть супермаркетов Walmart разработала

систему, внимательно следящую за тем, что пишут в интернете её покупатели: система

Social Genome в реальном времени обрабатывает все опубликованные посты в социальных

сетях, к которым у нее есть доступ: Twitter, Facebook и др. После сбора данные

подвергаются семантическому анализу. Добытая информация помогает составлять

высокоточные рекомендации по своим продуктам и персонализировать почтовые

рекламные рассылки.

Кроуфорд утверждает, что страховые компании и банки тоже применяют методы

Больших данных для того, чтобы отсеивать нежелательных клиентов, извлекая

анонимизированные данные о покупателях Amazon и посетителях медицинского портала

WebMD, а потом сличают их с демографической информацией которая у них есть, чтобы

определить, кто есть кто. Это может привести, к тому, что женщина, которая разыскивала

в WebMD сведения о раке груди и покупала в Amazon книги на ту же тему, вряд ли сумеет

получить страховку или ссуду.

Подводя итоги влияния методов обработки Больших данных на современное

общество всё сводится к тому, что как и у любой другой ключевой технологии, есть две

стороны, так как это не панацея, а всего лишь новый инструмент, и хотя он достаточно

мощный, он все же не лишён недостатков и ограничений. Для человечества это

несомненный скачек вперед, и ещё один шаг к "промышленной революции данных",

которая меняет очень многое — начиная с науки и техники и заканчивая бизнесом и

образованием.

ЛИТЕРАТУРА

1. Мейер-Шонбергера В. Кукье К. 2013. Big Data: A Revolution That Will Transform How We Live, Work, and

Think.

http://nytimes.com/2012/02/19/magazine/shopping-habits.html?_r=2&pagewanted=all&

2. Парамонов О. 2013. Информационный взрыв: как данные меняют технику, бизнес, науку и всё остальное.

http://www.computerra.ru/78951/data/

3. Парамонов О. 2013. Опасная сторона «больших данных».

http://www.computerra.ru/85313/emtech-privacy-bigdata/

4. Черняк Л. 2011. Большие Данные — новая теория и практика. М.: Открытые системы,— № 10