С появления первого прототипа современного Интернета, кардинально
изменившего жизнь всего мирового социума и повлекший за собой переход от
индустриального общества к обществу информационному, прошло уже почти полвека. С
появлением Интернета постепенно менялись области его применения в деятельности
человека: сначала оборонная и космическая промышленность, затем производственный и
торговый сектор и наконец в 90-х годах ХХ века, когда многие люди получили
возможность подключаться к Всемирной сети, влияние распространилось на социальную
область.
Последние пять лет Интернет технологии активно развиваются в сфере обработки
Больших данных как серии подходов, инструментов и методов обработки
структурированных и неструктурированных данных огромных объёмов и значительного
многообразия для получения воспринимаемых человеком результатов, эффективных в
условиях непрерывного прироста.
Впервые термин "Большие данные (Big Data)" был введен Клиффордом Линчем и
появился в журнале Nature в сентябре 2008г. Изначально термин вводился в научной
среде, но уже с 2009г этот термин активно применяется в корпоративно-деловой прессе, а
к 2010г появляются первые программно-аппаратные продукты и решения, относящиеся
непосредственно к обработке больших массивов данных. В 2011г Gartner отмечает
Большие данные как второй тренд в информационно-технологической инфраструктуре
после виртуализации и как более существенный, чем энергосбережение u1080 и мониторинг.
Прогнозируется, что внедрение технологий больших данных окажет наибольшее влияние
на информационные технологии в производстве, торговле, здравоохранении,
государственном управлении, и др. С 2013г большие данные как академический предмет
начал изучаться в некоторых западных вузовских программах по дисциплине "наука о
данных". [1]
Ответ на вопрос о том откуда же появились большие данные и почему эта проблема
стала так остро последние пять лет лежит на поверхности. По оценкам социолога Мартина
Гильберта, объём накопленной человечеством информации в 2007г достигал 300 эксабайт
(эксабайт в миллиард раз больше гигабайта). За пять лет, которые миновали с тех пор,
этот показатель увеличился почти вчетверо до 1 200 эксабайт. Например компания Nanex
записывает и анализирует котировки — и делает это со скоростью биржевых роботов, за
сутки архив данных вырастает до нескольких петабайтов. Но это ничто по сравнению с
использованием повсеместно различных датчиков, начиная видеокамер на городских
улицах и заканчивая счётчиками Google Analytics, присутствующих почти на любой
странице в интернете. К тому же люди перестали удалять информацию, насколько бы
ничтожной она не была: Nanex никогда не уничтожит свои архивные данные, а Twitter не
удалит неактивные твиты 2006г, несмотря на то, что новые регистрируются со скоростью
около 4500 штук в секунду. И хотя большинство данных можно назвать информацией
только из-за занимаемого ими места на информационных носителях, методы Больших
данных позволяют из этого объема получить полезные выводы. [2]
Главное изменение отмеченное профессором управления и регулирования
интернета в Оксфордском университете Виктором Майер-Шенбергером и Кеннета Кукье
в том числе и для социологии, которое возможно после введение методов Больших
данных это отказ от выборок. Раньше выборки позволяли что-то узнать о целом, изучив
незначительную долю собранных данных. Теперь нет нужды ограничиваться частью,
когда можно u1074 взять всю информацию о чем-либо целиком. При отказе от выборок
появляется несколько интересных побочных эффектов:
появляется возможность идентифицировать в данных более мелкие детали,
выявляя при составлении классификации подкатегории, которые в ином случае с большей
долей вероятности потерялись бы;
появление избытка информации уменьшает потребность в точности. Так как
погрешности, из-за работы с выборками, перестают быть проблемой, можно обходиться
изначальными данными с относительно высоким уровнем "информационного мусора" и
получать допустимые результаты;
корреляционные зависимости становятся важнее понимания причин
закономерности. Сегодня не ставятся задачи понимания закономерности, так как это не
требуется для того, чтобы их отыскать в собранных данных, и чтобы их использовать для
достижения целей. [3]
Вот несколько примеров применения методов и технологий Больших данных в
современном обществе:
В 2012 г газета New York Times описала, как американская сеть розничных
магазинов Target собирает и анализирует информацию о своих покупателях, для того
чтобы определить, какой покупатель ждёт ребёнка. Маркетологи компании Target
предположили, с наступлением беременности покупательские привычки изменяются.
Вопрос как определить, когда это происходит?
Компания Target хранит в своих центрах огромную базу данных, которая содержит
список покупателей, а также список их покупок (пополнение базы идет при оплате
кредитной картой, использовании скидочной карты и пр.). Аналитики компании Target
выделили из базы список покупательниц, о которых точно известно, когда у них родился
ребёнок, проанализировали чем отличаются покупки, сделанные до беременности, от
покупок во время неё. Оказалось, что в начале беременности (около трех месяцев) многие
покупают специальные пищевые добавки. Следующий признак: покупательницы
начинают приобретать мыло и вату без запаха в больших количествах, чем ранее. Если
несколько u1087 признаков совпадают, то очень велика вероятность того, что клиентка
беременна. А значит, ей можно направлять письма и sms с рекламой и дисконтными
купонами на товары для новорожденных детей.
Точность данного метода оказалась настолько высокой, что чуть не привела к
скандалу. Компания систематически стала получать жалобы от обескураженных
родителей, которые не понимали, почему магазин предлагает их несовершеннолетним
дочерям скидки на пелёнки и товары для грудничков. Оказалось, что алгоритм Target
замечал беременность быстрее родственников. [4]
Второй пример уже из банковского сектора это американская компания ZestCash,
занимающаяся предоставлением краткосрочных займов малообеспеченным гражданам с
плохой кредитной историей, которым отказали другие банки и финансовые организации.
Обычные кредиторы опасаются доверять деньги тем, кто не в состоянии подтвердить
свою платёжеспособность, но они не знают о своих потенциальных клиентах и пятидесяти
процентов того, что знает о них ZestCash, которые собирают данные о своих клиентах как
онлайн (из интернет-сервисов, социальных сетей и пр.) так и офлайн.
В отличие от конкурентов, оценивающих риск по технологиям прошлого,
руководствуясь дюжиной не сложных и очевидных признаков, в ZestCash принимают во
внимание все многообразие факторов, влияние многих из них на результат трудно
объяснить, но данные свидетельствуют, что оно есть. В ZenCash делают ставку на методы
и технологии Больших данных, которые позволяют увидеть в получаемой информации
закономерности, которые незаметны и даже непонятны для отдельного человека.
Например: если клиент, признается в том, что он вряд ли сумеет вернуть деньги в
назначенный срок, то в большинстве банков он попадёт в список неблагонадёжных
клиентов. В ZestCash аналитики обнаружили, что в действительности такое признание не
уменьшает, а увеличивает вероятность того, что кредит будет полностью погашен. [2]
На конференции EmTech 2013, которую в октябре 2013г провёл Массачусетский
технологический институт, в числе прочих обсуждалась тема "Больших данных". По
мнению некоторых выступающих, эта технология даёт слишком большие возможности
для злоупотребления ею. Первым об этом заговорил бывший директор Microsoft по
исследованиям и стратегии Крейг Манди. По его мнению, сбор информации о людях,
которым занимаются и корпорации, и государственные органы, уже давно вышел из-под
контроля. Он считает, что теперь стоит бороться не столько со сбором персональной
информации, сколько с использованием этой информации без разрешения.
Кейт Кроуфорд из Microsoft Research объяснила участникам EmTech чем именно
опасен сбор и анализ данных: компании всё чаще и чаще пытаются узнать о своих
клиентах побольше, по крупицам собирая информацию о них из общедоступных
источников — например, форумов, социальных сетях и других интернет сервисах. Чаще
всего, эти данные используются для того, чтобы точнее подбирать рекламу и
маркетинговые предложения, причем не только в контекстной рекламе Яндекса и Google
или персонализированных рекомендациях в Amazon. Этот же подход эксплуатируют и
компании, работающие в офлайне. Например, сеть супермаркетов Walmart разработала
систему, внимательно следящую за тем, что пишут в интернете её покупатели: система
Social Genome в реальном времени обрабатывает все опубликованные посты в социальных
сетях, к которым у нее есть доступ: Twitter и др. После сбора данные
подвергаются семантическому анализу. Добытая информация помогает составлять
высокоточные рекомендации по своим продуктам и персонализировать почтовые
рекламные рассылки.
Кроуфорд утверждает, что страховые компании и банки тоже применяют методы
Больших данных для того, чтобы отсеивать нежелательных клиентов, извлекая
анонимизированные данные о покупателях Amazon и посетителях медицинского портала
WebMD, а потом сличают их с демографической информацией которая у них есть, чтобы
определить, кто есть кто. Это может привести, к тому, что женщина, которая разыскивала
в WebMD сведения о раке груди и покупала в Amazon книги на ту же тему, вряд ли сумеет
получить страховку или ссуду.
Подводя итоги влияния методов обработки Больших данных на современное
общество всё сводится к тому, что как и у любой другой ключевой технологии, есть две
стороны, так как это не панацея, а всего лишь новый инструмент, и хотя он достаточно
мощный, он все же не лишён недостатков и ограничений. Для человечества это
несомненный скачек вперед, и ещё один шаг к "промышленной революции данных",
которая меняет очень многое — начиная с науки и техники и заканчивая бизнесом и
образованием.
ЛИТЕРАТУРА
1. Мейер-Шонбергера В. Кукье К. 2013. Big Data: A Revolution That Will Transform How We Live, Work, and
Think.
http://nytimes.com/2012/02/19/magazine/shopping-habits.html?_r=2&pagewanted=all&
2. Парамонов О. 2013. Информационный взрыв: как данные меняют технику, бизнес, науку и всё остальное.
http://www.computerra.ru/78951/data/
3. Парамонов О. 2013. Опасная сторона «больших данных».
http://www.computerra.ru/85313/emtech-privacy-bigdata/
4. Черняк Л. 2011. Большие Данные — новая теория и практика. М.: Открытые системы,— № 10