Big Data — что такое системы больших данных? Развитие технологий Big Data

Вы же знаете эту известную шутку? Big Data — это как секс до 18:

  • все об этом думают;
  • все об этом говорят;
  • все думают, что их друзья это делают;
  • почти никто этого не делает;
  • тот, кто это делает, делает это плохо;
  • все думают, что в следующий раз лучше получится;
  • никто не принимает мер безопасности;
  • любому стыдно признаться в том, что он чего-то не знает;
  • если у кого-то что-то получается, от этого всегда много шума.

Но давайте начистоту, с любой шумихой рядом всегда будет идти обычное любопытство: что за сыр-бор и есть ли там что-то действительно важное? Если коротко — да, есть. Подробности — ниже. Мы отобрали для вас самые удивительные и интересные применения технологий Big Data. Это небольшое исследование рынка на понятных примерах сталкивает с простым фактом: будущее не наступает, не нужно «подождать еще n лет и волшебство станет реальностью». Нет, оно уже пришло, но все еще незаметно глазу и поэтому припекание сингулярности еще не обжигает известную точку рынка труда так сильно. Поехали.

1 Как применяются технологии Big Data там, где они зародились

Большие IT компании — то место, где зародилась наука о данных, поэтому их внутренняя кухня в этой области интереснее всего. Кампания Google, родина парадигмы Map Reduce, , единственной целью которого является обучение своих программистов технологиям машинного обучения. И в этом кроется их конкурентное преимущество: после получения новых знаний, сотрудники будут внедрять новые методы в тех проектах Google, где они постоянно работают. Представьте себе, насколько огромен список сфер, в которых кампания может совершить революцию. Один из примеров: нейронные сети используются .

Корпорация и внедряет машинное обучение во все свои продукты. Ее преимущество — наличие большой экосистемы, в которую входят все цифровые устройства, используемые в повседневной жизни. Это позволяет Apple достигать невозможного уровня: у кампании есть столько данных о пользователях, сколько нет ни у какой-либо другой. При этом, политика конфиденциальности очень строгая: корпорация всегда хвасталась тем, что не использует данных клиентов в рекламных целях. Соответственно, информация пользователей шифруется так, что юристы Apple или даже ФБР с ордером не смогут ее прочесть. По вы найдете большой обзор разработок Apple в сфере ИИ.

2 Большие Данные на 4 колесах

Современный автомобиль — накопитель информации: он аккумулирует все данные о водителе, окружающей среде, подключенных устройствах и о себе самом. Уже скоро одно транспортное средство, которое подключено к сети наподобие той, что , будет генерировать до 25 Гб данных за час.

Транспортная телематика используется автопроизводителями на протяжении многих лет, но сейчас лоббируется более сложный метод сбора данных, который в полной мере задействует Big Data. А это значит, что теперь технологии могут оповестить водителя о плохих дорожных условиях путем автоматической активации антиблокировочной тормозной и пробуксовочной системы.

Другие концерны, включая BMW, используют технологии Большиx Данных в сочетании со сведениями, собранными с тестируемых прототипов, встроенной в автомобили системой «памяти ошибок» и клиентскими жалобами, чтобы на ранней стадии производства определить слабые места модели. Теперь вместо ручной оценки данных, которая занимает месяцы, применяется современный алгоритм. Ошибки и затраты на их устранение уменьшаются, что позволяет ускорить рабочие процессы анализа информации в BMW.

Согласно экспертным оценкам, к 2019 году оборот рынка подключенных в единую сеть автомобили, достигнет $130 млрд. Это неудивительно, если учитывать темпы интеграции автопроизводителями технологий, которые являются неотъемлемой частью транспортного средства.

Использование Больших Данных помогает сделать машину более безопасной и функциональной. Так, компания Toyota путем встраивания информационных коммуникационных модулей (DCM) . Этот инструмент, использующийся для Больших Данных, обрабатывает и анализирует данные, собранные DCM, чтобы в дальнейшем извлекать из них пользу.

3 Применение Больших Данных в медицине


Реализация технологий Big Data в медицинской сфере позволяет врачам более тщательно изучить болезнь и выбрать эффективный курс лечения для конкретного случая. Благодаря анализу информации, медработникам становится легче предсказывать рецидивы и предпринимать превентивные меры. Как результат — более точная постановка диагноза и усовершенствованные методы лечения.

Новая методика позволила взглянуть на проблемы пациентов с другой стороны, что привело к открытию ранее неизвестных источников проблемы. Например, некоторые расы генетически более предрасположены к заболеваниям сердца, нежели представители других этнических групп. Теперь, когда пациент жалуется на определенное заболевание, врачи берут во внимание данные о представителях его расы, которые жаловались на такую же проблему. Сбор и анализ данных позволяет узнавать о больных намного больше: от предпочтений в еде и стиля жизни до генетической структуры ДНК и метаболитах клеток, тканей, органов. Так, Центр детской Геномной медицины в Канзас-Сити использует пациентов и анализа мутаций генетического кода, которые вызывают рак. Индивидуальный подход к каждому пациенту с учетом его ДНК поднимет эффективность лечения на качественно иной уровень.

С понимания того, как используются Большие Данные, вытекает первое и очень важное изменение в медицинской сфере. Когда пациент проходит курс лечения, больница или другое здравоохранительное учреждение может получить много значимой информации о человеке. Собранные сведения используются для прогнозирования рецидивов заболеваний с определенной степенью точности. Например, если пациент перенес инсульт, врачи изучают сведения о времени нарушения мозгового кровообращения, анализируют промежуточный период между предыдущими прецедентами (в случае возникновения таковых), обращая особое внимание на стрессовые ситуации и тяжелые физические нагрузки в жизни больного. На основании этих данных, больницы выдают пациенту четкий план действий, чтобы предотвратить возможность инсульта в будущем.

Свою роль играют и носимые устройства, которые помогают выявлять проблемы со здоровьем, даже если у человека нет явных симптомов той или иной болезни. Вместо того чтобы оценивать состояние пациента путем длительного курса обследований, врач может делать выводы на основании собранной фитнес-трекером или «умными» часами информации.

Один из последних примеров — . В то время как пациент проходил обследование из-за нового приступа судороги, вызванного пропущенным приемом лекарств, врачи обнаружили, что мужчина имеет куда более серьезную проблему со здоровьем. Этой проблемой оказалась фибрилляция предсердий. Диагноз удалось поставить благодаря тому, что сотрудники отделения получили доступ к телефону пациента, а именно к приложению, сопряженному с его фитнес-трекером. Данные с приложения оказались ключевым фактором в определении диагноза, ведь на момент обследования у мужчины никаких сердечных отклонений обнаружено не было.

Это лишь один из немногих случаев, который показывает, почему использование Больших Данных в медицинской сфере сегодня играет столь значимую роль.

4 Анализ данных уже стал стержнем розничной торговли

Понимание пользовательских запросов и таргетинг — одна из самых больших и максимально освещенных широкой публике областей применения инструментов Big Data. Большие Данные помогают анализировать клиентские привычки, чтобы в дальнейшем лучше понимать запросы потребителей. Компании стремятся расширить традиционный набор данных информацией из социальных сетей и историей поиска браузера с целью формирования максимально полной клиентской картины. Иногда крупные организации в качестве глобальной цели выбирают создание собственной предсказательной модели.

Например, сети магазинов Target с помощью глубинного анализа данных и собственной системы прогнозирования удается с высокой точностью определить — . За каждым клиентом закрепляется ID, который в свою очередь привязан к кредитке, имени или электронной почте. Идентификатор служит своеобразной корзиной покупок, где хранится информация обо всем, что когда-либо человек приобрел. Специалистами сети установлено, что женщины в положении активно приобретают неароматизированные средства перед вторым триместром беременности, а в течение первых 20 недель налегают на кальциевые, цинковые и магниевые добавки. На основании полученных данных Target отправляет купоны на детские товары клиентам. Сами же скидки на товары для детей «разбавляются» купонами на другие продукты, чтобы предложения купить кроватку или пеленки не выглядели слишком навязчивыми.

Даже правительственные ведомства нашли способ, как использовать технологии Big Data для оптимизации избирательных кампаний. Некоторые считают, что победа Б. Обамы на президентских выборах США в 2012 году обусловлена превосходной работой его команды аналитиков, которые обрабатывали огромные массивы данных в правильном ключе.

5 Большие Данные на страже закона и порядка


За последние несколько лет правоохранительным структурам удалось выяснить, как и когда использовать Большие Данные. Общеизвестным фактом является то, что Агентство национальной безопасности применяет технологии Больших Данных, чтобы предотвратить террористические акты. Другие ведомства задействуют прогрессивную методологию, чтобы предотвращать более мелкие преступления.

Департамент полиции Лос-Анджелеса применяет . Она занимается тем, что обычно называют проактивной охраной правопорядка. Используя отчеты о преступлениях за определенный период времени, алгоритм определяет районы, где вероятность совершения правонарушений является наибольшей. Система отмечает такие участки на карте города небольшими красными квадратами и эти данные тут же передаются в патрульные машины.

Копы Чикаго используют технологии Больших Данных немного другим образом. У блюстителей правопорядка из Города ветров также , но он направлен на очерчивание «круга риска», состоящего из людей, которые могут оказаться жертвой или участником вооруженного нападения. По информации газеты The New York Times, данный алгоритм присваивает человеку оценку уязвимости на основании его криминального прошлого (аресты и участие в перестрелках, принадлежность к преступным группировкам). Разработчик системы уверяет, что в то время как система изучает криминальное прошлое личности, она не учитывает второстепенных факторов вроде расы, пола, этнической принадлежности и месторасположения человека.

6 Как технологии Big Data помогают развиваться городам


Генеральный директор Veniam Жоао Баррос демонстрирует карту отслеживания Wi-Fi-роутеров в автобусах города Порту

Анализ данных также применяется для улучшения ряда аспектов жизнедеятельности городов и стран. Например, зная точно, как и когда использовать технологии Big Data, можно оптимизировать потоки транспорта. Для этого берется в расчет передвижение автомобилей в режиме онлайн, анализируются социальные медиа и метеорологические данные. Сегодня ряд городов взял курс на использование анализа данных с целью объединения транспортной инфраструктуры с другими видами коммунальных услуг в единое целое. Это концепция «умного» города, в котором автобусы ждут опаздывающий поезд, а светофоры способны прогнозировать загруженность на дорогах, чтобы минимизировать пробки.

На основе технологий Больших Данных в городе Лонг-Бич работают «умные» счетчики воды, которые используются для пресечения незаконного полива. Ранее они применялись с целью сокращения потребления воды частными домовладениями (максимальный результат — сокращение на 80%). Экономия пресной воды — вопрос актуальный всегда. Особенно, когда государство переживает самую сильную засуху, которая когда-либо была зафиксирована.

К перечню тех, кто использует Big Data, присоединились представители Департамента транспорта города Лос-Анджелеса. На основании данных, полученных от датчиков дорожных камер, власти производят контроль работы светофоров , что в свою очередь позволяет регулировать траффик. Под управлением компьютеризованной системы находится порядка 4 500 тысяч светофоров по всему городу. Согласно официальным данным, новый алгоритм помог уменьшить заторы на 16%.

7 Двигатель прогресса в сфере маркетинга и продаж


В маркетинге инструменты Big Data позволяют выявить, продвижение каких идей на том или ином этапе цикла продаж является наиболее эффективным. С помощью анализа данных определяется, как инвестиции способны улучшить систему управления взаимоотношениями с клиентами, какую стратегию следует выбрать для повышения коэффициента конверсии и как оптимизировать жизненный цикл клиента. В бизнесе, связанном с облачными технологиями, алгоритмы Больших Данных применяют для выяснения того, как минимизировать цену привлечения клиента и увеличить его жизненный цикл.

Дифференциация стратегий ценообразования в зависимости от внутрисистемного уровня клиента — это, пожалуй, главное, для чего Big Data используется в сфере маркетинга. Компания McKinsey выяснила , что около 75% доходов среднестатистической фирмы составляют базовые продукты, на 30% из которых устанавливаются некорректные цены. Увеличение цены на 1% приводит к росту операционной прибыли на 8,7%.

Исследовательской группе Forrester удалось определить , что анализ данных позволяет маркетологам сосредоточиться на том, как сделать отношения с клиентами более успешными. Исследуя направление развития клиентов, специалисты могут оценить уровень их лояльности, а также продлить жизненный цикл в контексте конкретной компании.

Оптимизация стратегий продаж и этапы выхода на новые рынки с использованием геоаналитики находят отображение в биофармацевтической промышленности. Согласно McKinsey , компании, занимающиеся производством медикаментов, тратят в среднем от 20 до 30% прибыли на администрирование и продажи. Если предприятия начнут активнее использовать Большие Данные , чтобы определить наиболее рентабельные и быстро растущие рынки, расходы будут немедленно сокращены.

Анализ данных — средство получения компаниями полного представления относительно ключевых аспектов их бизнеса. Увеличение доходов, снижение затрат и сокращение оборотного капитала являются теми тремя задачами, которые современный бизнес пытается решить с помощью аналитических инструментов.

Наконец, 58% директоров по маркетингу уверяют , что реализация технологий Big Data прослеживается в поисковой оптимизации (SEO), e-mail- и мобильном маркетинге, где анализ данных отыгрывает наиболее значимую роль в формировании маркетинговых программ. И лишь на 4% меньше респондентов уверены, что Большие Данные будут играть значимую роль во всех маркетинговых стратегиях на протяжении долгих лет.

8 Анализ данных в масштабах планеты

Не менее любопытно то, . Возможно, что именно машинное обучение в конечном счете будет единственной силой, способной поддерживать хрупкое равновесие. Тема влияния человека на глобальное потепление до сих пор вызывает много споров, поэтому только достоверные предсказательные модели на основе анализа большого объема данных могут дать точный ответ. В конечном счете, снижение выбросов поможет и нам всем: мы будем меньше тратиться на энергию.

Сейчас Big Data — это не абстрактное понятие, которое, может быть, найдет свое применение через пару лет. Это вполне рабочий набор технологий, способный принести пользу практически во всех сферах человеческой деятельности: от медицины и охраны общественного порядка до маркетинга и продаж. Этап активной интеграции Больших Данных в нашу повседневную жизнь только начался, и кто знает, какова будет роль Big Data уже через несколько лет?

Предсказывалось, что общий мировой объем созданных и реплицированных данных в 2011-м может составить около 1,8 зеттабайта (1,8 трлн. гигабайт) - примерно в 9 раз больше того, что было создано в 2006-м.

Более сложное определение

Тем не менее `большие данные ` предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что бóльшая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, - это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Всё это хранится во множестве разнообразных хранилищ, иногда даже за пределами организации. В результате корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Добавьте сюда то обстоятельство, что данные сейчас обновляются все чаще и чаще, и вы получите ситуацию, в которой традиционные методы анализа информации не могут угнаться за огромными объемами постоянно обновляемых данных, что в итоге и открывает дорогу технологиям больших данных .

Наилучшее определение

В сущности понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Консалтинговая компания Forrester дает краткую формулировку: `Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности`.

Насколько велика разница между бизнес-аналитикой и большими данными?

Крейг Бати, исполнительный директор по маркетингу и директор по технологиям Fujitsu Australia, указывал, что бизнес-анализ является описательным процессом анализа результатов, достигнутых бизнесом в определенный период времени, между тем как скорость обработки больших данных позволяет сделать анализ предсказательным, способным предлагать бизнесу рекомендации на будущее. Технологии больших данных позволяют также анализировать больше типов данных в сравнении с инструментами бизнес-аналитики, что дает возможность фокусироваться не только на структурированных хранилищах.

Мэтт Слокум из O"Reilly Radar считает, что хотя большие данные и бизнес-аналитика имеют одинаковую цель (поиск ответов на вопрос), они отличаются друг от друга по трем аспектам.

  • Большие данные предназначены для обработки более значительных объемов информации, чем бизнес-аналитика, и это, конечно, соответствует традиционному определению больших данных.
  • Большие данные предназначены для обработки более быстро получаемых и меняющихся сведений, что означает глубокое исследование и интерактивность. В некоторых случаях результаты формируются быстрее, чем загружается веб-страница.
  • Большие данные предназначены для обработки неструктурированных данных, способы использования которых мы только начинаем изучать после того, как смогли наладить их сбор и хранение, и нам требуются алгоритмы и возможность диалога для облегчения поиска тенденций, содержащихся внутри этих массивов.

Согласно опубликованной компанией Oracle белой книге `Информационная архитектура Oracle: руководство архитектора по большим данным` (Oracle Information Architecture: An Architect"s Guide to Big Data), при работе с большими данными мы подходим к информации иначе, чем при проведении бизнес-анализа.

Работа с большими данными не похожа на обычный процесс бизнес-аналитики, где простое сложение известных значений приносит результат: например, итог сложения данных об оплаченных счетах становится объемом продаж за год. При работе с большими данными результат получается в процессе их очистки путём последовательного моделирования: сначала выдвигается гипотеза, строится статистическая, визуальная или семантическая модель, на ее основании проверяется верность выдвинутой гипотезы и затем выдвигается следующая. Этот процесс требует от исследователя либо интерпретации визуальных значений или составления интерактивных запросов на основе знаний, либо разработки адаптивных алгоритмов `машинного обучения `, способных получить искомый результат. Причём время жизни такого алгоритма может быть довольно коротким.

Методики анализа больших данных

Существует множество разнообразных методик анализа массивов данных, в основе которых лежит инструментарий, заимствованный из статистики и информатики (например, машинное обучение). Список не претендует на полноту, однако в нем отражены наиболее востребованные в различных отраслях подходы. При этом следует понимать, что исследователи продолжают работать над созданием новых методик и совершенствованием существующих. Кроме того, некоторые из перечисленных них методик вовсе не обязательно применимы исключительно к большим данным и могут с успехом использоваться для меньших по объему массивов (например, A/B-тестирование, регрессионный анализ). Безусловно, чем более объемный и диверсифицируемый массив подвергается анализу, тем более точные и релевантные данные удается получить на выходе.

A/B testing . Методика, в которой контрольная выборка поочередно сравнивается с другими. Тем самым удается выявить оптимальную комбинацию показателей для достижения, например, наилучшей ответной реакции потребителей на маркетинговое предложение. Большие данные позволяют провести огромное количество итераций и таким образом получить статистически достоверный результат.

Association rule learning . Набор методик для выявления взаимосвязей, т.е. ассоциативных правил, между переменными величинами в больших массивах данных. Используется в data mining .

Classification . Набор методик, которые позволяет предсказать поведение потребителей в определенном сегменте рынка (принятие решений о покупке, отток, объем потребления и проч.). Используется в data mining .

Cluster analysis . Статистический метод классификации объектов по группам за счет выявления наперед не известных общих признаков. Используется в data mining .

Crowdsourcing . Методика сбора данных из большого количества источников.

Data fusion and data integration . Набор методик, который позволяет анализировать комментарии пользователей социальных сетей и сопоставлять с результатами продаж в режиме реального времени.

Data mining . Набор методик, который позволяет определить наиболее восприимчивые для продвигаемого продукта или услуги категории потребителей, выявить особенности наиболее успешных работников, предсказать поведенческую модель потребителей.

Ensemble learning . В этом методе задействуется множество предикативных моделей за счет чего повышается качество сделанных прогнозов.

Genetic algorithms . В этой методике возможные решения представляют в виде `хромосом`, которые могут комбинироваться и мутировать. Как и в процессе естественной эволюции, выживает наиболее приспособленная особь.

Machine learning . Направление в информатике (исторически за ним закрепилось название `искусственный интеллект`), которое преследует цель создания алгоритмов самообучения на основе анализа эмпирических данных.

Natural language processing (NLP ). Набор заимствованных из информатики и лингвистики методик распознавания естественного языка человека.

Network analysis . Набор методик анализа связей между узлами в сетях. Применительно к социальным сетям позволяет анализировать взаимосвязи между отдельными пользователями, компаниями, сообществами и т.п.

Optimization . Набор численных методов для редизайна сложных систем и процессов для улучшения одного или нескольких показателей. Помогает в принятии стратегических решений, например, состава выводимой на рынок продуктовой линейки, проведении инвестиционного анализа и проч.

Pattern recognition . Набор методик с элементами самообучения для предсказания поведенческой модели потребителей.

Predictive modeling . Набор методик, которые позволяют создать математическую модель наперед заданного вероятного сценария развития событий. Например, анализ базы данных CRM -системы на предмет возможных условий, которые подтолкнут абоненты сменить провайдера.

Regression . Набор статистических методов для выявления закономерности между изменением зависимой переменной и одной или несколькими независимыми. Часто применяется для прогнозирования и предсказаний. Используется в data mining.

Sentiment analysis . В основе методик оценки настроений потребителей лежат технологии распознавания естественного языка человека. Они позволяют вычленить из общего информационного потока сообщения, связанные с интересующим предметом (например, потребительским продуктом). Далее оценить полярность суждения (позитивное или негативное), степень эмоциональности и проч.

Signal processing . Заимствованный из радиотехники набор методик, который преследует цель распознавания сигнала на фоне шума и его дальнейшего анализа.

Spatial analysis . Набор отчасти заимствованных из статистики методик анализа пространственных данных – топологии местности, географических координат, геометрии объектов. Источником больших данных в этом случае часто выступают геоинформационные системы (ГИС).

Statistics . Наука о сборе, организации и интерпретации данных, включая разработку опросников и проведение экспериментов. Статистические методы часто применяются для оценочных суждений о взаимосвязях между теми или иными событиями.

Supervised learning . Набор основанных на технологиях машинного обучения методик, которые позволяют выявить функциональные взаимосвязи в анализируемых массивах данных.

Simulation . Моделирование поведения сложных систем часто используется для прогнозирования, предсказания и проработки различных сценариев при планировании.

Time series analysis . Набор заимствованных из статистики и цифровой обработки сигналов методов анализа повторяющихся с течением времени последовательностей данных. Одни из очевидных применений – отслеживание рынка ценных бумаг или заболеваемости пациентов.

Unsupervised learning . Набор основанных на технологиях машинного обучения методик, которые позволяют выявить скрытые функциональные взаимосвязи в анализируемых массивах данных. Имеет общие черты с Cluster Analysis .

Визуализация . Методы графического представления результатов анализа больших данных в виде диаграмм или анимированных изображений для упрощения интерпретации облегчения понимания полученных результатов.


Наглядное представление результатов анализа больших данных имеет принципиальное значение для их интерпретации. Не секрет, что восприятие человека ограничено, и ученые продолжают вести исследования в области совершенствования современных методов представления данных в виде изображений, диаграмм или анимаций.

Аналитический инструментарий

На 2011 год некоторые из перечисленных в предыдущем подразделе подходов или определенную их совокупность позволяют реализовать на практике аналитические движки для работы с большими данными. Из свободных или относительно недорогих открытых систем анализа Big Data можно порекомендовать:

  • Revolution Analytics (на базе языка R для мат.статистики).

Особый интерес в этом списке представляет Apache Hadoop – ПО с открытым кодом, которое за последние пять лет испытано в качестве анализатора данных большинством трекеров акций . Как только Yahoo открыла код Hadoop сообществу с открытым кодом, в ИТ-индустрии незамедлительно появилось целое направление по созданию продуктов на базе Hadoop. Практически все современные средства анализа больших данных предоставляют средства интеграции с Hadoop. Их разработчиками выступают как стартапы, так и общеизвестные мировые компании.

Рынки решений для управления большими данными

Платформы больших данных (BDP, Big Data Platform) как средство борьбы с цифровым хордингом

Возможность анализировать большие данные , в просторечии называемая Big Data, воспринимается как благо, причем однозначно. Но так ли это на самом деле? К чему может привести безудержное накопление данных? Скорее всего к тому, что отечественные психологи применительно к человеку называют патологическим накопительством, силлогоманией или образно "синдромом Плюшкина". По-английски порочная страсть собирать все подряд называют хордингом (от англ. hoard – «запас»). По классификации ментальных заболеваний хординг причислен к психическим расстройствам. В цифровую эпоху к традиционному вещественному хордингу добавляется цифровой (Digital Hoarding), им могут страдать как отдельные личности, так и целые предприятия и организации ().

Мировой и рынок России

Big data Landscape - Основные поставщики

Интерес к инструментам сбора, обработки, управления и анализа больших данных проявляли едва ли не все ведущие ИТ-компании, что вполне закономерно. Во-первых, они непосредственно сталкиваются с этим феноменом в собственном бизнесе, во-вторых, большие данные открывают отличные возможности для освоения новых ниш рынка и привлечения новых заказчиков.

На рынке появлялось множество стартапов, которые делают бизнес на обработке огромных массивов данных. Часть из них используют готовую облачную инфраструктуру, предоставляемую крупными игроками вроде Amazon.

Теория и практика Больших данных в отраслях

История развития

2017

Прогноз TmaxSoft: следующая «волна» Big Data потребует модернизации СУБД

Предприятиям известно, что в накопленных ими огромных объемах данных содержится важная информация об их бизнесе и клиентах. Если компания сможет успешно применить эту информацию, то у нее будет значительное преимущество по сравнению с конкурентами, и она сможет предложить лучшие, чем у них, продукты и сервисы. Однако многие организации всё еще не могут эффективно использовать большие данные из-за того, что их унаследованная ИТ-инфраструктура неспособна обеспечить необходимую емкость систем хранения, процессы обмена данных, утилиты и приложения, необходимые для обработки и анализа больших массивов неструктурированных данных для извлечения из них ценной информации, указали в TmaxSoft.

Кроме того, увеличение процессорной мощности, необходимой для анализа постоянно увеличивающихся объемов данных, может потребовать значительных инвестиций в устаревшую ИТ-инфраструктуру организации, а также дополнительных ресурсов для сопровождения, которые можно было бы использовать для разработки новых приложений и сервисов.

5 февраля 2015 года Белый дом опубликовал доклад , в котором обсуждался вопрос о том, как компании используют «большие данные » для установления различных цен для разных покупателей - практика, известная как «ценовая дискриминация» или «дифференцированное ценообразование» (personalized pricing). Отчет описывает пользу «больших данных» как для продавцов, так и покупателей, и его авторы приходят к выводу о том, что многие проблемные вопросы, возникшие в связи с появлением больших данных и дифференцированного ценообразования, могут быть решены в рамках существующего антидискриминационного законодательства и законов, защищающих права потребителей.

В докладе отмечается, что в это время имеются лишь отдельные факты, свидетельствующие о том, как компании используют большие данные в контексте индивидуализированного маркетинга и дифференцированного ценообразования. Этот сведения показывают, что продавцы используют методы ценообразования, которые можно разделить на три категории:

  • изучение кривой спроса;
  • Наведение (steering) и дифференцированное ценообразование на основе демографических данных; и
  • целевой поведенческий маркетинг (поведенческий таргетинг - behavioral targeting) и индивидуализированное ценообразование.

Изучение кривой спроса : С целью выяснения спроса и изучения поведения потребителей маркетологи часто проводят эксперименты в этой области, в ходе которых клиентам случайным образом назначается одна из двух возможных ценовых категорий. «Технически эти эксперименты являются формой дифференцированного ценообразования, поскольку их следствием становятся разные цены для клиентов, даже если они являются «недискриминационными» в том смысле, что у всех клиенты вероятность «попасть» на более высокую цену одинакова».

Наведение (steering) : Это практика представления продуктов потребителям на основе их принадлежности к определенной демографической группе. Так, веб-сайт компьютерной компании может предлагать один и тот же ноутбук различным типам покупателей по разным ценам, уставленным на основе сообщённой ими о себе информации (например, в зависимости от того, является ли данный пользователь представителем государственных органов, научных или коммерческих учреждений, или же частным лицом) или от их географического расположения (например, определенного по IP-адресу компьютера).

Целевой поведенческий маркетинг и индивидуализированное ценообразование : В этих случаях персональные данные покупателей используются для целевой рекламы и индивидуализированного назначения цен на определенные продукты. Например, онлайн-рекламодатели используют собранные рекламными сетями и через куки третьих сторон данные об активности пользователей в интернете для того, чтобы нацелено рассылать свои рекламные материалы. Такой подход, с одной стороны, дает возможность потребителям получить рекламу представляющих для них интерес товаров и услуг, Он, однако, может вызвать озабоченность тех потребителей, которые не хотят, чтобы определенные виды их персональных данных (такие, как сведения о посещении сайтов, связанных с медицинскими и финансовыми вопросами) собирались без их согласия.

Хотя целевой поведенческий маркетинг широко распространен, имеется относительно мало свидетельств индивидуализированного ценообразования в онлайн-среде. В отчете высказывается предположение, что это может быть связано с тем, что соответствующие методы все ещё разрабатываются, или же с тем, что компании не спешат использовать индивидуальное ценообразование (либо предпочитают о нём помалкивать) - возможно, опасаясь негативной реакции со стороны потребителей.

Авторы отчета полагают, что «для индивидуального потребителя использование больших данных, несомненно, связано как с потенциальной отдачей, так и с рисками». Признавая, что при использовании больших данных появляются проблемы прозрачности и дискриминации, отчет в то же время утверждает, что существующих антидискриминационных законов и законов по защиты прав потребителей достаточно для их решения. Однако в отчете также подчеркивается необходимость «постоянного контроля» в тех случаях, когда компании используют конфиденциальную информацию непрозрачным образом либо способами, которые не охватываются существующей нормативно-правовой базой.

Данный доклад является продолжением усилий Белого дома по изучению применения «больших данных» и дискриминационного ценообразования в Интернете, и соответствующих последствий для американских потребителей. Ранее уже сообщалось о том, что рабочая группа Белого дома по большим данным опубликовала в мае 2014 года свой доклад по этому вопросу. Федеральная комиссия по торговле (FTC) также рассматривала эти вопросы в ходе проведенного ею в сентября 2014 года семинара по дискриминации в связи с использованием больших данных .

2014

Gartner развеивает мифы о "Больших данных"

В аналитической записке осени 2014 года Gartner перечислен ряд распространенных среди ИТ-руководителей мифов относительно Больших Данных и приводятся их опровержения.

  • Все внедряют системы обработки Больших Данных быстрее нас

Интерес к технологиям Больших Данных рекордно высок: в 73% организаций, опрошенных аналитиками Gartner в этом году, уже инвестируют в соответствующие проекты или собираются. Но большинство таких инициатив пока еще на самых ранних стадиях, и только 13% опрошенных уже внедрили подобные решения. Сложнее всего - определить, как извлекать доход из Больших Данных, решить, с чего начать. Во многих организациях застревают на пилотной стадии, поскольку не могут привязать новую технологию к конкретным бизнес-процессам.

  • У нас так много данных, что нет нужды беспокоиться о мелких ошибках в них

Некоторые ИТ-руководители считают, что мелкие огрехи в данных не влияют на общие результаты анализа огромных объемов. Когда данных много, каждая ошибка в отдельности действительно меньше влияет на результат, отмечают аналитики, но и самих ошибок становится больше. Кроме того, большая часть анализируемых данных - внешние, неизвестной структуры или происхождения, поэтому вероятность ошибок растет. Таким образом, в мире Больших Данных качество на самом деле гораздо важнее.

  • Технологии Больших Данных отменят нужду в интеграции данных

Большие Данные обещают возможность обработки данных в оригинальном формате с автоматическим формированием схемы по мере считывания. Считается, что это позволит анализировать информацию из одних и тех же источников с помощью нескольких моделей данных. Многие полагают, что это также даст возможность конечным пользователям самим интерпретировать любой набор данных по своему усмотрению. В реальности большинству пользователей часто нужен традиционный способ с готовой схемой, когда данные форматируются соответствующим образом, и имеются соглашения об уровне целостности информации и о том, как она должна соотноситься со сценарием использования.

  • Хранилища данных нет смысла использовать для сложной аналитики

Многие администраторы систем управления информацией считают, что нет смысла тратить время на создание хранилища данных, принимая во внимание, что сложные аналитические системы пользуются новыми типами данных. На самом деле во многих системах сложной аналитики используется информация из хранилища данных. В других случаях новые типы данных нужно дополнительно готовить к анализу в системах обработки Больших Данных; приходится принимать решения о пригодности данных, принципах агрегации и необходимом уровне качества - такая подготовка может происходить вне хранилища.

  • На смену хранилищам данных придут озера данных

В реальности поставщики вводят заказчиков в заблуждение, позиционируя озера данных (data lake) как замену хранилищам или как критически важные элементы аналитической инфраструктуры. Основополагающим технологиям озер данных не хватает зрелости и широты функциональности, присущей хранилищам. Поэтому руководителям, отвечающим за управление данными, стоит подождать, пока озера достигнут того же уровня развития, считают в Gartner.

Accenture: 92% внедривших системы больших данных, довольны результатом

Среди главных преимуществ больших данных опрошенные назвали:

  • «поиск новых источников дохода» (56%),
  • «улучшение опыта клиентов» (51%),
  • «новые продукты и услуги» (50%) и
  • «приток новых клиентов и сохранение лояльности старых» (47%).

При внедрении новых технологий многие компании столкнулись с традиционными проблемами. Для 51% камнем преткновения стала безопасность, для 47% - бюджет, для 41% - нехватка необходимых кадров, а для 35% - сложности при интеграции с существующей системой. Практически все опрошенные компании (около 91%) планируют в скором времени решать проблему с нехваткой кадров и нанимать специалистов по большим данным.

Компании оптимистично оценивают будущее технологий больших данных. 89% считают, что они изменят бизнес столь же сильно, как и интернет. 79% респондентов отметили, что компании, которые не занимаются большими данными, потеряют конкурентное преимущество.

Впрочем, опрошенные разошлись во мнении о том, что именно стоит считать большими данными. 65% респондентов считают, что это «большие картотеки данных», 60% уверены, что это «продвинутая аналитика и анализ», а 50% - что это «данные инструментов визуализации».

Мадрид тратит 14,7 млн евро на управление большими данными

В июле 2014 г. стало известно о том, что Мадрид будет использовать технологии big data для управления городской инфраструктурой. Стоимость проекта - 14,7 млн евро, основу внедряемых решений составят технологии для анализа и управления большими данными. С их помощью городская администрация будет управлять работой с каждым сервис-провайдером и соответствующим образом оплачивать ее в зависимости от уровня услуг.

Речь идет о подрядчиках администрации, которые следят за состоянием улиц, освещением, ирригацией, зелеными насаждениями, осуществляют уборку территории и вывоз, а также переработку мусора. В ходе проекта для специально выделенных инспекторов разработаны 300 ключевых показателей эффективности работы городских сервисов, на базе которых ежедневно будет осуществляться 1,5 тыс. различных проверок и замеров. Кроме того, город начнет использование инновационной технологическлй платформы под названием Madrid iNTeligente (MiNT) - Smarter Madrid.

2013

Эксперты: Пик моды на Big Data

Все без исключения вендоры на рынке управления данными в это время ведут разработку технологий для менеджмента Big Data. Этот новый технологический тренд также активно обсуждается профессиональными сообществом, как разработчиками, так и отраслевыми аналитиками и потенциальными потребителями таких решений.

Как выяснила компания Datashift, по состоянию на январь 2013 года волна обсуждений вокруг «больших данных » превысила все мыслимые размеры. Проанализировав число упоминаний Big Data в социальных сетях, в Datashift подсчитали, что за 2012 год этот термин употреблялся около 2 млрд раз в постах, созданных около 1 млн различных авторов по всему миру. Это эквивалентно 260 постам в час, причем пик упоминаний составил 3070 упоминаний в час.

Gartner: Каждый второй ИТ-директор готов потратиться на Big data

После нескольких лет экспериментов с технологиями Big data и первых внедрений в 2013 году адаптация подобных решений значительно возрастет, прогнозируют в Gartner . Исследователи опросили ИТ-лидеров во всем мире и установили, что 42% опрошенных уже инвестировали в технологии Big data или планируют совершить такие инвестиции в течение ближайшего года (данные на март 2013 года).

Компании вынуждены потратиться на технологии обработки больших данных , поскольку информационный ландшафт стремительно меняется, требую новых подходов к обработки информации. Многие компании уже осознали, что большие массивы данных являются критически важными, причем работа с ними позволяет достичь выгод, не доступных при использовании традиционных источников информации и способов ее обработки. Кроме того, постоянное муссирование темы «больших данных» в СМИ подогревает интерес к соответствующим технологиям.

Фрэнк Байтендидк (Frank Buytendijk), вице-президент Gartner, даже призвал компании умерить пыл, поскольку некоторые проявляют беспокойство, что отстают от конкурентов в освоении Big data.

«Волноваться не стоит, возможности для реализации идей на базе технологий «больших данных» фактически безграничны», - заявил он.

По прогнозам Gartner, к 2015 году 20% компаний списка Global 1000 возьмут стратегический фокус на «информационную инфраструктуру».

В ожидании новых возможностей, которые принесут с собой технологии обработки «больших данных», уже сейчас многие организации организуют процесс сбора и хранения различного рода информации.

Для образовательных и правительственных организаций, а также компаний отрасли промышленности наибольший потенциал для трансформации бизнеса заложен в сочетании накопленных данных с так называемыми dark data (дословно – «темными данными»), к последним относятся сообщения электронной почты, мультимедиа и другой подобный контент. По мнению Gartner, в гонке данных победят именно те, кто научится обращаться с самыми разными источниками информации.

Опрос Cisco: Big Data поможет увеличить ИТ-бюджеты

В ходе исследования (весна 2013 года) под названием Cisco Connected World Technology Report, проведенного в 18 странах независимой аналитической компанией InsightExpress, были опрошены 1 800 студентов колледжей и такое же количество молодых специалистов в возрасте от 18 до 30 лет. Опрос проводился, чтобы выяснить уровень готовности ИТ-отделов к реализации проектов Big Data и получить представление о связанных с этим проблемах, технологических изъянах и стратегической ценности таких проектов.

Большинство компаний собирает, записывает и анализирует данные. Тем не менее, говорится в отчете, многие компании в связи с Big Data сталкиваются с целым рядом сложных деловых и информационно-технологических проблем. К примеру, 60 процентов опрошенных признают, что решения Big Data могут усовершенствовать процессы принятия решений и повысить конкурентоспособность, но лишь 28 процентов заявили о том, что уже получают реальные стратегические преимущества от накопленной информации.

Более половины опрошенных ИТ-руководителей считают, что проекты Big Data помогут увеличить ИТ-бюджеты в их организациях, так как будут предъявляться повышенные требования к технологиям, персоналу и профессиональным навыкам. При этом более половины респондентов ожидают, что такие проекты увеличат ИТ-бюджеты в их компаниях уже в 2012 году. 57 процентов уверены в том, что Big Data увеличит их бюджеты в течение следующих трех лет.

81 процент респондентов заявили, что все (или, по крайней мере, некоторые) проекты Big Data потребуют применения облачных вычислений. Таким образом, распространение облачных технологий может сказаться на скорости распространения решений Big Data и на ценности этих решений для бизнеса.

Компании собирают и используют данные самых разных типов, как структурированные, так и неструктурированные. Вот из каких источников получают данные участники опроса (Cisco Connected World Technology Report):

Почти половина (48 процентов) ИТ-руководителей прогнозирует удвоение нагрузки на их сети в течение ближайших двух лет. (Это особенно характерно для Китая , где такой точки зрения придерживаются 68 процентов опрошенных, и Германии – 60 процентов). 23 процента респондентов ожидают утроения сетевой нагрузки на протяжении следующих двух лет. При этом лишь 40 процентов респондентов заявили о своей готовности к взрывообразному росту объемов сетевого трафика.

27 процентов опрошенных признали, что им необходимы более качественные ИТ-политики и меры информационной безопасности .

21 процент нуждается в расширении полосы пропускания.

Big Data открывает перед ИТ-отделами новые возможности для наращивания ценности и формирования тесных отношений с бизнес-подразделениями, позволяя повысить доходы и укрепить финансовое положение компании. Проекты Big Data делают ИТ-подразделения стратегическим партнером бизнес-подразделений.

По мнению 73 процентов респондентов, именно ИТ-отдел станет основным локомотивом реализации стратегии Big Data. При этом, считают опрошенные, другие отделы тоже будут подключаться к реализации этой стратегии. Прежде всего, это касается отделов финансов (его назвали 24 процента респондентов), научно-исследовательского (20 процентов), операционного (20 процентов), инженерного (19 процентов), а также отделов маркетинга (15 процентов) и продаж (14 процентов).

Gartner: Для управления большими данными нужны миллионы новых рабочих мест

Мировые ИТ расходы достигнут $3,7 млрд к 2013 году, что на 3,8% больше расходов на информационные технологии в 2012 году (прогноз на конец года составляет $3,6 млрд). Сегмент больших данных (big data) будет развиваться гораздо более высокими темпами, говорится в отчете Gartner .

К 2015 году 4,4 млн рабочих мест в сфере информационных технологий будет создано для обслуживания больших данных, из них 1,9 млн рабочих мест – в . Более того, каждое такое рабочее место повлечет за собой создание трех дополнительных рабочих мест за пределами сферы ИТ, так что только в США в ближайшие четыре года 6 млн человек будет трудиться для поддержания информационной экономики.

По мнению экспертов Gartner, главная проблема состоит в том, что в отрасли для этого недостаточно талантов: как частная, так и государственная образовательная система, например, в США не способны снабжать отрасль достаточным количеством квалифицированных кадров. Так что из упомянутых новых рабочих мест в ИТ кадрами будет обеспечено только одно из трех.

Аналитики полагают, что роль взращивания квалифицированных ИТ кадров должны брать на себя непосредственно компании, которые в них остро нуждаются, так как такие сотрудники станут пропуском для них в новую информационную экономику будущего.

2012

Первый скепсис в отношении "Больших данных"

Аналитики компаний Ovum и Gartner предполагают, что для модной в 2012 году темы больших данных может настать время освобождения от иллюзий.

Термином «Большие Данные», в это время как правило, обозначают постоянно растущий объем информации, поступающей в оперативном режиме из социальных медиа, от сетей датчиков и других источников, а также растущий диапазон инструментов, используемых для обработки данных и выявления на их основе важных бизнес-тенденций.

«Из-за шумихи (или несмотря на нее) относительно идеи больших данных производители в 2012 году с огромной надеждой смотрели на эту тенденцию», - отметил Тони Байер, аналитик Ovum.

Байер сообщил, что компания DataSift провела ретроспективный анализ упоминаний больших данных в

Moscow_Exchange 6 мая 2015 в 20:38

Аналитический обзор рынка Big Data

  • Блог компании Московская Биржа ,
  • Big Data

«Big Data» - тема, которая активно обсуждается технологическими компаниями. Некоторые из них успели разочароваться в больших данных, другие - напротив, максимально используют их для бизнеса… Свежий аналитический обзор отечественного и мирового рынка «Big Data», подготовленный Московской Биржей совместно с аналитиками «IPOboard », показывает, какие тренды наиболее актуальны сейчас на рынке. Надеемся, информация будет интересной и полезной.

ЧТО ТАКОЕ BIG DATA?

Ключевые характеристики
Большие Данные, на сегодняшний момент, являются одним из ключевых драйверов развития информационных технологий. Это направление, относительно новое для российского бизнеса, получило широкое распространение в западных странах. Связано это с тем, что в эпоху информационных технологий, особенно после бума социальных сетей, по каждому пользователю интернета стало накапливаться значительное количество информации, что в конечном счете дало развитие направлению Big Data.

Термин «Большие Данные» вызывает множество споров, многие полагают, что он означает лишь объем накопленной информации, но не стоит забывать и о технической стороне, данное направление включает в себя технологии хранения, вычисления, а также сервисные услуги.

Следует отметить, что к данной сфере относится обработка именно большого объема информации, который затруднительно обрабатывать традиционными способами*.

Ниже представлена сравнительная таблица традиционной и базы Больших Данных.

Сфера Больших Данных характеризуется следующими признаками:
Volume – объем, накопленная база данных представляет собой большой объем информации, который трудоемко обрабатывать и хранить традиционными способами, для них требуются новый подход и усовершенствованные инструменты.
Velocity – скорость, данный признак указывает как на увеличивающуюся скорость накопления данных (90% информации было собрано за последние 2 года), так и на скорость обработки данных, в последнее время стали более востребованы технологии обработки данных в реальном времени.
Variety – многообразие, т.е. возможность одновременной обработки структурированной и неструктурированной разноформатной информации. Главное отличие структурированной информации – это то, что она может быть классифицирована. Примером такой информации может служить информация о клиентских транзакциях.
Неструктурированная информация включает в себя видео, аудио файлы, свободный текст, информацию, поступающую из социальных сетей. На сегодняшний день 80% информации входит в группу неструктурированной. Данная информация нуждается в комплексном анализе, чтобы сделать ее полезной для дальнейшей обработки.
Veracity – достоверность данных, все большее значение пользователи стали придавать значимость достоверности имеющихся данных. Так, у интернет-компаний есть проблема по разделению действий, проводимых роботом и человеком на сайте компании, что приводит в конечном счете к затруднению анализа данных.
Value – ценность накопленной информации. Большие Данные должны быть полезны компании и приносить определенную ценность для нее. К примеру, помогать в усовершенствовании бизнес-процессов, составлении отчетности или оптимизации расходов.

При соблюдении указанных выше 5 условий, накопленные объемы данных можно относить к числу больших.

Сферы применения Больших Данных

Сфера использования технологий Больших Данных обширна. Так, с помощью Больших Данных можно узнать о предпочтениях клиентов, об эффективности маркетинговых кампаний или провести анализ рисков. Ниже представлены результаты опроса IBM Institute, о направлениях использования Big Data в компаниях.

Как видно из диаграммы, большинство компаний используют Большие Данные в сфере клиентского сервиса, второе по популярности направление – операционная эффективность, в сфере управления рисками Большие Данные менее распространены на текущий момент.

Следует также отметить, что Big Data являются одной из самых быстрорастущих сфер информационных технологий, согласно статистике, общий объем получаемых и хранимых данных удваивается каждые 1,2 года.
За период с 2012 по 2014 год количество данных, ежемесячно передаваемых мобильными сетями, выросло на 81%. По оценкам Cisco, в 2014 году объем мобильного трафика составил 2,5 эксабайта (единица измерения количества информации, равная 10^18 стандартным байтам) в месяц, а уже в 2019 году он будет равен 24,3 эксабайтам.
Таким образом, Большие Данные – это уже устоявшаяся сфера технологий, даже несмотря на относительно молодой ее возраст, получившая распространение во многих сферах бизнеса и играющая немаловажную роль в развитии компаний.

Технологии Больших Данных
Технологии, используемые для сбора и обработки Больших Данных, можно разделить на 3 группы:
  • Программное обеспечение;
  • Оборудование;
  • Сервисные услуги.

К наиболее распространенным подходам обработки данных (ПО) относятся:
SQL – язык структурированных запросов, позволяющий работать с базами данных. С помощью SQL можно создавать и модифицировать данные, а управлением массива данных занимается соответствующая система управления базами данных.
NoSQL – термин расшифровывается как Not Only SQL (не только SQL). Включает в себя ряд подходов, направленных на реализацию базы данных, имеющих отличия от моделей, используемых в традиционных, реляционных СУБД. Их удобно использовать при постоянно меняющейся структуре данных. Например, для сбора и хранения информации в социальных сетях.
MapReduce – модель распределения вычислений. Используется для параллельных вычислений над очень большими наборами данных (петабайты* и более). В программном интерфейсе не данные передаются на обработку программе, а программа – данным. Таким образом запрос представляет собой отдельную программу. Принцип работы заключается в последовательной обработке данных двумя методами Map и Reduce. Map выбирает предварительные данные, Reduce агрегирует их.
Hadoop – используется для реализации поисковых и контекстных механизмов высоконагруженных сайтов – Facebook, eBay, Amazon и др. Отличительной особенностью является то, что система защищена от выхода из строя любого из узлов кластера, так как каждый блок имеет, как минимум, одну копию данных на другом узле.
SAP HANA – высокопроизводительная NewSQL платформа для хранения и обработки данных. Обеспечивает высокую скорость обработки запросов. Еще одним отличительным признаком является то, что SAP HANA упрощает системный ландшафт, уменьшая затраты на поддержку аналитических систем.

К технологическому оборудованию относят:

  • серверы;
  • инфраструктурное оборудование.
Серверы включают в себя хранилища данных.
К инфраструктурному оборудованию относят средства ускорения платформ, источники бесперебойного питания, комплекты серверных консолей и др.

Сервисные услуги.
Сервисные услуги включают в себя услуги по построению архитектуры системы базы данных, обустройству и оптимизации инфраструктуры и обеспечению безопасности хранения данных.

Программное обеспечение, оборудование, а также сервисные услуги вместе образуют комплексные платформы для хранения и анализа данных. Такие компании, как Microsoft, HP, EMC предлагают услуги по разработке, развертыванию решений Больших Данных и управления ими.

Применение в отраслях
Большие Данные получили широкое распространение во многих отраслях бизнеса. Их используют в здравоохранении, телекоммуникациях, торговле, логистике, в финансовых компаниях, а также в государственном управлении.
Ниже представлено несколько примеров применения Больших Данных в некоторых из отраслей.

Розничная торговля
В базах данных розничных магазинов может быть накоплено множество информации о клиентах, системе управления запасами, поставками товарной продукции. Данная информация может быть полезна во всех сферах деятельности магазинов.

Так, с помощью накопленной информации можно управлять поставками товара, его хранением и продажей. На основании накопленной информации можно прогнозировать спрос и поставки товара. Также система обработки и анализа данных может решить и другие проблемы ритейлера, например, оптимизировать затраты или подготовить отчетность.

Финансовые услуги
Большие Данные дают возможность проанализировать кредитоспособность заемщика, также они полезны для кредитного скоринга* и андеррайтинга**. Внедрение технологий Больших Данных позволит сократить время рассмотрения кредитных заявок. С помощью Больших Данных можно проанализировать операции конкретного клиента и предложить подходящие именно ему банковские услуги.

Телеком
В телекоммуникационной отрасли широкое распространение Большие Данных получили у сотовых операторов.
Операторы сотовой связи наравне с финансовыми организациями имеют одни из самых объемных баз данных, что позволяет им проводить наиболее глубокий анализ накопленной информации.
Главной целью анализа данных является удержание существующих клиентов и привлечение новых. Для этого компании проводят сегментацию клиентов, анализируют их трафики, определяют социальную принадлежность абонента.

Помимо использования Big Data в маркетинговых целях, технологии применяются для предотвращения мошеннических финансовых операций.

Горнодобывающая и нефтяная промышленности
Большие Данные используются как при добыче полезных ископаемых, так и при их переработке и сбыте. Предприятия могут на основании поступившей информации делать выводы об эффективности разработки месторождения, отслеживать график капитального ремонта и состояния оборудования, прогнозировать спрос на продукцию и цены.

По данным опроса Tech Pro Research, наибольшее распространение Большие Данные получили в телекоммуникационной отрасли, а также в инжиниринге, ИТ, в финансовых и государственных предприятиях. По результатам данного опроса, менее популярны Большие Данные в образовании и здравоохранении. Результаты опроса представлены ниже:

Примеры использования Big Data в компаниях
На сегодняшний день Big Data активно внедряются в зарубежных компаниях. Такие компании, как Nasdaq, Facebook, Google, IBM, VISA, Master Card, Bank of America, HSBC, AT&T, Coca Cola, Starbucks и Netflix уже используют ресурсы Больших Данных.

Сферы применения обработанной информации разнообразны и варьируются в зависимости от отрасли и задач, которые необходимо выполнить.
Далее будут представлены примеры применения технологий Больших Данных на практике.

HSBC использует технологии Больших Данных для противодействия мошеннических операций с пластиковыми картами. С помощью Big Data компания увеличила эффективность службы безопасности в 3 раза, распознавание мошеннических инцидентов – в 10 раз. Экономический эффект от внедрения данных технологий превысил 10 млн долл. США.

Антифрод* VISA позволяет в автоматическом режиме вычислить операции мошеннического характера, система на данный момент помогает предотвратить мошеннические платежи на сумму 2 млрд долл. США ежегодно.

Суперкомпьютер Watson компании IBM анализирует в реальном времени поток данных по денежным транзакциям. По данным IBM, Watson на 15% увеличил количество выявленных мошеннических операций, на 50% сократил ложные срабатывания системы и на 60% увеличил сумму денежных средств, защищенных от транзакций такого характера.

Procter & Gamble с помощью Больших Данных проектируют новые продукты и составляют глобальные маркетинговые кампании. P&G создал специализированные офисы Business Spheres, где можно просматривать информацию в реальном времени.
Таким образом, у менеджмента компании появилась возможность мгновенно проверять гипотезы и проводить эксперименты. P&G считают, что Большие Данные помогают в прогнозировании деятельности компании.

Ритейлер офисных принадлежностей OfficeMax с помощью технологий Больших Данных анализируют поведение клиентов. Анализ Big Data позволил увеличить B2B выручку на 13%, уменьшить затраты на 400 000 долларов США в год.

По мнению Caterpillar , ее дистрибьюторы ежегодно упускают от 9 до 18 млрд долл. США прибыли только из-за того, что не внедряют технологии обработки Больших Данных. Big Data позволили бы клиентам более эффективно управлять парком машин, за счет анализа информации, поступающей с датчиков, установленных на машинах.

На сегодняшний день уже есть возможность анализировать состояние ключевых узлов, их степени износа, управлять затратами на топливо и техническое обслуживание.

Luxottica group является производителем спортивных очков, таким марок, как Ray-Ban, Persol и Oakley. Технологии Больших Данных компания применяет для анализа поведения потенциальных клиентов и «умного» смс-маркетинга. В результате Big Data Luxottica group выделила более 100 миллионов наиболее ценных клиентов и повысила эффективность маркетинговой кампании на 10%.

С помощью Yandex Data Factory разработчики игры World of Tanks анализируют поведение игроков. Технологии Больших Данных позволили проанализировать поведение 100 тысяч игроков World of Tanks с использованием более 100 параметров (информация о покупках, играх, опыт и др.). В результате анализа был получен прогноз оттока пользователей. Данная информация позволяет уменьшить уход пользователей и работать с участниками игры адресно. Разработанная модель оказалась на 20-30% эффективнее стандартных инструментов анализа игровой индустрии.

Министерство труда Германии использует Большие Данные в работе, связанной с анализом поступающих заявок на выдачу пособий по безработице. Так, проанализировав информацию, стало понятно, что 20% пособий выплачивалось незаслуженно. С помощью Big Data министерство труда сократило расходы на 10 млрд евро.

Детская больница Торонто внедрила проект Project Artemis. Это информационная система, которая собирает и анализирует данные по младенцам в реальном времени. Система ежесекундно отслеживает 1260 показателей состояния каждого ребенка. Project Artemis позволяет прогнозировать нестабильное состояние ребенка и начать профилактику заболеваний у детей.

ОБЗОР МИРОВОГО РЫНКА БОЛЬШИХ ДАННЫХ

Текущее состояние мирового рынка
В 2014 г. Большие Данные, по мнению Data Collective, стали одними из приоритетных направлений инвестирования в сфере венчурной индустрии. Согласно данным информационного портала Компьютерра, связано это с тем, что разработки из данного направления начали приносить значительные результаты для их пользователей. За прошедший год количество компаний с реализованными проектами в сфере управления большими данными увеличилось на 125%, объем рынка вырос на 45% по сравнению с 2013 годом.

Большую часть выручки рынка Big Data, по мнению Wikibon, в 2014 году составили сервисные услуги, их доля была равно 40% в общем объеме выручки (см. диаграмму ниже):

Если рассматривать Big Data за 2014 год по подтипам, то рынок будет выглядеть следующим образом:

Согласно данным Wikibon, приложения и аналитика составляет 36% выручки Big Data в 2014 году принесли приложения и аналитика Больших Данных, 17% - вычислительное оборудование и 15% - технологии хранения данных. Меньше всего выручки было сгенерировано NoSQL технологиями, инфраструктурным оборудованием и обеспечением сетью компаний (корпоративные сети).

Наибольшей популярностью пользуются такие технологии Big Data, как in-memory платформы компаний SAP, HANA, Oracle и др. Результаты опроса T-Systems показали, что их выбрали 30% опрошенных компаний. Вторыми по популярности стали NoSQL платформы (18% пользователей), также компании использовали аналитические платформы компаний Splunk и Dell, их выбрало 15% компаний. Наименее полезными для решения проблем Больших Данных, по результатам опроса оказались продукты Hadoop/MapReduce.

По данным опроса Accenture, в более чем 50% компаниях, использующих технологии Больших Данных, затраты на Big Data составляют от 21% до 30%.
Согласно следующими анализу Accenture, 76% компаний, считают, что данные расходы увеличатся в 2015 году, а 24% компаний не изменят своего бюджета на технологии Больших Данных. Это говорит о том, что в данных компаниях Big Data стали уже устоявшимся направлением ИТ, ставшим неотъемлемой частью развития компании.

Результаты опроса Economist Intelligence Unit survey подтверждают положительный эффект от внедрения Big Data. 46% компаний заявляют, что с помощью технологий Больших Данных они улучшили клиентский сервис более, чем на 10%, 33% компаний оптимизировали запасы и улучшили продуктивность основных активов, 32% компаний улучшили процессы планирования.

Большие Данные в разных странах мира
На сегодняшний день технологии Больших Данных чаще всего внедряются в компаниях США, но уже сейчас и другие страны мира начали проявлять интерес. В 2014 году, по данным IDC, на страны Европы, Ближнего Востока, Азии (за исключением Японии) и Африки пришлось 45% рынка ПО, услуг и оборудования в сфере Big Data.

Также, согласно опросу CIO, компании из стран Азиатско-Тихоокеанского региона быстрыми темпами осваивают новые решения в области анализа Больших Данных, безопасного хранения и облачных технологий. Латинская Америка находится на втором месте по количеству инвестиций в развитие технологий Больших Данных, опережая страны Европы и США.
Далее будет представлено описание и прогнозы развития рынка Больших Данных нескольких стран.

Китай
Объем информации Китая составляет 909 эксабайт, что равно 10% общего объема информации в мире, к 2020 году объем информации достигнет 8060 эксабайт, увеличится и доля информации в общемировой статистике, через 5 лет она будет равна 18%. Потенциальный рост Big Data Китая имеет одну из самых быстрорастущих динамик.

Бразилия
Бразилия по итогам 2014 года накопила информации на 212 эксабайт, что составляет 3% от общемирового объема. К 2020 году объем информации вырастет до 1600 эксабайт, что составит 4% информации всего мира.

Индия
По данным EMC, объем накопленных данных Индии по итогам 2014 года составляет 326 эксабайт, что составляет 5% от общего объема информации. К 2020 году объем информации вырастет до 2800 эксабайт, что составит 6% информации всего мира.

Япония
Объем накопленных данных Японии по итогам 2014 года составляет 495 эксабайт, что составляет 8% от общего объема информации. К 2020 году объем информации вырастет до 2200 эксабайт, но уменьшится доля рынка Японии и составит 5% об общего объема информации всего мира.
Таким образом, объем рынка Японии уменьшится на более, чем 30%.

Германия
По данным EMC, объем накопленных данных в Германии по итогам 2014 года составляет 230 эксабайт, что составляет 4% от общего объема информации в мире. К 2020 году объем информации вырастет до 1100 эксабайт и составит 2%.
На рынке Германии большую долю выручки, по прогнозам Experton Group, будет генерировать сегмент сервисных услуг, доля которых в 2015 году составит 54%, а в 2019 году увеличится до 59%, доли программного обеспечения и оборудования, наоборот, уменьшатся.

В целом, объем рынка вырастет с 1, 345 млрд евро в 2015 году до 3,198 млрд евро в 2019 году, средний темп роста составит 24%.
Таким образом, на основании аналитики CIO и EMC, можно сделать вывод о том, что развивающиеся страны мира в ближайшие годы станут рынками активного развития технологий Больших Данных.

Основные тенденции рынка
По мнению IDG Enterprise, в 2015 расходы компаний на сферу Больших Данных составят в среднем 7,4 млн долл. США на компанию, крупные компании намерены потратить примерно 13,8 млн долл. США, малые и средние – 1,6 млн долл. США.
Больше всего будет инвестировано в такие области, как анализ и визуализация данных и их сбор.
Согласно текущим тенденциям и спросу на рынке, инвестиции в 2015 году будут использованы на улучшение качества данных, совершенствование планирования и прогнозирования, а также на увеличение скорости обработки данных.
Компаниями финансового сектора, по данным Bain Company’s Insights Analysis, будут произведены значительные инвестиции, так в 2015 году планируется потратить 6,4 млрд долл. США на технологии Big Data, средний темп роста инвестиций составит 22% до 2020 года. Интернет-компании планируют потратить 2,8 млрд долл. США, средний темп роста увеличения затрат на Большие Данные составит 26%.
При проведении опроса Economist Intelligence Unit survey, были выявлены приоритетные направления развития Big Data в 2014 году и в ближайшие 3 года, распределение ответов выглядит следующим образом:

По прогнозам IDC тенденции развития рынка выглядят следующим образом:

  • В следующие 5 лет затраты на облачные решения в сфере технологий Больших Данных будут расти в 3 раза быстрее, чем затраты на локальные решения. Станут востребованными гибридные платформы для хранения данных.
  • Рост приложений с использованием сложной и прогнозной аналитики, включая машинное обучение, ускорится в 2015 году, рынок таких приложений будет расти на 65% быстрее, чем приложения, не использующие прогнозную аналитику.
  • Медиа аналитика утроится в 2015 году и станет ключевым драйвером роста рынка технологий Больших Данных.
  • Ускорится тенденция внедрения решений для анализа постоянного потока информации, которая применима для интернета вещей.
  • К 2018 году 50% пользователей будут взаимодействовать с сервисами, основанными на когнитивном вычислении.
Драйверы и ограничители рынка
Эксперты IDC, выделили 3 драйвера рынка Больших Данных 2015 года:

Согласно опросу Accenture, вопросы безопасности данных являются сейчас главным барьером на пути внедрения технологий Больших Данных, более 51% респондентов подтвердили, что беспокоятся за обеспечение защиты данных и их конфиденциальности. 47% компаний сообщили, о невозможности внедрения Big Data в связи с ограниченным бюджетом, 41% компаний в качестве проблемы указали нехватку квалифицированных кадров.

Wikibon прогнозирует, что объем рынка Big Data вырастет в 2015 году до 38,4 млрд долл. США и увеличится по сравнению с предыдущим годом на 36%. В ближайшие годы будет наблюдаться спад темпов роста до 10% в 2017 году. С учетом данных прогнозов, объем рынка в 2020 году будет равен 68,7 млрд долл. США.

Распределение общемирового рынка Больших Данных по бизнес-категориям будет выглядеть следующим образом:

Как видно из диаграммы, большую часть рынка будет занимать технологии из сферы улучшения клиентского сервиса. Точечный маркетинг будет на втором месте по приоритетности у компаний вплоть до 2019 года, в 2020 году, по прогнозу Heavy Reading, он уступит место решениям по улучшению операционной эффективности.
Самый высокий темп роста также будет у сегмента «улучшение клиентского сервиса», прирост - 49% ежегодно.
Прогноз рынка по подтипам Big Data будет выглядеть следующим образом:

Преобладающую долю рынка, как видно из диаграммы, занимают профессиональные услуги, самый высокий темп рост будет у приложений с аналитикой, их доля вырастет с нынешних 12% до 18% в 2020 году и объем данного сегмента будет равен 12,3 млрд долл. США, доля вычислительного оборудования, наоборот, упадет с 20% до 14% и составит порядка 9,3 млрд долл. США в 2020 году, рынок облачных технологий будет постепенно увеличиваться и в 2020 году достигнет 6,3 млрд долл. США, доля рынка решений для хранения данных, наоборот, уменьшится с 15% в 2014 году до 13% в 2020 году и в денежном выражении будет равна 8,9 млрд долл. США.
Согласно прогнозу Bain & Company’s Insights Analysis, распределение рынка Big Data по отраслям в 2020 году будет выглядеть следующим образом:

  • Финансовая отрасль будет осуществлять затраты на Big Data в размере 6,4 млрд долл. США со средним темпом роста 22% в год;
  • Интернет-компании потратят 2,8 млрд долл. США и средний темп роста затрат составит 26% за следующие 5 лет;
  • Затраты госсектора будут соразмерны затратам интернет-компаний, но темп роста будет ниже – 22%;
  • Сектор телекоммуникаций будет расти со средним темпом роста 40% и достигнет 1,2 млрд долл. США в 2020 году;

Энергетические компании будут инвестировать в данные технологии сравнительно небольшую сумму - 800 млн долл. США, но темп роста будет одним из самых высоких – 54% ежегодно.
Таким образом, большую долю рынка Big Data в 2020 году займут компании финансовой отрасли, а самым быстрорастущим сектором будет энергетика.
Следуя прогнозам аналитиков, общий объем рынка в ближайшие годы будет увеличиваться. Рост рынка будет обеспечен за счет внедрения технологий Больших Данных в развивающихся странах мира, как видно из представленного ниже графика.

Прогнозируемый объем рынка будет зависеть от того, как развивающиеся страны воспримут технологии Больших Данных, будет ли они также популярны как в развитых странах. В 2014 году развивающиеся страны мира занимали 40% от объема накопленной информации. По прогнозу EMC, нынешняя структура рынка, с преобладанием развитых стран, изменится уже в 2017 году. Согласно аналитике EMC, в 2020 году доля развивающихся стран будет более 60%.
По мнению Cisco и EMC, развивающиеся страны мира будут достаточно активно работать с Big Data, во многом это будет связано с доступностью технологий и накоплением достаточного объема информации до уровня Big Data. На карте мира, представленной на следующей странице, будет показан прогноз увеличения объема и темп роста Больших Данных по регионам.

АНАЛИЗ РОССИЙСКОГО РЫНКА

Текущее состояние российского рынка

Согласно результатам исследования CNews Analytics и Oracle, уровень зрелости российского рынка Big Data за последний год повысился. Респонденты, представляющие 108 крупных предприятий из разных отраслей, продемонстрировали более высокую степень осведомленности об этих технологиях, а также сложившееся понимание потенциала подобных решений для своего бизнеса.
По состоянию на 2014 год, по данным IDC, в России накоплено 155 эксабайт информации, что составляет всего лишь 1,8% мировых данных. Объем информации к 2020 году достигнет 980 эксабайт и займет 2,2%. Таким образом, средний темп роста объема информации составит 36% в год.
Компания IDC оценивает рынок России в 340 млн долл. США, из них 100 млн долл. США – решения SAP, примерно 240 млн долл. США – аналогичные решения Oracle, IBM, SAS, Microsoft и др.
Темп роста российского рынка Больших Данных составляет не менее, чем 50% в год.
Прогнозируется сохранение позитивной динамики в этом секторе российского рынка ИТ, даже в условиях общей стагнации экономики. Это связано с тем, что бизнес по-прежнему предъявляет спрос на решения, позволяющие повысить эффективность работы, а также оптимизацию расходов, улучшение точности прогнозирования и минимизировать возможные риски компании.
Основными провайдерами услуг в сфере Больших Данных на российском рынке являются:
  • Oracle
  • Microsoft
  • Cloudera
  • Hortonworks
  • Teradata.
Обзор рынка по отраслям и опыт применения Больших Данных в компаниях
По данным CNews, в России лишь 10% компаний начали использовать технологии Больших Данных, когда в мире доля таких компаний составляет порядка 30%. Готовность к проектам Big Data растет во многих отраслях экономики России - свидетельствует отчет СNews Analytics и Oracle. Более трети опрошенных компаний (37%) приступили к работе с технологиями Big Data, среди которых 20% уже используют такие решения, а 17% начинают экспериментировать с ними. Вторая треть респондентов в настоящий момент рассматривают такую возможность.

В России большей популярностью технологии Больших Данных пользуются в банковской сфере и телекоме, но они также востребованы в сфере добывающей промышленности, энергетике, ритейле, в логистических компаниях и госсекторе.
Далее будут рассмотрены примеры применения Больших Данных в российских реалиях.

Телеком
Телеком-операторы имеют одни из самых объемных баз данных, что позволяет им проводить наиболее глубокий анализ накопленной информации.
Одной из сфер применения технологии Больших Данных является управление лояльностью абонентов.
Главной целью анализа данных является удержание существующих клиентов и привлечение новых. Для этого компании проводят сегментацию клиентов, анализируют их трафики, определяют социальную принадлежность абонента. Помимо использования информации в маркетинговых целях, в телекоме технологии применяются для предотвращения мошеннических финансовых операций.
Одним из ярких примеров данной отрасли является Вымпелком. Компания применяет Большие Данные для повышения качества обслуживания на уровне каждого абонента, составления отчетности, анализа данных для развития сети, борьбы со спамом и персонализации услуг.

Банки
Значительную долю пользователей Big Data занимают специалисты из финансовой отрасли. Одним из успешных опытов был проведен в Уральском банке реконструкции и развития, где информационную базу стали использовать для анализа клиентов, банк начал предлагать специализированные кредитные предложения, вклады и другие услуги. За год использования данных технологий розничный кредитный портфель компании вырос на 55%.
В Альфа-Банке анализируют информацию из социальных сетей, обрабатывают заявки на получение кредита, анализируют поведение пользователей сайта компании.
Сбербанк также приступил к обработке массива данных с целью сегментации клиентов, предотвращения мошеннических действий, перекрестных продаж и управления рисками. В дальнейшем планируется усовершенствовать сервис и анализировать действия клиентов в режиме реального времени.
Всероссийский банк развития регионов анализирует поведение владельцев пластиковых карт. Это позволяет выявить нетипичные для конкретного клиента операции, тем самым повышается вероятность выявления воровства денежных средств с пластиковых карточек.

Розничная торговля
В России технологии Больших Данных были внедрены компаниями как онлайн, так и офлайн торговли. На сегодняшний день, по данным CNews Analytics, Big Data используют 20% ритейлеров. 75% специалистов розничной торговли считают Большие Данные необходимыми для развития конкурентоспособной стратегии продвижения компании. По статистике Hadoop после внедрения технологии Больших Данных прибыль в торговых организациях вырастает на 7-10%.
Специалисты М.Видео говорят об улучшении логистического планирования после внедрения SAP HANA, также, в результате ее внедрения, подготовка годовой отчетности сократилась с 10 дней до 3, скорость ежедневной загрузки данных сократилась с 3 часов до 30 минут.
Wikimart используют данные технологии для формирования рекомендаций посетителям сайта.
Одним из первых офлайн-магазинов внедривших анализ Больших Данных в России, была «Лента». С помощью Big Data ритейл стал изучать информацию о покупателях из кассовых чеков. Ритейлер собирает информацию для составления поведенческих моделей, что дает возможность более обоснованно принимать решения на уровне операционной и коммерческой деятельности.

Нефтегазовая отрасль
В данной отрасли сфера применения Больших Данных достаточно широка. Технологии Больших Данных могут быть применены при добычи полезных ископаемых из недр. С их помощью можно анализировать сам процесс добычи и наиболее эффективные способы его извлечения, отслеживать процесс бурения, анализ качества сырья, а также обработку и сбыт конечной продукции. В России данными технологиями стали уже пользоваться Транснефть и Роснефть.

Государственные органы
В таких странах, как Германия, Австралия, Испания, Япония, Бразилия и Пакистан технологии Больших Данных используются для решения вопросов национального масштаба. Данные технологии помогают органам государственной власти более эффективно предоставлять услуги населению, оказывать адресную социальную поддержку.
В России данные технологии стали осваивать такие государственные органы, как Пенсионный Фонд, Федеральная Налоговая Служба и Фонда обязательного медицинского страхования. Потенциал реализации проектов с использованием Big Data большой, данные технологии могли бы помочь в улучшении качества сервисов, и, как следствие, уровня жизни населения.

Логистика и транспорт
Big Data также могут быть использованы транспортными компаниями. С помощью технологий Больших Данных можно отслеживать парк автомобилей, учитывать расходы на топливо, проводить мониторинг заявок клиентов.
РЖД внедрили технологии Big Data совместно с компанией SAP. Данные технологии помогли сократить срок подготовки отчетности в 43,5 раза (с 14,5 часов до 20 минут), повысить точность распределения затрат в 40 раз. Также Big Data были внедрены в процессы планирования и тарифного регулирования. Всего компаний используется более 300 систем на базе решений SAP, задействовано 4 дата-центра, а количество пользователей составило 220 000.

Основные драйверы и ограничители рынка
Драйверами развития технологий Больших Данных на российском рынке являются:
  • Повышенный интерес со стороны пользователей к возможностям Больших Данных, как к способу увеличения конкурентоспособности компании;
  • Развитие методов обработки медиа-файлов на общемировом уровне;
  • Перенос серверов, обрабатывающих персональную информацию на территорию России, согласно принятому закону о хранении и обработке персональных данных;
  • Осуществление отраслевого плана по импортозамещению программного обеспечения. Данный план включает в себя государственную поддержку отечественных производителей ПО, а также предоставление преференций отечественной ИТ-продукции при осуществлении закупок за государственный счет.
  • В новой экономической ситуации, когда курс доллара вырос практически в 2 раза, будет наблюдаться тренд по все большему использованию услуг российских провайдеров облачных услуг, нежели зарубежных.
  • Создание технопарков, способствующих развитию рынка информационных технологий, в том числе рынка Больших Данных;
  • Государственная программа по внедрению грид-систем, основой которым служат технологии Больших Данных.

Основными барьерами для развития Big Data на российском рынке являются:

  • Обеспечение безопасности и конфиденциальности данных;
  • Нехватка квалифицированных кадров;
  • Недостаточность накопленных информационных ресурсов до уровня Big Data в большинстве российских компаний;
  • Сложности внедрения новых технологий в устоявшиеся информационные системы компаний;
  • Высокая стоимость технологий Больших Данных, что приводит к ограниченному кругу предприятий, имеющих возможность внедрить данные технологии;
  • Политическая и экономическая неопределенность, приведшая к оттоку капитала и заморозке инвестиционных проектов на территории России;
  • Рост цен на импортную продукцию и всплеск инфляции, по мнению IDC, тормозят развитие всего рынка ИТ.
Прогноз российского рынка
По состоянию на сегодняшний день, российский рынок Больших Данных не настолько популярен как в развитых странах. Большинство российских компаний проявляют интерес к нему, но воспользоваться их возможностями не решаются.
Примеры крупных компаний, которые уже извлекли выгоду от использования технологий Больших Данных, расширяют осознание возможностей данных технологий.
У аналитиков также достаточно оптимистичные прогнозы относительно российского рынка. IDC считает, что доля российского рынка за следующие 5 лет увеличится, в отличии от рынка Германии и Японии.
К 2020 году объем Big Data России вырастет с нынешних 1,8% до 2,2% от общемирового объема данных. Количество информации вырастет, по данным EMC, с нынешних 155 эксабайт до 980 эксабайт в 2020 году.
В настоящий момент в России продолжается накопление объема информации до уровня Больших Данных.
Согласно опросу CNews Analytics, 44% опрошенных компаний работают с данными не более 100 терабайт* и лишь 13% работают с объемами выше 500 терабайт.

Тем не менее российский рынок, следуя мировым тенденциям, будет увеличиваться. По состоянию на 2014 год объем рынка компания IDC оценивает в 340 млн долл. США.
Темп роста рынка за предыдущие годы составлял 50% в год, если он останется на прежнем уровне, то уже в 2018 году объем рынка достигнет 1,7 млрд долл. США. Доля российского рынка в мировом составит около 3%, увеличившись с нынешних 1,2%.

К наиболее восприимчивым отраслям к использованию Big Data в России относятся:

  • Ритейл и банки, для них прежде всего важен анализ клиентской базы, оценка эффекта маркетинговых кампаний;
  • Телеком – сегментация клиентской базы и монетизация трафика;
  • Госсектор – ведение отчетности, анализ заявок от населения и др.;
  • Нефтяные компании – мониторинг работ и планирование добычи и сбыта;
  • Энергетические компании – создание интеллектуальных электроэнергетических систем, оперативный мониторинг и прогнозирование.
В развитых странах Big Data получила широкое распространение в сферах здравоохранения, страховании, металлургии, интернет-компаниях и на производственных предприятиях, скорее всего в ближайшем будущем российские компании из данных сфер также оценят эффект внедрения Big Data и будут приспосабливать данные технологии в своих отраслях.
В России также, как и в мире, в ближайшем будущем будет наблюдаться тренд на визуализацию данных, анализ медиа файлов и развитию интернета вещей.
Несмотря на общую стагнацию экономики, в ближайшие годы аналитики прогнозируют дальнейший рост рынка Больших Данных, в первую очередь это связано с тем, что использование технологий Больших Данных дает конкурентное преимущество ее пользователям в части повышения операционной эффективности бизнеса, привлечения дополнительного потока клиентов, минимизации рисков и внедрения технологий прогнозирования данных.
Таким образом, можно заключить, что сегмент Big Data в России находится на стадии формирования, но спрос на данные технологии с каждым годом увеличивается.

Основные результаты анализа рынка

Мировой рынок
По итогам 2014 года рынок Больших Данных характеризуется следующими параметрами:
  • объем рынка составил 28,5 млрд долл. США, увеличившись на 45% по сравнению с предыдущим годом;
  • большую часть выручки рынка Big Data составили сервисные услуги, их доля была равно 40% в общем объеме выручки;
  • 36% выручки принесли приложения и аналитика Больших Данных, 17% - вычислительное оборудование и 15% - технологии хранения данных;
  • наибольшей популярностью для решения проблем Больших Данных пользуются in-memory платформы таких компаний, как SAP, HANA и Oracle.
  • на 125% увеличилось количество компаний с реализованными проектами в сфере управления Большими Данными;
Прогноз рынка на следующие годы выглядит следующим образом:
  • в 2015 году объем рынка достигнет 38,4 млрд долл. США, в 2020 году – 68,7 млрд долл. США;
  • средний темп роста будет равен 16% ежегодно;
  • средние затраты компании на технологии Больших Данных составят 13,8 млн долл. США для крупных компаний и 1,6 млн долл. США для малого и среднего бизнеса;
  • технологии будут иметь наибольшую распространенность в сферах клиентского сервиса и точечного маркетинга;
  • в 2017 году изменится общемировая структура рынка в сторону преобладания компаний-пользователей из развивающихся стран.
Российский рынок
Российский рынок Больших Данных находится на стадии формирования, результаты 2014 года выглядят следующим образом:
  • объем рынка достиг 340 млн долл. США;
  • средний темп роста рынка в предыдущие годы составил 50% ежегодно;
  • общий объем накопленной информации составил 155 эксабайт;
  • 10% российских компаний начали использовать технологии Больших Данных;
  • большей популярностью технологии Больших Данных пользовались в банковской сфере, телекоме, интернет-компаниях и ритейле.
Прогноз российского рынка на ближайшие годы выглядит следующим образом:
  • объем рынка России в 2015 году достигнет 500 млн долл. США, а в 2018 году – 1,7 млрд долл. США;
  • доля российского рынка в мировом составит около 3% в 2018 году;
  • количество накопленных данных в 2020 году составит 980 эксабайт;
  • объем данных вырастет до 2,2% от общемирового объема данных в 2020 году;
  • наибольшую популярность приобретут технологии визуализации данных, анализа медиа файлов и интернета вещей.
По результатам анализа можно сделать вывод о том, что рынок Big Data все еще находится на ранних стадиях развития, и в ближайшем будущем мы будем наблюдать его рост и расширение возможностей данных технологий.

Спасибо, что уделили время прочтению этой объемной работы, подписывайтесь на наш блог - обещаем много новых интересных публикаций!

Большие данные (или Big Data) - это совокупность методов работы с огромными объёмами структурированной или неструктурированной информации. Специалисты по работе с большими данными занимаются её обработкой и анализом для получения наглядных, воспринимаемых человеком результатов. Look At Me поговорил с профессионалами и выяснил, какова ситуация с обработкой больших данных в России, где и чему лучше учиться тем, кто хочет работать в этой сфере.

Алексей Рывкин об основных направлениях в сфере больших данных, общении с заказчиками и мире чисел

Я учился в Московском институте электронной техники. Главное, что мне удалось оттуда вынести, - это фундаментальные знания по физике и математике. Одновременно с учёбой я работал в R&D-центре, где занимался разработкой и внедрением алгоритмов помехоустойчивого кодирования для средств защищённой передачи данных. После окончания бакалавриата я поступил в магистратуру бизнес-информатики Высшей школы экономики. После этого я захотел работать в IBS. Мне повезло, что в то время в связи с большим количеством проектов шёл дополнительный набор стажёров, и после нескольких собеседований я начал работать в IBS, одной из крупнейших российских компаний этой области. За три года я прошёл путь от стажёра до архитектора корпоративных решений. Сейчас занимаюсь развитием экспертизы технологий Big Data для компаний-заказчиков из финансового и телекоммуникационного сектора.

Есть две основные специализации для людей, которые хотят работать с большими данными: аналитики и ИТ-консультанты, которые создают технологии для работы с большими данными. Кроме того, можно также говорить о профессии Big Data Analyst, т. е. людях, которые непосредственно работают с данными, с ИТ-платформой у заказчика. Раньше это были обычные аналитики-математики, которые знали статистику и математику и с помощью статистического ПО решали задачи по анализу данных. Сегодня, помимо знания статистики и математики, необходимо также понимание технологий и жизненного цикла данных. В этом, на мой взгляд, и заключается отличие современных Data Analyst от тех аналитиков, которые были прежде.

Моя специализация - ИТ-консалтинг, то есть я придумываю и предлагаю заказчикам способы решения бизнес-задач с помощью ИТ-технологий. В консалтинг приходят люди с различным опытом, но самые важные качества для этой профессии - это умение понимать потребности клиента, стремление помогать людям и организациям, хорошие коммуникационные и командные навыки (поскольку это всегда работа с клиентом и в команде), хорошие аналитические способности. Очень важна внутренняя мотивация: мы работаем в конкурентной среде, и заказчик ждёт необычных решений и заинтересованности в работе.

Большая часть времени у меня уходит на общение с заказчиками, формализацию их бизнес-потребностей и помощь в разработке наиболее подходящей технологической архитектуры. Критерии выбора здесь имеют свою особенность: помимо функциональных возможностей и ТСО (Total cost of ownership - общая стоимость владения) очень важны нефункциональные требования к системе, чаще всего это время отклика, время обработки информации. Чтобы убедить заказчика, мы часто используем подход proof of concept - предлагаем бесплатно «протестировать» технологию на какой-то задаче, на узком наборе данных, чтобы убедиться, что технология работает. Решение должно создавать для заказчика конкурентное преимущество за счёт получения дополнительных выгод (например, x-sell , кросс-продажи) или решать какую-то проблему в бизнесе, скажем, снизить высокий уровень мошенничества по кредитам.

Было бы гораздо проще, если бы клиенты приходили с готовой задачей, но пока они не понимают, что появилась революционная технология, которая может изменить рынок за пару лет

С какими проблемами приходится сталкиваться? Рынок пока не готов использовать технологии «больших данных». Было бы гораздо проще, если бы клиенты приходили с готовой задачей, но пока они не понимают, что появилась революционная технология, которая может изменить рынок за пару лет. Именно поэтому мы, по сути, работаем в режиме стартапа - не просто продаём технологии, но и каждый раз убеждаем клиентов, что нужно в эти решения инвестировать. Это такая позиция визионеров - мы показываем заказчикам, как можно поменять свой бизнес с привлечением данных и ИТ. Мы создаем этот новый рынок - рынок коммерческого ИТ-консалтинга в области Big Data.

Если человек хочет заниматься дата-анализом или ИТ-консалтингом в сфере Big Data, то первое, что важно, - это математическое или техническое образование с хорошей математической подготовкой. Также полезно освоить конкретные технологии, допустим SAS , Hadoop , язык R или решения IBM. Кроме того, нужно активно интересоваться прикладными задачами для Big Data - например, как их можно использовать для улучшенного кредитного скоринга в банке или управления жизненным циклом клиента. Эти и другие знания могут быть получены из доступных источников: например, Coursera и Big Data University . Также есть Customer Analytics Initiative в Wharton University of Pennsylvania, где опубликовано очень много интересных материалов.

Серьёзная проблема для тех, кто хочет работать в нашей области, - это явный недостаток информации о Big Data. Ты не можешь пойти в книжный магазин или в на какой-то сайт и получить, например, исчерпывающий сборник кейсов по всем применениям технологий Big Data в банках. Таких справочников не существует. Часть информации находится в книгах, ещё часть собирается на конференциях, а до чего-то приходится доходить самим.

Ещё одна проблема заключается в том, что аналитики хорошо чувствуют себя в мире чисел, но им не всегда комфортно в бизнесе. Такие люди часто интровертны, им трудно общаться, и поэтому им сложно убедительно доносить до клиентов информацию о результатах исследований. Для развития этих навыков я бы рекомендовал такие книги, как «Принцип пирамиды», «Говори на языке диаграмм». Они помогают развить презентационные навыки, лаконично и понятно излагать свои мысли.

Мне очень помогло участие в разных кейс-чемпионатах во время учебы в НИУ ВШЭ. Кейс-чемпионаты - это интеллектуальные соревнования для студентов, где нужно изучать бизнес-проблемы и предлагать их решение. Они бывают двух видов: кейс-чемпионаты консалтинговых фирм, например, McKinsey, BCG, Accenture, а также независимые кейс-чемпионаты типа Changellenge . Во время участия в них я научился видеть и решать сложные задачи - от идентификации проблемы и её структурирования до защиты рекомендаций по её решению.

Олег Михальский о российском рынке и специфике создания нового продукта в сфере больших данных

До прихода в Acronis я уже занимался запуском новых продуктов на рынок в других компаниях. Это всегда интересно и сложно одновременно, поэтому меня сразу заинтересовала возможность работы над облачными сервисами и решениями для хранения данных. В этой сфере пригодился весь мой предыдущий опыт работы в ИТ-отрасли, включая собственный стартап-проект I-accelerator . Помогло также и наличие бизнес-образования (MBA) в дополнение к базовому инженерному.

В России у крупных компаний - банков, мобильных операторов и т. д. - есть потребность в анализе больших данных, поэтому в нашей стране есть перспективы для тех, кто хочет работать в этой области. Правда, многие проекты сейчас являются интеграционными, то есть сделанными на основе зарубежных наработок или open source-технологий. В таких проектах не создаются принципиально новые подходы и технологии, а скорее адаптируются уже имеющиеся наработки. В Acronis мы пошли другим путём и, проанализировав имеющиеся альтернативы, решили вложиться в собственную разработку, создав в результате систему надёжного хранения для больших данных, которая по себестоимости не уступает, например, Amazon S3 , но работает надёжно и эффективно и на существенно меньших масштабах. Собственные разработки по большим данным есть и у крупных интернет-компаний, но они скорее ориентированы на внутренние нужды, чем удовлетворение потребностей внешних клиентов.

Важно понимать тренды и экономические силы, которые влияют на область обработки больших данных. Для этого нужно много читать, слушать выступления авторитетных специалистов в ИТ-индустрии, посещать тематические конференции. Сейчас почти каждая конференция имеет секцию про Big Data, но все они рассказывают об этом под разным углом: с точки зрения технологий, бизнеса или маркетинга. Можно пойти на проектную работу или стажировку в компанию, которая уже ведёт проекты по данной тематике. Если вы уверены в своих силах, то ещё не поздно организовать стартап в сфере Big Data.

Без постоянного контакта с рынком новая разработка рискует оказаться невостребованной

Правда, когда вы отвечаете за новый продукт, много времени уходит на аналитику рынка и общение с потенциальными клиентами, партнёрами, профессиональными аналитиками, которые знают много о клиентах и их потребностях. Без постоянного контакта с рынком новая разработка рискует оказаться невостребованной. Всегда есть много неопределённостей: вы должны понять, кто станут первыми пользователями (early adopters), что у вас есть для них ценного и как затем привлечь массовую аудиторию. Вторая по важности задача - это сформировать и донести до разработчиков чёткое и целостное видение конечного продукта, чтобы мотивировать их на работу в таких условиях, когда некоторые требования ещё могут меняться, а приоритеты зависят от обратной связи, поступающей от первых клиентов. Поэтому важная задача - это управление ожиданиями клиентов с одной стороны и разработчиков с другой. Так, чтобы ни те ни другие не потеряли интерес и довели проект до завершения. После первого успешного проекта становится проще, и главной задачей будет найти правильную модель роста для нового бизнеса.

Только ленивый не говорит о Big data, но что это такое и как это работает - понимает вряд ли. Начнём с самого простого - терминология. Говоря по-русски, Big data - это различные инструменты, подходы и методы обработки как структурированных, так и неструктурированных данных для того, чтобы их использовать для конкретных задач и целей.

Неструктурированные данные - это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

Термин «большие данные» ввёл редактор журнала Nature Клиффорд Линч ещё в 2008 году в спецвыпуске, посвящённом взрывному росту мировых объёмов информации. Хотя, конечно, сами большие данные существовали и ранее. По словам специалистов, к категории Big data относится большинство потоков данных свыше 100 Гб в день.

Читайте также:

Сегодня под этим простым термином скрывается всего два слова - хранение и обработка данных.

Big data - простыми словами

В современном мире Big data - социально-экономический феномен, который связан с тем, что появились новые технологические возможности для анализа огромного количества данных.

Читайте также:

Для простоты понимания представьте супермаркет, в котором все товары лежат не в привычном вам порядке. Хлеб рядом с фруктами, томатная паста около замороженной пиццы, жидкость для розжига напротив стеллажа с тампонами, на котором помимо прочих стоит авокадо, тофу или грибы шиитаке. Big data расставляют всё по своим местам и помогают вам найти ореховое молоко, узнать стоимость и срок годности, а еще - кто, кроме вас, покупает такое молоко и чем оно лучше молока коровьего.

Кеннет Кукьер: Большие данные - лучшие данные

Технология Big data

Огромные объёмы данных обрабатываются для того, чтобы человек мог получить конкретные и нужные ему результаты для их дальнейшего эффективного применения.

Читайте также:

Фактически, Big data - это решение проблем и альтернатива традиционным системам управления данными.

Техники и методы анализа, применимые к Big data по McKinsey:

  • Краудсорсинг;

    Смешение и интеграция данных;

    Машинное обучение;

    Искусственные нейронные сети;

    Распознавание образов;

    Прогнозная аналитика;

    Имитационное моделирование;

    Пространственный анализ;

    Статистический анализ;

  • Визуализация аналитических данных.

Горизонтальная масштабируемость, которая обеспечивает обработку данных - базовый принцип обработки больших данных. Данные распределены на вычислительные узлы, а обработка происходит без деградации производительности. McKinsey включил в контекст применимости также реляционные системы управления и Business Intelligence.

Технологии:

  • NoSQL;
  • MapReduce;
  • Hadoop;
  • Аппаратные решения.

Читайте также:

Для больших данных выделяют традиционные определяющие характеристики, выработанные Meta Group ещё в 2001 году, которые называются «Три V »:

  1. Volume - величина физического объёма.
  2. Velocity - скорость прироста и необходимости быстрой обработки данных для получения результатов.
  3. Variety - возможность одновременно обрабатывать различные типы данных.

Big data: применение и возможности

Объёмы неоднородной и быстро поступающей цифровой информации обработать традиционными инструментами невозможно. Сам анализ данных позволяет увидеть определённые и незаметные закономерности, которые не может увидеть человек. Это позволяет оптимизировать все сферы нашей жизни - от государственного управления до производства и телекоммуникаций.

Например, некоторые компании ещё несколько лет назад защищали своих клиентов от мошенничества, а забота о деньгах клиента - забота о своих собственных деньгах.

Сюзан Этлиджер: Как быть с большими данными?

Решения на основе Big data: «Сбербанк», «Билайн» и другие компании

У «Билайна» есть огромное количество данных об абонентах, которые они используют не только для работы с ними, но и для создания аналитических продуктов, вроде внешнего консалтинга или IPTV-аналитики. «Билайн» сегментировали базу и защитили клиентов от денежных махинаций и вирусов, использовав для хранения HDFS и Apache Spark, а для обработки данных - Rapidminer и Python.

Читайте также:

Или вспомним «Сбербанк» с их старым кейсом под названием АС САФИ. Это система, которая анализирует фотографии для идентификации клиентов банка и предотвращает мошенничество. Система была внедрена ещё в 2014 году, в основе системы - сравнение фотографий из базы, которые попадают туда с веб-камер на стойках благодаря компьютерному зрению. Основа системы - биометрическая платформа. Благодаря этому, случаи мошенничества уменьшились в 10 раз.

Big data в мире

К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители.

Аналитики исследования считают, что данные станут жизненно-важным активом, а безопасность - критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключёнными устройствами около 4800 раз в день.

Рынок Big data в России

Обычно большие данные поступают из трёх источников:

  • Интернет (соцсети, форумы, блоги, СМИ и другие сайты);
  • Корпоративные архивы документов;
  • Показания датчиков, приборов и других устройств.

Big data в банках

Помимо системы, описанной выше, в стратегии «Сбербанка» на 2014-2018 гг. говорится о важности анализа супермассивов данных для качественного обслуживания клиентов, управления рисками и оптимизации затрат. Сейчас банк использует Big data для управления рисками, борьбы с мошенничеством, сегментации и оценки кредитоспособности клиентов, управления персоналом, прогнозирования очередей в отделениях, расчёта бонусов для сотрудников и других задач.

«ВТБ24» пользуется большими данными для сегментации и управления оттоком клиентов, формирования финансовой отчётности, анализа отзывов в соцсетях и на форумах. Для этого он применяет решения Teradata, SAS Visual Analytics и SAS Marketing Optimizer.



Понравилась статья? Поделиться с друзьями: