+7(499)-938-42-58 Москва
+7(800)-333-37-98 Горячая линия

«Большие данные»: как из мухи делают слона

Содержание

Big Data для чайников и гуманитариев | Полезное чтение

«Большие данные»: как из мухи делают слона

Мы регулярно натыкаемся на модные слова и определения, смысл которых нам интуитивно вроде бы понятен, но четкой картины того, что это все-таки за штука и как она работает, у нас нет.

Одним из таких понятий является Big Data, в русском языке иногда можно встретить буквальный перевод — «большие данные», но чаще люди говорят и пишут как есть: Big Data. Все наверняка слышали или, по крайней мере, встречали это словосочетание в интернете, и оно вроде бы несложное, но что конкретно имеется в виду, далеким от тонкостей диджитал-мира офисным гуманитариям понятно не всегда.

Отличной попыткой восполнить этот пробел в мозгах самого широкого круга пользователей является статья одного из наших любимых авторов Бернарда Марра, которая так и называется «Что такое Big Data? Суперпростое объяснение для каждого». Без заумного жаргона с единственной целью объяснить ключевые идеи этого феномена для каждого вне зависимости от образования и сферы деятельности.

На самом деле последние несколько лет мы уже живем в мире, насквозь пронизанном Big Data, но продолжаем путаться в понимании того, что же это все-таки такое.

Отчасти это происходит и потому, что сама по себе концепция Big Data постоянно трансформируется и переосмысляется, потому что мир высоких технологий и обработки больших массивов информации очень быстро меняется, включая в себя все новые и новые опции. А объем этой информации постоянно растет.

Итак, что значит Big Data — 2017?

Все началось со взрывным ростом количества данных, которые мы создаем с начала цифровой эры. Это стало возможным в основном благодаря росту числа и мощности компьютеров, расширению интернета и развитию технологий, способных захватывать информацию из реального, физического мира, в котором все мы живем, и конвертировать ее в цифровые данные.

В 2017-м мы производим данные, когда заходим в интернет, когда пользуемся нашими укомплектованными GPS-смартфонами, когда общаемся с друзьями в соцсетях, скачиваем мобильные приложения или музыку, когда совершаем покупки.

Можно сказать, что мы оставляем за собой множество цифровых следов, что бы мы ни делали, если наши действия включают в себя какие-либо цифровые транзакции. То есть уже почти всегда и везде.

Помимо этого, с огромной скоростью растет количество данных, сгенерированных самими машинами. Данные создаются и передаются, когда наши умные девайсы коммуницируют друг с другом. Производственные предприятия по всему миру оснащаются оборудованием, которое денно и нощно собирает и передает данные.

В ближайшем будущем наши улицы будут заполнены самоуправляемыми автомобилями, самостоятельно прокладывающими маршруты на основе четырехмерных карт, данные которых генерируются в режиме реального времени.

Что может Big Data?

Бесконечно растущий поток сенсорной информации, фотографий, текстовых сообщений, аудио- и видеоданных лежит в основе Big Data, которые мы можем использовать так, как невозможно было даже представить себе несколько лет назад.

Прямо сейчас основанные на Big Data проекты помогают:

— Лечить болезни и предотвращать рак. Основанная на использовании Big Data медицина анализирует огромное количество медицинских записей и снимков, что делает возможным очень раннюю диагностику и способствует созданию новых методов лечения.

— Бороться с голодом. Сельское хозяйство переживает настоящую революцию Big Data, которая позволяет использовать ресурсы так, чтобы максимально увеличить урожайность при минимальном вмешательстве в экосистему и оптимизировать использование машин и оборудования.

— Открывать далекие планеты. НАСА, к примеру, анализирует огромное количество данных и выстраивает с их помощью модели будущих миссий в далекие миры.

— Предсказывать чрезвычайные ситуации различной природы и минимизировать возможный ущерб. Данные многочисленных сенсоров могут предсказать, где и когда произойдет следующее землетрясение или возможное поведение людей в чрезвычайной ситуации, что повышает шансы на выживание.

— Предотвращать преступления за счет использования технологий, которые позволяют более эффективно распределять ресурсы и направлять их туда, где они наиболее необходимы.

И самое близкое большинству из нас: Big Data делает жизнь обычного человека проще и удобнее — это и онлайн-шопинг, и планирование поездок, и навигация в условиях мегаполиса.

Выбрать лучшее время для покупки авиабилетов и решить, какой фильм или сериал посмотреть, стало гораздо легче именно благодаря работе Big Data.

Как это работает?

Big Data работает на принципе: чем больше вы знаете о чем-либо, тем точнее вы можете предсказать, что случится в будущем.

Сравнение отдельных данных и отношений между ними (речь идет об огромном количестве данных и невероятно большом количестве возможных связей между ними) позволяет обнаружить ранее скрытые закономерности.

Это дает возможность заглянуть внутрь проблемы и в конечном итоге понимание того, как мы можем управлять тем или иным процессом.

Чаще всего процесс обработки больших объемов информации включает в себя построение моделей, базирующихся на собранных данных, и запуск симуляций, в процессе которого постоянно меняются ключевые настройки, при этом каждый раз система мониторит, как «смена настроек» влияет на возможный результат.

Этот процесс полностью автоматизирован, ведь речь идет об анализе миллионов симуляций, перебора всех возможных вариантов вплоть до того момента, пока паттерн (нужная схема) не будет найден или пока не случится «просветление», что поможет решить задачу, ради которой все и затевалось.

В отличие от привычного нам мира предметов и вычислений, данные принимаются в неструктурированной форме, то есть их сложно засунуть в привычные нам, людям, таблицы с ячейками и столбиками.

Огромное количество данных передается как изображения или видео: от спутниковых снимков до селфи, которые вы постите в инстаграм или фейсбук, — так же, как записи в email и мессенджер или телефонные звонки.

Чтобы придать всему этому бесконечному и разношерстному потоку данных практический смысл, Big Data часто использует самые передовые технологии анализа, которые включают в себя искусственный интеллект и машинное обучение (это когда программа в компьютере обучает другие программы).

Компьютеры сами обучаются определять, что представляет та или иная информация — например, распознавать изображения, язык, — и они могут делать это намного быстрее, чем люди.

Большой брат?

Пропорционально беспрецедентным возможностям, которые дает нам сегодня Big Data, растет количество опасений и вопросов, связанных с ее использованием.

НЕПРИКОСНОВЕННОСТЬ ЛИЧНЫХ ДАННЫХ. Big Data собирает огромное количество информации о нашей частной жизни. Очень много информации, которую мы предпочли бы сохранить в тайне.

Таким образом, возникает вопрос о поиске баланса между тем, каким количеством персональных данных мы готовы поделиться, и тем, насколько более комфортной может стать наша повседневная жизнь, благодаря тому, что Big Data знает о нас все и делает нам предложения на основании этих знаний. Кому или чему мы можем доверить доступ ко всем этим данным? Стоит ли вообще его кому-то доверять?

БЕЗОПАСНОСТЬ. Даже если мы решили, что в передаче всех наших персональных данных машине ради какой-то конкретной, выгодной нам цели нет ничего страшного, можем ли мы быть уверены, что наши данные хранятся в безопасном месте?
Кто и как может нам это гарантировать?

ДИСКРИМИНАЦИЯ. Когда все известно, допустимо ли подвергать людей дискриминации на основании того, что о них известно благодаря Big Data? Банки используют кредитную историю, а страховые компании определяют стоимость автостраховки, исходя из того, что они знаю о вас. Как далеко это может зайти?

Можно предположить, что ради минимизации рисков компании, государственные органы и даже частные лица будут использовать то, что они могут узнать о нас, и по каким-то соображениям ограничивать нам доступ к ресурсам и информации.

При всех преимуществах мы должны признать, что все эти опасения также являются неотъемлемой частью Big Data. До последнего времени над ответами ломали голову ученые, но сейчас пришло время, когда волна докатилась до бизнеса, который хочет использовать преимущества Big Data в своих целях. А это может быть чревато в том числе и катастрофическими последствиями.

Shutterstock.com, giphy.com

Источник: https://Megaplan.ru/letters/big-data-dlya-chajnikov

Big Data большие данные: что это такое простыми словами и как работает — Жиза

«Большие данные»: как из мухи делают слона

«Большие данные» — это популярная, но сложная тема. Мы разобрались в этих данных: рассказываем, зачем они нужны и почему некоторые люди их боятся.

Что такое данные

Доклад «МакКинси», 2017 год

Данные — это конкретные, измеряемые величины, цифры.

В мире природы данные — это температура или количество осадков. В мире бизнеса — сумма платежа, количество транзакций, остаток на складе, в мире пользователей — возраст, пол, ежемесячный доход, количество друзей в социальных сетях. Данные — измеряемые и объективные.

Представим, что предприниматель хочет узнать свой доход. Для этого он должен оперировать данными: посчитать количество платежей и умножить на сумму каждого платежа. Если он поленится считать и просто прикинет доход на глаз, то данных не получится, будут только предположения. Предположения — неизмеряемые и субъективные.

Человечество окружает очень много данных, целый океан цифр. Это и есть «большие данные». На самом деле термин big data правильней переводить как «много информации», однако у нас уже есть устоявшийся термин. Большие так большие.

Информации может быть действительно очень много. Например, «Шевроле» устанавливает датчики в обычные легковые автомобили.

В 2016 году они накопили и передали в компанию более 4200 терабит информации — хватит, чтобы полностью забить 14 тысяч ноутбуков.

Это сотни видов данных: температура масла в двигателе и воздуха в салоне, скорость движения, давление в шинах, работа подвески. Это типичные «большие данные». «Шевроле» использует их, чтобы совершенствовать будущие модели автомобилей.

Почему «большие данные» стали так популярны

Данные полезны клиентам. С помощью «больших данных» реклама становится точнее. Такая реклама нравится клиентам: она не раздражает и рекламирует действительно полезные товары.

Стоит зайти в интернет-магазин обуви, как обувь начнет преследовать в рекламе на всех сайтах. Это не меняется, даже если купишь ботинки. Глупое дело: если я купил ботинки, зачем мне дальше их показывать? Вряд ли я куплю еще одни.

С «большими данными» магазин узнает, что вы купили обувь. Вместо ботинок вам предложат водоотталкивающий крем — при этом сообщат, что через пару дней будут недельные дожди. А вместе с ним предложат плащ по распродаже и зонтик. Вы же давно не покупали плащей.

С «большими данными» реклама перестанет быть инструментом тупого впаривания товаров, а превращается в полезного советчика.

Данные помогают компаниям конкурировать. Раньше маркетологи опирались на «маленькие данные»: пол, возраст, место жительства потенциальных клиентов. Со временем такие данные появились у всех конкурентов в отрасли. Выделиться было трудно, реклама стала массовой и раздражающей.

С «большими данными» компании научились конкурировать лучше. Они больше не тратят огромные маркетинговые бюджеты на «ковровые бомбардировки» рынка, а точно вычисляют своего клиента по множеству параметров.

Кроме того, бизнес видит, как реклама работает. Раньше у рекламщиков была знаменитая байка про «босс-билборд». Нужно ставить рекламные щиты вдоль дороги, по которой начальник едет на работу, чтобы создать видимость работы. А сегодня бизнесмен может измерить эффективность каждого рекламного сообщения, пробовать разное и корректировать рекламу «на лету».

«Маленькие данные»«Большие данные»
До 20 летМолодые люди от 17 до 20 лет, которые учатся в техническом университете и испытывают проблемы с учебой
Женщины из МосквыНезамужние москвички, которые не состоят в постоянных отношениях и в ближайшее время собираются в отпуск в Таиланд

«Большие данные» помогают бизнесу сделать рекламу полезнее и эффективнее, чем у конкурентов.

Большие данные научились собирать. Технологии добычи больших данных совершенствуются.

РаньшеСейчас
В больнице врач ставил пациенту градусник и записывал температуру в журналК пациенту крепят десятки датчиков: они замеряют пульс, температуру тела и дыхания, состав физиологических жидкостей
Водитель раз в год смотрел на счетчик пробега автомобиля. Если наездил 20 тыс км, то вез машину в сервисДатчики автоматически отправляют пробег и сотни других показателей в сервис, автоматически (как с «Шевроле»). Если что-то сломалось или скоро сломается, то сервис сам шлет сообщение на приборную панель: «Пора к нам»
В магазине просили заполнить анкету: имя, пол, возраст. Потом поздравляли с днем рождения по смсВ магазине связывают платежные данные с профилями в соцсетях, а потом — с историей поиска. Если женщина гуглит «Уход за новорожденными», ей предлагают подгузники со скидкой

Считается, что раньше все было теплое, аналоговое и родное, а сейчас появились какие-то большие данные. Но это ерунда, «большие данные» были всегда — просто их раньше не умели собирать, или это было слишком дорого. Технологии их сбора и обработки будут улучшаться, данных станет еще больше. Вы удивитесь тому, что будет через несколько лет.

Высший пилотаж — получать «больше данные» необычным способом. Так в компании «Джабон» смогли определить эпицентр землетрясения в Калифорнии.

Они исследовали данные с фитнес-браслетов тысяч пользователей и выяснили, во сколько они проснулись во время землетрясения (чем раньше, тем ближе к эпицентру).

Трудно навешать на людей кучу современных датчиков — специалисты по «большим данным» будут придумывать, как добыть то, что уже есть.

Большие данные научились обрабатывать. Данные сами по себе — это просто цифры. Чтобы получить от них пользу, их нужно проанализировать: найти закономерности, научиться делать выводы. Это сложная математическая задача, которая требует компьютерных мощностей.

Мощности становятся все дешевле. С 2000 года стоимость хранения гигабайта информации снизилась в 450 раз. Компании пользуются этим.

Например, Яндекс обрабатывает 10 терабайт «больших данных» в сутки, и с их помощью мгновенно реагирует на поведение людей в поиске.

А «Ай-Би-Эм» построил специальный дата-центр, который может сохранить 192 Гб данных в секунду. Вжух и он «всосал» за секунду все данные с вашего компьютера.

Большие данные — это этично?

Мы привыкли считать, что данные принадлежат нам. Наши аудиозаписи, фотографии — они наши, но почему кто-то может использовать данные с фитнес-трекера, историю поиска или финансовые транзакции? Ну и вообще страшно жить в мире, где все всё про тебя знают.

Обработкой больших данных занимаются алгоритмы. Они работают автоматически, перерабатывают сотни миллионов, миллиарды записей — находят закономерности, связывают данные друг с другом, делают предсказания. Подсмотреть за этим процессом очень трудно.

Работа с большими данными похожа на работу современной фотолаборатории. Тысячи клиентов сдают пленку на проявку и оцифровку. Каждой пленке выдается свой номер, за которым прячут имя, почту и телефон.

Когда лаборант проявляет пленки, он не знает, чьи они. Сканирует пленки и отправляет их клиентам машина, человек за этим не следит. Система настроена так, чтобы человек не подсматривал.

А в системе обработки «больших данных» обрабатывается в миллионы раз больше информации — подсмотреть еще сложней.

Компании обмениваются большим данными друг с другом и продают их. Автопроизводитель передает данные в страховую компанию, авиакомпания сообщает информацию о полетах сотовому оператору. Данные передаются обезличенно. Словно из одной фотолаборатории катушки под номерами передаются в другую, а потом — в третью. Алгоритмы работают «в темноте», подсмотреть за ними очень трудно.

⌘ ⌘ ⌘

Возможно, через несколько лет технологии разовьются еще сильнее, чем сейчас. Мы научимся получать, сохранять и обрабатывать тысячи, миллионы параметров «на лету».

Представьте рекламный сервис, который в режиме реального времени анализирует ваш пульс, настроение музыкальных треков и характер личной переписки. В результате он советует товары, которые подходят под эмоциональное состояние.

Бездушная машина понимает, что человек недавно расстался с любимым и, возможно, хочет сбежать подальше из города, чтобы развеяться — хотя человек еще никому не успел об этом рассказать.

Иллюстратор Ivan Might

Источник: http://Blog.Evotor.ru/chto-takoe-bolshie-dannye/

Big Data – что такое системы больших данных? Развитие технологий Big Data

«Большие данные»: как из мухи делают слона

Под термином «большие данные» буквально понимают огромный объем хранящейся на каком-либо носителе информации. Причем данный объем настолько велик, что обрабатывать его с помощью привычных программных или аппаратных средств нецелесообразно, а в некоторых случаях и вовсе невозможно.

Big Data – это не только сами данные, но и технологии их обработки и использования, методы поиска необходимой информации в больших массивах. Проблема больших данных по-прежнему остается открытой и жизненно важной для любых систем, десятилетиями накапливающих самую разнообразную информацию.

С данным термином связывают выражение «Volume, Velocity, Variety» – принципы, на которых строится работа с большими данными. Это непосредственно объем информации, быстродействие ее обработки и разнообразие сведений, хранящихся в массиве.

В последнее время к трем базовым принципам стали добавлять еще один – Value, что обозначает ценность информации.

То есть, она должна быть полезной и нужной в теоретическом или практическом плане, что оправдывало бы затраты на ее хранение и обработку.

В качестве примера типичного источника больших данных можно привести социальные сети – каждый профиль или публичная страница представляет собой одну маленькую каплю в никак не структурированном океане информации. Причем независимо от количества хранящихся в том или ином профиле сведений взаимодействие с каждым из пользователей должно быть максимально быстрым.

Большие данные непрерывно накапливаются практически в любой сфере человеческой жизни. Сюда входит любая отрасль, связанная либо с человеческими взаимодействиями, либо с вычислениями.

Это и социальные медиа, и медицина, и банковская сфера, а также системы устройств, получающие многочисленные результаты ежедневных вычислений.

Например, астрономические наблюдения, метеорологические сведения и информация с устройств зондирования Земли.

Big Data на российском рынке наружной рекламы Информация со всевозможных систем слежения в режиме реального времени также поступает на сервера той или иной компании. Телевидение и радиовещание, базы звонков операторов сотовой связи – взаимодействие каждого конкретного человека с ними минимально, но в совокупности вся эта информация становится большими данными.

Технологии больших данных стали неотъемлемыми от научно-исследовательской деятельности и коммерции. Более того, они начинают захватывать и сферу государственного управления – и везде требуется внедрение все более эффективных систем хранения и манипулирования информацией.

Впервые термин «большие данные» появился в прессе в 2008 году, когда редактор журнала Nature Клиффорд Линч выпустил статью на тему развития будущего науки с помощью технологий работы с большим количеством данных.

До 2009 года данный термин рассматривался только с точки зрения научного анализа, но после выхода еще нескольких статей пресса стала широко использовать понятие Big Data – и продолжает использовать его в настоящее время.

В 2010 году стали появляться первые попытки решить нарастающую проблему больших данных. Были выпущены программные продукты, действие которых было направлено на то, чтобы минимизировать риски при использовании огромных информационных массивов.

К 2011 году большими данными заинтересовались такие крупные компании, как Microsoft, Oracle, EMC и IBM – они стали первыми использовать наработки Big data в своих стратегиях развития, причем довольно успешно.

ВУЗы начали проводить изучение больших данных в качестве отдельного предмета уже в 2013 году – теперь  проблемами в этой сфере занимаются не только науки о данных, но и инженерия вкупе с вычислительными предметами.

К основным  методам анализа и обработки данных можно отнести следующие:

  1. Методы класса или глубинный анализ (Data Mining).

Данные методы достаточно многочисленны, но их объединяет одно: используемый математический инструментарий в совокупности с достижениями из сферы информационных технологий.

Данная методика позволяет получать данные одновременно из нескольких источников, причем количество последних практически не ограничено.

Из всего объема данных выбирается контрольная совокупность элементов, которую поочередно сравнивают с другими подобными совокупностями, где был изменен один из элементов.

Проведение подобных тестов помогает определить, колебания какого из параметров оказывают наибольшее влияние на контрольную совокупность.

Благодаря объемам Big Data можно проводить огромное число итераций, с каждой из них приближаясь к максимально достоверному результату.

Специалисты в данной области стараются заранее предугадать и распланировать то, как будет вести себя подконтрольный объект, чтобы принять наиболее выгодное в этой ситуации решение.

  1. Машинное обучение (искусственный интеллект).

Основывается на эмпирическом анализе информации и последующем построении алгоритмов самообучения систем.

Наиболее распространенный метод для исследования социальных сетей – после получения статистических данных анализируются созданные в сетке узлы, то есть взаимодействия между отдельными пользователями и их сообществами.

В 2017 году, когда большие данные перестали быть чем-то новым и неизведанным, их важность не только не уменьшилась, а еще более возросла. Теперь эксперты делают ставки на то, что анализ больших объемов данных станет доступным не только для организаций-гигантов, но и для представителей малого и среднего бизнеса. Такой подход планируется реализовать с помощью следующих составляющих:

Хранение и обработка данных становятся более быстрыми и экономичными – по сравнению с расходами на содержание собственного дата-центра и возможное расширение персонала аренда облака представляется гораздо более дешевой альтернативой.

Так называемые «темные данные» – вся неоцифрованная информация о компании, которая не играет ключевой роли при непосредственном ее использовании, но может послужить причиной для перехода на новый формат хранения сведений.

  • Искусственный интеллект и Deep Learning.

Технология обучения машинного интеллекта, подражающая структуре и работе человеческого мозга, как нельзя лучше подходит для обработки большого объема постоянно меняющейся информации. В этом случае машина сделает все то же самое, что должен был бы сделать человек, но при этом вероятность ошибки значительно снижается.

Эта технология позволяет ускорить и упростить многочисленные интернет-транзакции, в том числе международные. Еще один плюс Блокчейна в том, что благодаря ему снижаются затраты на проведение транзакций.

  • Самообслуживание и снижение цен.

В 2017 году планируется внедрить «платформы самообслуживания» – это бесплатные площадки, где представители малого и среднего бизнеса смогут самостоятельно оценить хранящиеся у них данные и систематизировать их.

Все маркетинговые стратегии так или иначе основаны на манипулировании информацией и анализе уже имеющихся данных. Именно поэтому использование больших данных может предугадать и дать возможность скорректировать дальнейшее развитие компании.

Методы машинного обучения для бизнеса

К примеру, RTB-аукцион, созданный на основе больших данных, позволяет использовать рекламу более эффективно – определенный товар будет показываться только той группе пользователей, которая заинтересована в его приобретении.

Чем выгодно применение технологий больших данных в маркетинге и бизнесе?

  1. С их помощью можно гораздо быстрее создавать новые проекты, которые с большой вероятностью станут востребованными среди покупателей.
  2. Они помогают соотнести требования клиента с существующим или проектируемым сервисом и таким образом подкорректировать их.

  3. Методы больших данных позволяют оценить степень текущей удовлетворенности всех пользователей и каждого в отдельности.
  4. Повышение лояльности клиентов обеспечивается за счет методов обработки больших данных.
  5. Привлечение целевой аудитории в интернете становится более простым благодаря возможности контролировать огромные массивы данных.

Например, один из самых популярных сервисов для прогнозирования вероятной популярности того или иного продукта – Google.trends. Он широко используется маркетологами и аналитиками, позволяя им получить статистику использования данного продукта в прошлом и прогноз на будущий сезон.

Это позволяет руководителям компаний более эффективно провести распределение рекламного бюджета, определить, в какую область лучше всего вложить деньги.

Активное внедрение технологий Big Data на рынок и в современную жизнь началось как раз после того, как ими стали пользоваться всемирно известные компании, имеющие клиентов практически в каждой точке земного шара.

Это такие социальные гиганты, как и Google, IBM., а также финансовые структуры вроде Master Card, VISA и Bank of America.

К примеру, IBM применяет методы больших данных к проводимым денежным транзакциям. С их помощью было выявлено на 15% больше мошеннических транзакций, что позволило увеличить сумму защищенных средств на 60%. Также были решены проблемы с ложными срабатываниями системы – их число сократилось более, чем наполовину.

Компания VISA аналогично использовала Big Data, отслеживая мошеннические попытки произвести ту или иную операцию. Благодаря этому ежегодно они спасают от утечки более 2 млрд долларов США.

Министерство труда Германии сумело сократить расходы на 10 млрд евро, внедрив систему больших данных в работу по выдаче пособий по безработице. При этом было выявлено, что пятая часть граждан данные пособия получает безосновательно.

Big Data не обошли стороной и игровую индустрию. Так, разработчики World of Tanks провели исследование информации обо всех игроках и сравнили имеющиеся показатели их активности. Это помогло спрогнозировать возможный будущий отток игроков – опираясь на сделанные предположения, представители организации смогли более эффективно взаимодействовать с пользователями.

К числу известных организаций, использующих большие данные, можно также отнести HSBC, Nasdaq, Coca-Cola, Starbucks и AT&T.

Самой большой проблемой больших данных являются затраты на их обработку. Сюда можно включить как дорогостоящее оборудование, так и расходы на заработную плату квалифицированным специалистам, способным обслуживать огромные массивы информации. Очевидно, что оборудование придется регулярно обновлять, чтобы оно не теряло минимальной работоспособности при увеличении объема данных.

Вторая проблема опять же связана с большим количеством информации, которую необходимо обрабатывать. Если, например, исследование дает не 2-3, а многочисленное количество результатов, очень сложно остаться объективным и выделить из общего потока данных только те, которые окажут реальное влияние на состояние какого-либо явления.

Проблема конфиденциальности Big Data. В связи с тем, что большинство сервисов по обслуживанию клиентов переходят на онлайн-использование данных, очень легко стать очередной мишенью для киберпреступников. Даже простое хранение личной информации без совершения каких-либо интернет-транзакций может быть чревато нежелательными для клиентов облачных хранилищ последствиями.

Проблема потери информации. Меры предосторожности требуют не ограничиваться простым однократным резервированием данных, а делать хотя бы 2-3 резервных копии хранилища. Однако с увеличением объема растут сложности с резервированием – и IT-специалисты пытаются найти оптимальное решение данной проблемы.

По данным на 2014 год 40% объема рынка больших данных составляют сервисные услуги. Немного уступает (38%) данному показателю выручка от использования Big Data в компьютерном оборудовании. Оставшиеся 22% приходятся на долю программного обеспечения.

Наиболее полезные в мировом сегменте продукты для решения проблем Big Data, согласно статистическим данным, – аналитические платформы In-memory и NoSQL . 15 и 12 процентов рынка соответственно занимают аналитическое ПО Log-file и платформы Columnar. А вот Hadoop/MapReduce на практике справляются с проблемами больших данных не слишком эффективно.

Результаты внедрения технологий больших данных:

  • рост качества клиентского сервиса;
  • оптимизация интеграции в цепи поставок;
  • оптимизация планирования организации;
  • ускорение взаимодействия с клиентами;
  • повышение эффективности обработки запросов клиентов;
  • снижение затрат на сервис;
  • оптимизация обработки клиентских заявок.

Подойдет для первоначального изучения технологий обработки больших данных – легко и понятно вводит в курс дела. Дает понять, как обилие информации повлияло на повседневную жизнь и все ее сферы: науку, бизнес, медицину и т. д. Содержит многочисленные иллюстрации, поэтому воспринимается без особых усилий.

«Introduction to Data Mining», Панг-Нинг Тан, Майкл Стейнбах и Випин Кумар

Также полезная для новичков книга по Big Data, объясняющая работу с большими данными по принципу «от простого к сложному». Освещает многие немаловажные на начальном этапе моменты: подготовку к обработке, визуализацию, OLAP, а также некоторые методы анализа и классификации данных.

«Python Machine Learning», Себастьян Рашка

Практическое руководство по использованию больших данных и работе с ними с применением языка программирования Python. Подходит как студентам инженерных специальностей, так и специалистам, которые хотят углубить свои знания.

«Hadoop for Dummies», Дирк Дерус, Пол С. Зикопулос, Роман Б. Мельник

Hadoop – это проект, созданный специально для работы с распределенными программами, организующими выполнение действий на тысячах узлов одновременно. Знакомство с ним поможет более детально разобраться в практическом применении больших данных.

Источник: https://promdevelop.ru/big-data/

Большие данные: где их достать и как анализировать? — Обзоры Софта

«Большие данные»: как из мухи делают слона

Все говорят о больших данных (Big Data), извлечении информации из социальных сетей и интернет-содержимого. А вы когда-либо задавались вопросом как это делается? 

В данной статье, используя 3 сервиса и технологии, я коротко затрону 3 основных шага для извлечения, индексирования и анализа больших данных. Допустим, мы хотим проанализировать то, что говорят люди о проблемах, связанных с операционной системой Android.

Шаг первый извлечение данных

Если вы хотите извлечь информацию из сети, сначала вам необходимо получить данные, которые вы хотите проанализировать. Это могут быть новости, ветки обсуждений обзоров и записей блогов. Лично я рекомендую для извлечения данных использовать сервис Webhose.

io (предупреждение: я один из его основателей), так как он предлагает достоверные и структурированные оперативные данные, которые вы можете фильтровать по запросу, типу источника, языку и т. д. Агенты Webhose.

io посещают сотни тысяч открытых источников, ежедневно загружая миллионы статей, так что вы можете получить доступ к огромному объему данных.

Для достижения нашей цели нам необходимо искать ветки обсуждений (из форумов) на английском, которые ведутся в тех разделах сайта, где заголовок раздела содержит ключевое слово “Android”.

Используя мастера поиска Webhose.io, мы создадим конечную точку API, которая будет выглядеть следующим образом:
https://webhose.io/search?token=&format=json&q=thread.section_title%3A(android)&language=english&site_type=discussions

С помощью этого мы получим форматированный JSON результат, который нам необходимо индексировать.

Шаг второй индексирование данных

Если вы работаете с гигабайтами данных и хотите иметь возможность отфильтровать их и выполнять поиск среди этих данных, вам необходимо индексировать их в поисковой системе. Этот шаг не обязателен в нашем примере, так как мы уже нашли и отфильтровали данные. Тем не менее, я хотел бы коротко пройтись по нескольким решениям этого вопроса.

Существует несколько простых решений типа “поиска как услуга” (англ. Search as a Service), которые вы можете использовать для хранения и индексирования своих данных в режиме онлайн:

  • Amazon CloudSearch полностью управляемый сервис на облаке, который упрощает процесс настройки, управления и масштабирования поискового решения.
  • SearchBlox готовое поисковое решение.
  • IndexDen поиск как услуга по всему тексту (могут скоро закрыться).

Существуют также и другие решения, требующие установки и кодирования:

  • ElasticSearch программное обеспечение, распространяемое с открытым исходным кодом, для поиска в реальном времени (англ. Open Source Distributed Real Time Search).
  • Solr платформа для корпоративного поиска с открытым исходным кодом (англ. Open source enterprise search platform).

Если масштабы проекта, над которым вы работаете, будут увеличиваться, то я советую использовать ElasticSearch или Solr. Если вы создаете подтверждение концепции или небольшой проект, тогда я советую использовать аутсорсинговый сервис, так как его проще всего настроить.

Шаг третий анализ данных

Чтобы начать понимать, что же происходит вокруг темы “Android”, вам необходимо извлечь ветки обсуждений и слова, выражающие общее настроение по данной теме. Предлагаю вам воспользоваться Semantria для извлечения важных моментов и общего настроения вокруг них вместе с темами и категориями. Чтобы понимать, что же делает Semantria, вы можете воспользоваться демоверсией данного сервиса.

Вы также можете изменить порядок шага 2 и шага 3, и, перед индексированием статьи, извлечь общее настроение статьи, основные моменты и темы. Проделав все это, позже вы сможете выполнить поиск и найти только те статьи, которые содержат определенные основные моменты в сопровождении определенного настроения.

Заключение

При анализе больших данных три вышеописанных шага являются обязательными, но это еще далеко не полная цепочка действий. В случае со сложными задачами, которые могут потребовать длительного времени, вам может понадобится использовать кластер Hadoop для распределения работы.

Возможно, вам будет нужно интегрировать внутренние коммерческие данные поверх полученных вами веб-данных, использовать перекрёстные ссылки и определять тенденции.

На самом деле, большие данные еще больше, чем описывается в данной статье, но я все же надеюсь, что я смог хоть немного помочь лучше понять некоторые из задействованных процессов.

Источник: https://ergonotes.ru/bolshie-dannyie/

Как наука о больших данных меняет образование и делает обучение увлекательным

«Большие данные»: как из мухи делают слона

Александр Рыжов

Доктор технических наук, профессор, ведущий специалист uchi.ru, доцент кафедры математической теории интеллектуальных систем механико-математического факультета МГУ им. М.В.Ломоносова, профессор РАНХиГС при Президенте РФ

Раньше специальности менялись раз в несколько поколений, и если твой прадед был кузнецом, то это значило, что твой отец — кузнец и ты сам тоже будешь кузнецом. В наши дни человек за жизнь несколько раз меняет профессию.

Многие профессии просто исчезают, другие трансформируются до неузнаваемости, и людям приходится переучиваться.

Запрос на массовое переобучение стоит на повестке дня, но при этом технологии обучения принципиально не меняются на протяжении нескольких веков.

Раньше ты мог учиться только у условного Пифагора. А если ты жил в деревне, в которой Пифагора не было, то доступ к знаниям у тебя отсутствовал. Позже стали появляться книги, и фигура учителя постепенно отошла на второй план: из генератора знаний он превратился в их проводника.

С XV века, когда возникло массовое книгопечатание, ничего кардинально не поменялось. Был бумажный учебник — стал айпэд, была деревянная доска — стала электронная, был мел — стал фломастер. Нет особой разницы между книгой профессора и его лекцией на ютьюбе. Просто текст превратился в кино.

Объем знания и его контроль остались такими же.

Нас в школе заставляли писать специальным пером и считали, что детям до 4 класса ни в коем случае нельзя пользоваться шариковой ручкой, — сейчас это никому не придет в голову. Но нужно включать в коммуникацию новые технологии, без них детям учиться неинтересно. «Убери айфон, спрячь планшет» — это все равно что попросить ребенка начать царапать пером тетрадь.

Подробности по теме

Где слушать лучшие подкасты и лекции о науке и культуре

Где слушать лучшие подкасты и лекции о науке и культуре

Используя большие данные, мы должны научиться подавать материал так, чтобы человеку было интересно учиться. В других областях жизни — в финансах, ретейле, страховании — большие данные уже используются давно: мы знаем, что любят есть на обед те, кому нравится классическая музыка, и какую машину купит семья с двумя детьми и собакой.

В ретейле все началось с IT-директора сети магазинов Walmart, который опирался на большие данные и выявлял важные закономерности. Например, то, что пиво должно стоять на полке рядом с чипсами, очевидно; но однажды, анализируя чеки, он обнаружил, что в пятницу вечером пиво надо продавать вместе с памперсами. И это действительно сработало.

В образовании можно делать то же самое — выявлять закономерности и использовать их: условно говоря, дети, живущие в Казани, готовы решать сложные задачи в солнечную погоду с утра, а дети из Нарьян-Мара такие же задачи лучше решают в плохую погоду после обеда.

Если есть данные о местоположении учеников, погоде в регионе и проценте положительных решений, то вычислить это несложно.

Такие неочевидные закономерности, носящие объективный характер, могут составить основу новой научно-инженерной дисциплины, которую можно назвать «вычислительная педагогика».

Подробности по теме

20 приложений и веб-сервисов в помощь школьникам

20 приложений и веб-сервисов в помощь школьникам

В школьной системе традиционно есть ученик, есть учитель и есть условные формы контроля знаний.

Но возможно разработать такие алгоритмы, которые позволят создавать информационный образ ученика и учителя, персонифицировать процесс обучения и детально контролировать все стадии усвоения материала.

Обучение будет похоже на уроки с репетитором, только репетитором будет компьютер. Мы строим такую платформу, которая снимает с ученика разные данные и понимает, как конкретный человек учится.

Если мы можем фиксировать, где ученик ошибается, что решает быстро, что решает медленно, когда отвлекается, то мы можем составить его детальный портрет.

Сколько на что потратил времени, правильно решил или нет, много ли водил мышкой по экрану, сколько раз решал одну и ту же задачу — мы формируем огромный дата-центр, который позволяет давать ребенку вариативный контент. Система сама решает, какую задачу предложить, и распознает, когда ученик отвлекся или устал.

Мы уже можем посмотреть, как выглядит профиль умного ученика, что есть общего у двоечников, чем одна школа отличается от другой. Эта система — рентген, который позволяет нам видеть, что происходит в процессе обучения с конкретным учеником, школой, городом, регионом.

Мы можем классифицировать учеников — очень умные, средние и не самые способные ученики. В целом есть два типа школьников, которых мы научились вычислять: те, кто начинает быстро и потом устает, и те, кто начинает медленно и разгоняется. Под них тоже можно адаптировать систему, которая в перспективе будет учитывать все — наличие шума, погодные условия, освещенность, данные трекеров, пульс.

Внутри этого очень серьезная математика, ничуть не уступающая той, что лежит в основе алгоритмов, рекомендующих вам купить новый миксер на «Яндексе». Это те же CRM-системы, но используются они в образовании.

Мы начали с обучения математике, сейчас доступны задания школьной программы до 6-го класса, но вообще это можно делать с любым предметом.

Существенная роль учителя сохранится еще долгое время, и никакая система не заменит Пифагора. Но для задач массового и корпоративного образования компьютерные системы могут быть крайне эффективными. Как минимум они помогут экономить время.

Интеллектуальные системы, работающие на уровне лучшего учителя, будет доступны в любой школе. Тогда нам удастся преодолеть понятие цифрового неравенства, сократить барьеры обучения детей с ограниченными возможностями. Из двоечника нельзя сделать вундеркинда, но подтянуть его можно.

И все благодаря персонифицированному подходу и умному компьютеру, который знает все о том, как вы усваиваете материал.

С самого рождения нас форматируют — сначала родители (объясняют, что можно делать, а что нельзя), потом школьные учителя, университетские преподаватели и внешняя среда.

Мы очень ограниченные люди, живущие как котята в известном эксперименте: одни котята жили в мире, где все было покрашено горизонтальными полосками, а другие, где все покрашено вертикальными, и, когда их выпустили на свободу, кто-то не видел никаких вертикальных предметов и врезался в ножку стула, а кто-то не мог подняться по лестнице.

Мы видим только то, что мы знаем. А чего не знаем, не видим. То есть, как маркетологи, мы заметим пиво и чипсы, а пиво и памперсы — нет. И в образовании так же.

Тот самый эксеримент, проведенный в 1973 году, в рамках которого котята провели свои первые шесть недель в боксе, где видны только вертикальные линии.

Методы объективного анализа данных, составляющие основу наших алгоритмов, позволяют вычислить закономерности, возникающие в процессе обучения. Это позволяет оптимизировать процесс обучения и сделать его более увлекательным и для троечника, и для отличника. Зависимостей на самом деле очень много, просто мы их еще для себя не открыли.

Полезные советы родителям

Нельзя думать: «В моем детстве так не было!» — в вашем детстве много чего не было. Если ребенок получает удовольствие от игры в айфон или айпэд, в этом нет ничего страшного — просто следите за тем, чтобы там тоже был образовательный контент.

Родители не должны переносить всю ответственность за хорошее образование на школу. Школа — не панацея. О дополнительном образовании ребенка должны заботиться именно родители.

Дополнительный образовательный контент не обязательно должен быть бесплатным — если раньше родители покупали своим детям журналы «Квант» и «Юный физик», то сейчас нет ничего страшного в том, чтобы установить ребенку платное приложение.

Нужно поступать с детьми так, как это делают интеллектуальные электронные системы, — не давать ребенку слишком легкие задачи, чтобы он не терял интерес, и не давать слишком сложные, чтобы он не разочаровывался в себе.
Каждый день заботимся о вашем досуге: плейлисты, мемы, громкие темы и их обсуждения. Будьте с нами во «ВКонтакте».

Источник: https://daily.afisha.ru/brain/2810-kak-nauka-o-bolshih-dannyh-menyaet-obrazovanie-i-delaet-obuchenie-uvlekatelnym/

Поделиться:
Нет комментариев

    Добавить комментарий

    Ваш e-mail не будет опубликован. Все поля обязательны для заполнения.