Большие данные

В последнее время многие технические ресурсы пишут про большие данные (big data), интернет вещей (IoT) и нейротехнологии. С последними двумя пунктами списка всё ещё как-то понятно из названия. Но что значит большие данные? Жёсткий диск на терабайт с фотографиями — это Big Data? Ну, хорошо. А на два терабайта? Или Big Data это вовсе не про диски с информацией? Давайте вместе разберёмся и узнаем, чем это поможет обычным людям.

Что такое большие данные?

Не буду глубоко вдаваться в термины и определения, касающиеся Big Data. Моя цель не нагрузить вас информацией, а помочь понять, что же всё-таки такое Big Data.

Конечно, на все вопросы есть ответы на мудрой Wikipedia и вот, как она определяет большие данные:

Большие данные (англ. big data, [ˈbɪɡ ˈdeɪtə]) в информационных технологиях — совокупность подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop.

Стало понятней, но лишь совсем немного. Если упростить это определение до минимума, то мы получим следующее. Представьте, что у вас есть несколько таблиц с данными. Если таких таблиц две или три и данные в них содержатся в одинаково строгом порядке, то всё отлично. Инструменты для обработки больших данных уже не нужны. Однако существует множество систем, которые автоматически собирают и генерируют терабайты или даже эксабайты данных каждый день или час. Эти данные не обязательно структурированы или приведены к общему стилю. Вот тут-то и возникает проблема с их обработкой.

Что создаёт Big Data?

В жизни большинства из нас не возникает потребность в обработке таких огромных объёмов данных. Тем не менее есть множество сфер, где такая обработка просто необходима. Например, метеорологические и сейсмические станции. Либо данные сотовых вышек, камер видеонаблюдения или даже сообщения в социальных сетях.

В действительности практически любая информация, которую можно собрать и обработать, может стать источником больших данных. Так что, как я говорил выше, диск с терабайтом фотографий тоже попадает в разряд больших данных.

Как обрабатываются данные

Обработать подобные данные на обычном компьютере или другими привычными нам средствами невозможно.

И не только из-за их объёма, но и из-за большого различия входных данных. Поэтому было разработано несколько направлений по обработке Big Data:

  • Data Mining — получение необходимых аналитических данных из имеющихся источников на основе уже существующих методов;
  • Краудсорсинг — обработка или сбор данных при помощи нас с вами. Чаще, конечно, при помощи наших компьютеров и смартфонов;
  • Машинное обучение — когда компьютеру даются уже существующие данные, на основе которых он производит вычисления для их применения в будущем;
  • Искусственные нейронные сети и подобные инструменты. Представьте себе супермозг человека. Как он обрабатывал бы данные? Это и есть нейронные сети.

Примеры из реальной жизни

На самом деле практически всё, с чем мы сталкиваемся ежедневно, так или иначе, является частью Big Data. Однако из-за такой обыденности мы не замечаем, что ежесекундно пользуемся этим инструментом, поэтому вся «магия» исчезает.

В качестве одного из самых близких каждому из нас примеров, можно привести получение прогноза погоды. Каждое утро мы просыпаемся и смотрим прогноз погоды, чтобы понять, что надеть. А в это время за значками с тучками и солнышками скрываются невероятные объёмы различной информации: замеры температуры, влажности, скорости ветра и других показателей, которые собираются на метеостанциях.

Всю эту информацию собирают и передают сотни различных инструментов и сооружений. Обработать такие потоки не под силу обычными средствами, но благодаря Big Data мы знаем, когда нужно взять с собой зонтик. Пусть иногда и зря.

А вот самым популярным источником новостей из области больших данных в последнее время стал IBM Watson — сверхкомпьютер фирмы IBM, оснащённый уникальной системой искусственного интеллекта. Этот сверхкомпьютер готовит еду, лечит людей, а на досуге играет в «Свою игру».

Попробуйте это дома

В начале статьи я обещал, что вы сами сможете поиграть с большими данными. Чтобы принести практическую пользу миру, лучше всего вступить в ряды людей, которые при помощи своих компьютеров помогают искать новые планеты, изучать ДНК или просто обрабатывать данные. Поищите в интернете проекты по интересной вам тематике и присоединяйтесь к миллионам людей для продвижения науки.

А для остальных есть несколько других примеров по применению больших данных в реальной жизни.

Prisma

Да, та самая Prisma, которая делает с фотографиями вот так:

Prisma обрабатывает фотографии с помощью пресловутых нейронных сетей.

Установить Prisma.

Mya

Mya — сервис, который ищет информацию по заданной цели в автоматическом режиме, а поиск осуществляется при помощи IBM Watson, о котором я писал выше.

Попробовать Mya в действии.

Почитать подробнее о Mya можно здесь.

Обзор Mya 1.0. Как автоматизировать поиск "Обзор Mya. Как автоматизировать поиск".

FindFace

FindFace — онлайн-сервис для поиска профиля во ВКонтакте по фотографии человека.

Поиск работает благодаря обработке больших данных при помощи нейросети.

Большие данные окружают нас повсюду. Они не только поступают и обрабатываются каждую секунду, но и генерируются с невероятной скоростью. Сегодня за секунду человечество создаёт больше данных, чем за несколько десятилетий в прошлом веке. И этот пост тоже стал небольшим кусочком в огромном потоке Big Data.

В ближайшие два года количество занятых специалистов Big Data во всем мире вырастет на 28%, прогнозирует IBM. Эта профессия станет одной из самых востребованных на рынке.

Студенты штурмуют открывшиеся в престижных университетах курсы по большим данным. А что делать тем из нас, кто не хочет остаться без работы в ближайшем будущем или готов попробовать себя в перспективной отрасли?

Памятуя поговорку о том, что учиться никогда не поздно, публикуем подборку бесплатных онлайн-курсов, на которых можно уже сегодня получить базовые знания и практические навыки в модной нынче специальности data scientist.

Подборка составлена англоязычным Forbes. Все курсы на английском языке.

CourseraData Science Specialization

Coursera предлагает один из самых основательных и, главное, бесплатных курсов по науке о данных. Партнером курса выступает Университет Джона Хопкинса (Балтимор, Мэриленд).

Курс состоит из 10 блоков, которые охватывают статистическое программирование на R, кластерный анализ, обработку естественного языка и практическое применение машинного обучения. В завершение курса студентам предлагается создать свой продукт на основе данных для решения реальной проблемы.

Coursera – Data-Driven Decision Making

Еще один курс от Coursera, на этот раз созданный в партнерстве с фирмой PwC. Неудивительно, что он заточен под решение практических задач в сфере бизнеса. Теоретической же подготовке уделяется меньше времени.

Студенты здесь осваивают инструменты и техники, которые применяются в бизнесе для решения задач, связанных с большими данными. Курс, рассчитанный на 4 недели, завершается самостоятельным заданием, в ходе которого студент должен создать решение Big Data в симуляции бизнес-среды.

EdX – Data Science Essentials

Этот курс создан Microsoft и является частью общей программы сертификации Professional Program Certificate в сфере Data Science. Однако курс можно пройти и отдельно от сертификата.

Студенты должны обладать первоначальными знаниями в языках программирования R или Python. (На сегодня это самые распространенные языки программирования в сфере больших данных). Темы курса охватывают теорию вероятностей и статистику, сбор данных и визуализацию, введение в машинное обучение, использование платформы Microsoft Azure.

Все материалы курса бесплатны. Но за $90 можно получить официальный сертификат о прохождении обучения.

Udacity – Intro to Machine Learning

Машинное обучение – одно из самых «горячих» направлений в науке о данных. Этот курс дает общее представление об отрасли – от теории до практического применения. Он является частью платной программы Udacity, по прохождении которой можно также получить «степень».

IBM – Data Science Fundamentals

Компания IBM предлагает целую серию из онлайн-курсов на специально созданном сайте, некогда известном как Big Data University и теперь переименованном в Cognitive Class. Программы охватывают введение, методологию, создание практических приложений, программирование на R и инструменты open source.

Курс рассчитан примерно на 20 часов. Студенты, имеющие базовые знания, могут пройти его быстрее.

California Institute of Technology – Learning from Data

Калифорнийский технологический институт разработал онлайн-курс по машинному обучению.

Он включает серию видео-лекций, домашние задания и экзаменационное задание. Студенты должны обладать первоначальными познаниями в математике, разбираться матрицах и матричном исчислении.

Dataquest – Become a Data Scientist

Dataquest – независимый провайдер образовательного контента.

Площадка не аффилирована с университетами или компаниями, в отличие от других перечисленных здесь курсов.

Доступ к большинству учебных материалов бесплатный. Однако есть возможность платной подписки и прохождения курсов с наставником.

Курс состоит из трех частей для трех компетенций – дата-аналитик, дата-исследователь и дата-инженер. Программа получила положительные отклики от представителей компаний Uber, Amazon и Spotify.

KDNuggets – Data Mining Course

Сайт KDNuggets, посвященный бизнесу и науке о данных, составил собственный учебный курс. Он включает модули по машинному обучению, статистическим концепциям (дерево решений, регрессия, кластеризация и классификация) и введение в практику.

The Open Source Data Science Masters

Этот курс полностью состоит из открытых источников и бесплатных материалов. Он включает машинное обучение, обработку естественного языка на основе Twitter API, а также систему Hadoop MapReduce, базы данных SQL и noSQL, основы визуализации.

Программа не предусматривает никакой сертификации. Ее преимущество в том, что можно заниматься по своему графику и сообразно своим возможностям.

Яндекс ищет человека, интересующегося применением больших данных и машинного обучения в медийной рекламе и анализе пользовательского поведения.

Мы готовы предоставить всю научную и техническую инфраструктуру Яндекса, терабайты данных, электронные библиотеки и даже ШАД в соседнем здании. Вы будете работать в команде Крипты среди лучших специалистов в области применения машинного обучения для анализа поведения пользователей.

Вам предстоит:

  • готовить данные и строить модели для алгоритмов машинного обучения;
  • анализировать характеристики пользовательского поведения при объёмах данных на уровне десятков миллионов наблюдений;
  • взаимодействовать с командой медиапродаж по вопросам анализа и улучшения рекламных кампаний;
  • принимать решения в среде с нечёткими правилами и строить процессы взаимодействия в тех случаях, когда они строго не прописаны;
  • контролировать и совершенствовать применяемые технологии машинного обучения;
  • заниматься R&D в области машинного обучения (если возникнет такое желание).

Мы ожидаем, что вы:

  • практикуете thinking out of the box;
  • обладаете аналитическим складом ума;
  • хотите и способны быстро учиться;
  • владеете Python на уровне понимания кода;
  • открыты к общению, способны идти на компромиссы и вести переговоры с людьми без технического образования;
  • владеете какими-либо статистическими пакетами, умеете сериализовывать свои действия скриптами для автоматической обработки;
  • имеете большой опыт применения Excel или других табличных процессоров (кроме Google Spreadsheet) для преобразования данных;
  • знакомы с Linux.

Плюсами будут:

  • высшее физико-математическое образование с сильным аналитическим уклоном (например, мехмат МГУ, матфак и ФКН ВШЭ, ФИВТ МФТИ);
  • понимание теории вероятности и математической статистики;
  • способность принимать решения вероятностного характера, связанные с большими денежными и временными затратами;
  • опыт анализа больших объёмов данных;
  • владение R;
  • хорошее владение Bash;
  • владение Python на уровне написания промышленного кода;
  • понимание принципов работы MapReduce.

Язык: английский

Преподаватели: Алексей Драль, Эмели Драль, Евгений Рябенко, Иван Пузыревский, Павел Клеменков, Павел Мезенцев, Илья Трофимов, Наталья Притыковская, Антон Горохов, Олег Сухорослов

Для кого: студенты и выпускники

Программа из четырёх курсов и проектов предназначена в первую очередь для людей, которые стремятся научиться работать с большими объёмами данных — хранить их и строить отказоустойчивые эффективные системы обработки. Однако специализация будет полезна и тем, кто занимается интеллектуальным анализом данных.

В процессе обучения вы приобретёте навыки использования современных платформ и инструментов — например, Hadoop, Spark, Hive.

Вы выполните четыре проекта — каждый следующий сложнее предыдущего — и поймёте, как решать самые частые задачи, связанные с большими данными. Пройдя всю программу, научитесь обрабатывать данные разными способами, использовать на больших данных методы машинного обучения и внедрять эти методы в продукты.

Чтобы учиться, нужно иметь опыт программирования на Питоне и базовые знания об алгоритмах. Знать о машинном обучении необязательно, но это поможет проходить третий курс специализации.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *