Як стати фахівцем за даними

Наука про дані перейшла з нещодавно введеного терміну в 2007 році в одну з найбільш затребуваних дисциплін у професійному світі. Але що насправді робить вчений даних? А як можна увірватися в поле? Ось що вам потрібно знати, якщо ви хочете отримати навички, щоб стати фахівцем за даними.

Що роблять вчені даних?

Фахівці з обробки даних об'єднують статистику, інформатику та аналіз даних, щоб навести порядок у величезній кількості недисциплінованих даних, які в даний час збирають тисячі компаній. Загальновідомо, що ваш обліковий запис Facebook містить цінну інформацію, і що Google хоче знати абсолютно все про вас. Але тепер навіть місцеві стартапи збирають дані, які, як вони сподіваються, можуть бути здобуті і перетворені на корисні стратегії для розвитку їхнього бізнесу.

Дані, які збирають компанії, часто бувають дуже заплутаними - вони неповні, неорганізовані, незв'язково марковані і часто просто невірні. Але там є багато цінної інформації, і дослідники даних - це ті, хто генерує ідеї, які можуть бути реалізовані діловими колами компанії.

Багато описів науки про дані підкреслюють важливість відкриття в цій галузі; дослідники даних можуть не знати, що вони шукають, проходячи терабайти даних, але вони дізнаються, коли побачать щось цікаве (ця потреба в інтуїції та відкритті є однією з причин, чому ця робота не може бути добре зробленим роботами) Вони також повинні вміти представляти цю інформацію іншим, оскільки менеджери і керівники зазвичай не розбираються в мові аналізу даних, як вчені, що займаються даними.

Коротше кажучи, дослідники даних аналізують величезні обсяги даних і перетворюють їх на дієві стратегії. Не помиляйтеся: це нелегка робота. Але це дуже цінно для компаній, і завжди буде так, тому вчені можуть розраховувати на безпечні робочі місця в майбутньому. І їм добре платять за ці навички: вчений може легко заробити понад 90 000 доларів на рік.

Які навички потрібні вченим у галузі даних?

Оскільки «наука про дані» являє собою швидко мінливу і часто погано певну область, діапазон навичок, які ви знайдете серед вчених-даних, вражаюче широкий. Більшість з них мають деяку підготовку в галузі статистики, аналізу даних і математики. Майже у всіх є досвід програмування, особливо в Python, R, Hadoop, SQL та інших мовах, які використовуються для зберігання даних, статистики та машинного навчання. Оскільки він особливо популярний в аналізі даних, вивчення Python вивчення програмування на Python - гарне місце для початку.

Знання інших програм аналізу даних, таких як MATLAB, SAS і Minitab, також може бути досить корисним.

Вміння чітко спілкуватися з людьми, які не розуміють машинного навчання, статистики або аналізу даних, також дуже важливе. Якщо ви знайдете щось новаторське, але не можете нікому це пояснити, це марно. Чітке спілкування - це м'яка навичка. що потрібно від будь-якого технолога в ці дні.

Досвід роботи в декількох областях корисний, якщо ви початківець вчений в області даних - як всередині, так і за межами області, в якій ви працюєте. Вміння творчо мислити і вирішувати проблеми з різних точок зору надзвичайно корисно при роботі в науці про дані, оскільки нові проблеми часто вимагають інновацій і спеціальних рішень.

Вивчення навичок для науки про дані

Оскільки вчені, які працюють з даними, повинні вміти працювати з різними інструментами, які приходять з різних областей, таких як розробка додатків і теорія ймовірностей, шлях до професії не ясний. Багато дослідників даних починають як комп'ютерні фахівці або статистики і набувають необхідних навичок на роботі. Інші приходять з абсолютно різних верств суспільства, які дають їм досвід, необхідний для творчого вирішення проблем.

«Фахівці за даними займаються збором даних, їх масуванням у зручну для сприйняття форму, змушуючи його розповідати свою історію, і представляючи цю історію іншим».

- Майк Лукідес, віце-президент O'Reilly Media.

Тим не менш, навчання конкретним даним стає все більш доступним з кожним днем. Хоча місця для навчання на рівні ступеня невеликі і надзвичайно конкурентоспроможні, їх варто вивчити. Наявність досвіду в навичках, які ви набудете в цих програмах, збільшить ваші шанси отримати участь у програмі і отримати роботу, навіть якщо у вас немає ступеня в галузі комп'ютерних наук або даних.

Перераховані нижче ресурси допоможуть вам почати набирати навички, необхідні для того, щоб стати фахівцем за даними. Деякі з них - безкоштовні онлайн-курси для коледжів, і деякі з них є більш професійними ресурсами. Всі вони безкоштовні, якщо не вказано інше. Наприкінці списку я включив кілька програм сертифікації, занурення та отримання ступеня, на випадок, якщо вам цікаво, де можна пройти серйозну підготовку в галузі наук про дані - є й інші, але вони повинні дати вам уявлення. з того, що доступно.

Вступ

  • Основи великих даних (Університет великих даних)

програмування

  • Python (Google)
  • Комп'ютери для аналізу даних (Coursera)
  • Аналіз даних за допомогою R (Coursera)
  • Data Mining з R (Університет великих даних)
  • Основи Hadoop I (Університет великих даних)

Статистика та аналіз даних

  • Ймовірність і статистичне обґрунтування (Університет Карнегі-Меллона; безкоштовно для незалежних учнів, 25 доларів для академічних студентів) [Посилання видалено]
  • Введення в прикладну статистику (онлайн-курси)
  • Аналіз даних (Coursera)
  • Машинне навчання (Стенфордський університет через Coursera)

Сертифікація науки про дані

  • Data Science (Університет Джона Хопкінса через Coursera; безкоштовно без сертифіката, $475 з сертифікатом)
  • Аналіз даних Нанодеграда (Udacity; $200/місяць, 9-12 місяців)

Програма вивчення даних

  • 12-тижневе занурення в академію даних Zipfian ($16 000)

Програми з науки про дані

  • Професійний майстер інформації та наук про дані в Каліфорнійському університеті в Берклі
  • MS в галузі наук про дані в Нью-Йоркському університеті
  • MS в галузі наук про дані в університеті Святого Томаса
  • Онлайн MS в науці про дані в університеті Вісконсіна
  • MS в аналітиці в Університеті штату Північна Кароліна
  • MS в аналітиці в Північно-Західному університеті

Список вище повинен дати вам багато, щоб почати. Після того, як ви освоїли безкоштовні ресурси, ви можете приступити до розгляду деяких специфічних для області речей, таких як біостатистика, аналіз даних охорони здоров'я або аналіз даних для забезпечення безпеки - існує безліч ресурсів, які ви можете використовувати, не повертаючись до Школи для отримання ступеня.

Ви можете знайти курси з цих тем в таких місцях, як Coursera, Udacity і навіть на YouTube. Перехід до більш просунутих програмних ресурсів також є хорошою ідеєю. Є безліч речей для вас, щоб вчитися; вам просто потрібен деякий час, щоб знайти ті, які найбільш підходять для вас.

Ось коротке 1-хвилинне надихаюче відео від Adobe про життя вченого-даних.

Ви хочете бути одним? Якщо у вас є якісь хороші ресурси для початківців вчених, поділіться ними в коментарях, щоб інші, зацікавлені в цій галузі, могли ними скористатися!