01 февраля 2023
Инфраструктура data science: хранилища данных, ПО, витрины, озёра и важные скиллы
0
4
Содержание выпуска:
— Из каких компонентов состоит инфраструктура data science в идеальном варианте и как компании её выстроить.
— Из каких источников в систему приходят сырые данные.
— Куда данные сохраняются и в каком виде.
— Как предварительно обрабатываются и готовятся данные.
— Как отбираются данные для обработки и анализа.
— Как происходит анализ в DS и чем он отличается от традиционной аналитики.
— Какие решения и инструменты существуют для анализа и изучения данных в data science.
— Витрины, озёра данных, Kafka, S3, Hadoop и всё остальное.
— Чем занимается отдел data science. Какие роли связаны с data science.
— Как правильно формулировать задачу для специалистов по data science, какие ошибки в формулировках задач могут встречаться.
— Насколько data science — это программирование. Чем задачи и стиль программирования специалистов по data science отличаются от задач и стиля программирования обычных разработчиков.
— Какие языки и для каких задач используются.
— Что необходимо знать специалисту для первой работы. Кто такие мидлы и сеньоры.
— Какие зарплаты, специализации и перспективы есть в data science.
Полезные ссылки:
— Apache Spark https://spark.apache.org
— Apache Hadoop https://hadoop.apache.org
— Язык программирования Scala https://skillboxcode.mave.digital/ep-35
— Amazon Simple Storage Service (S3) https://aws.amazon.com/ru/s3
— Redis https://ru.wikipedia.org/wiki/Redis
— MLflow https://mlflow.org
— CI/CD https://ru.wikipedia.org/wiki/CI/CD
— Apache Kafka https://kafka.apache.org
— Debezium https://debezium.io
— Micro Batching https://bit.ly/40gr29I
— Витрина данных https://bit.ly/40h0tkO
— Слои в data science https://bit.ly/3JuwFes
— REST API https://bit.ly/3Jsrrjh
— Модель вычислений MapReduce https://ru.wikipedia.org/wiki/MapReduce
— Google File System https://ru.wikipedia.org/wiki/Google_File_System
— HDFS https://bit.ly/3XVnS9I
— Захват изменения данных https://bit.ly/3wIYR5V
— Apache NiFi https://ru.wikipedia.org/wiki/Apache_NiFi
— Nginx https://ru.wikipedia.org/wiki/Nginx
— Apache Airflow https://ru.wikipedia.org/wiki/Apache_Airflow
— Dimensional modeling https://en.wikipedia.org/wiki/Dimensional_modeling
— Сайт-тренажёр sql-ex.ru
— «Книга с кабанчиком» https://habr.com/ru/post/423981
— Codewars https://www.codewars.com
— LeetCode https://leetcode.com
— YouTube-канал «Диджитализируй!» https://bit.ly/3kWYvG0
— Марк Лутц. «Изучаем Python»
— Эви Немет, Гарт Снайдер, Трент Хейн, Бэн Уэйли, Дэн Макин. «Unix и Linux: руководство системного администратора»
Гость: Влад Гоцуляк. Директор по Data&AI в «Еаптеке». Окончил МФТИ. В свободное время читает лекции для студентов кафедры БИТ в МФТИ по big data.
Стартовать в программировании вместе со Skillbox: skillbox.ru/code
Наш подкаст удобно слушать на популярных платформах:
Castbox: https://bit.ly/3tZ3eJF
«Яндекс Музыка»: https://bit.ly/3FWQsOk
Apple Podcasts: https://apple.co/3KLXpVZ
Google Podcasts: https://bit.ly/3qFvYUY
Подписывайтесь, ставьте лайки, делитесь с друзьями и оставляйте комментарии!
Плейлист
Люди и код
Содержание
— Почему Александр перешёл с Java на PHP? Каким был язык и его экосистема в те времена
— Как Александр попал в Yii core team и дорос до руководителя команды фреймворка
— Как выглядит процес...
Содержание
— Какие врачи занимаются проблемами спины: неврологи, вертебрологи, мануальные терапевты, остеопаты и другие
— Почему остеопатию не считают медицинской специальностью
— К какому специалисту...
Содержание
— Как Михаил пришёл к открытию веб-студии и сколько он до этого проработал в найме
— Сколько денег агентство приносит Михаилу и его партнеру
— Кому и почему не стоит идти в этот бизнес
—...
Содержание
— Как проводится собеседование на позицию тестировщика и из каких этапов оно состоит
— Почему важно создать комфортную атмосферу на интервью
— Как интервьюер готовится к интервью с кандида...
Содержание
— Как Илья начал участвовать в соревнованиях
— В чём соревнуются участники чемпионатов по спортивному программированию
— Какие виды соревнований бывают
— О ролях в команде и важности лидерс...
Содержание
— Что такое аутентификация, авторизация и идентификация
— Что такое факторы аутентификации и какими они бывают
— Как эволюционировали подходы к аутентификации от первых простых сайтов до со...
Содержание:
— С чего у Антона началось погружение в виртуальную реальность. Что такое «360-фильмы» и кому они нужны
— Сервис аренды отелей в VR: как он был устроен, как снимался контент и почему проек...
Содержание
— X5 Tech. Что это за подразделение и чем оно занимается.
— Какие аналитики есть в X5 Tech и какие задачи они решают.
— Что является результатом работы аналитика.
— Кто ставит задачи анал...
Содержание
— Что привлекало Костю в финансах и фондовом рынке. Как строился рабочий день трейдера в 2000-е.
— Как он перешёл в алгоритмическую торговлю. Что такое торговая система.
— Почему Костя пром...
Содержание
— Краткое введение в тестирование: что такое тесты и какие виды тестов существуют.
— Должен ли разработчик писать тесты?
— Что такое TDD и почему Катя решила попробовать эту методику.
— «Ут...
Содержание
— Как Вова готовился к ЕГЭ и учил математику в вузе.
— Математика — развлечение для интеллектуалов или всего лишь один из инструментов инженера?
— Кринжовый анекдот про математику.
— Нужны...
Содержание:— Что такое developer relations и почему в компаниях термин по-разному трактуют.
— Чем developer advocate отличается от DevRel.
— Из каких профессиональных областей можно перейти в техничес...
Содержание— Какие технологии лежали в основе первой версии «ВКонтакте».
— В какой части сайта возникли первые проблемы с ростом нагрузки.
— Для чего команда «ВКонтакте» писала свои собственные СУБД.
—...
Содержание
— По каким книгам Гриша начинал изучать программирование.
— Как перешёл из техписов в бэкенд-разработчики.
— Хватало ли информации, которую дают в универе, или приходилось обращаться к книг...
Содержание
— Что такое системы контроля версий и для чего они нужны. Какие VCS существуют и чем они различаются.
— История VCS: когда появились первые системы, какие они были и как развивались.
— Как...
Содержание
— Почему Perl называли изолентой интернета.
— Для чего Ларри Уолл создал Perl.
— Как богословское и лингвистическое образование сочетается с программированием на Perl.
— Ностальгируем о вре...
Содержание
— «Поменял номер телефона в шапке сайта и стал верстальщиком»: зачем предприниматель пошёл в веб-разработку и начал учить этому других.
— Как Артём обучался вёрстке и нашёл ментора.
— Первы...
Содержание— Статический и динамический анализаторы кода — что это такое и для чего они нужны.— Чем статический анализатор кода лучше динамического, а чем хуже.— Как работает статический анализатор код...
Содержание выпуска
— В каких направлениях частные и государственные компании используют решения на основе NLP.
— Что такое NLP. Cпойлер: НЕ нейролингвистическое программирование.
— История обработ...
Содержание выпуска
— Частные космические компании в России? Да, они существуют!
— Про линию Кармана, оптические и радиолокационные спутники, а также российский аналог Starlink.
— Частный космос и госу...
Содержание выпуска
— Что такое доступность (она же accessibility, она же A11y) и как она связана с юзабилити.
— Почему интерфейсы должны быть доступными. Выгодно ли это бизнесу.
— Что такое эффект ск...
Содержание выпуска
— Что такое геоинформационные системы и для чего они нужны. Какие из них мы используем ежедневно.
— Первые ГИС появились в XIX веке. Что?!
— Геология, градостроение, сельское хозяй...
Содержание выпуска
— Как нейросети помогают сделать игровую индустрию great again и экономят время игроделов.
— Где и кем еще применяются графические нейросети.
— Почему ИИ не отберёт у нас работу.
—...
Содержание выпуска
— Что такое многопоточность и где она используется.
— Зачем исторически понадобилось распараллеливать вычисления.
— Какие физические ограничения процессоров позволяет обойти многопо...
Содержание выпуска
— Что такое SQL: зачем и когда он появился, как развивался и какой он сегодня.
— Какие принципы лежат в основе SQL и реляционных баз данных. Что такое декларативная парадигма програ...
Содержание выпуска
— Что такое DevOps, как и зачем придумали эту методологию, какие инструменты в ней задействованы.
— Цепочки поставок программного обеспечения: что это такое и из чего они состоят.
—...
Содержание выпуска:— Как Symfony связан с Laravel, Drupal, Magento и другими фреймворками и CMS.
— Краткая история Symphony: когда, кто и для чего его создал.
— Какую эволюцию фреймворк прошёл от пер...
Содержание выпуска
— Что такое Linux.org.ru? Для чего он существует и что на нём обсуждают?
— Краткая история LOR: кто и когда его основал, почему он стал популярен у разработчиков?
— Самые интересные...
Гость. Женя Князев, CEO Antro. Содержание выпуска— Что такое интерфейс в широком и узком смысле слова.— Какими бывают интерфейсы.— Как дизайнер работает над интерфейсом, как получает техзадание в идеа...
Гость. Андрей Тукаев, музыкант, создающий электронную музыку (Tyowa), Ghost-продюсер. Содержание выпуска— Как менялись методы и стоимость создания своей музыки.— Какие программы используются для созда...