Во второй части большой темы про MLOps, которую мы разбили на несколько эпизодов подкаста, ещё глубже погружаемся в тему машинного обучения и работы с данными, лежащей в основе ML. Рассматриваем вопросы обогащения данных, разбираемся с разметкой, говорим о специфических аспектах управления данными.
В этом выпуске вы услышите:
Почему общепринятых стандартов управления данными недостаточно для работы с большими данными для ML;
Что такое хвосты и артефакты в сверхбольших данных;
Может ли overfeeding стать причиной overfitting’a (или это одно и то же?);
И многое другое!
Юрий Карев, руководитель управления процессов и стандартов моделирования и машинного обучения ВТБ, и Алексей Незнанов, к.т.н, старший научный сотрудник международной лаборатории интеллектуальных систем и структурного анализа НИУ ВШЭ, подошли к теме с двух сторон: теоретической и практической. Помогли ведущей подкаста разобраться с терминологией. А также поговорили про специфику подходов к образованию для специалистов в Data Science, DataOps и MLOps.
Полезные ресурсы и ссылки:
Курс MLOps (OTUS): https://otus.ru/lessons/ml-bigdata/
Основные идеи из книги «Сотрудничество в DevOps-культуре»: http://agilemindset.ru/основные-идеи-из-книги-сотрудничест/
MLOps: Continuous delivery and automation pipelines in machine learning: https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning
Как создавать качественные ML-системы. Часть 1: каждый проект должен начинаться с плана: https://habr.com/ru/companies/vk/articles/749850/
Как создавать качественные ML-системы. Часть 2: приручаем хаос: https://habr.com/ru/companies/vk/articles/749852/
The Data Engineering Cookbook: https://github.com/andkret/Cookbook
Стандарты:
ISO/IEC DIS 5259-1: https://www.iso.org/standard/81088.html
ISO/IEC DIS 5259-4: https://www.iso.org/standard/81093.html
ISO/IEC 8183:2023: https://www.iso.org/standard/83002.html
Плейлист
Деньги любят техно
К предновогоднему ажиотажу продуктовые сети начинают готовиться с лета. Чтобы товаров на полке хватало, а праздничные акции радовали покупателей, необходима слаженная работа множества специалистов. Ка...
В новом эпизоде серии «Лица Data Fusion» с Алексеем Кашириным, директором Центра продвинутой аналитики Альфа-Банка, говорим про выбор между научной карьерой и бизнесом, смелость ученых, врожденные и н...
Как пройти путь от выстраивания собственной Data Science-экспертизы в телеком-индустрии до поставки ИИ-решений далеко за ее пределы? Как растут и расширяются компетенции датасайентистов, и почему прое...
За научным или практическим успехом всегда стоят конкретная личность и команда. На конференциях обсуждаются результаты работы, но мы мало знаем о людях, которые ее делают. Эта идея легла в концепцию н...
Работа Data Science-специалистов в промышленных компаниях строится по своим правилам и требует специфических навыков: нужно не только любить математику, но и дружить с физикой, и разбираться в техноло...
Использовать машинное обучение везде, где это возможно и целесообразно — и в пользовательских сервисах, и во внутренних процессах. Такую парадигму развития ML в компании озвучил Андрей Рыбинцев, старш...
С командой дата-сайентистов из ВТБ подводим итоги 2023 года в темах развития нейросетей, машинного обучения, инструментов на базе ИИ. Конечно же говорим про большие языковые модели и начало гонки гене...
Машинное обучение так или иначе уже применяется в компаниях самых разных масштабов и направлений деятельности. Однако для выстраивания зрелой ML-инфраструктуры и перехода к эффективным MLOps-практикам...
Во второй части большой темы про MLOps, которую мы разбили на несколько эпизодов подкаста, ещё глубже погружаемся в тему машинного обучения и работы с данными, лежащей в основе ML. Рассматриваем вопро...
О нейронных сетях мы слышим сегодня буквально отовсюду. Это — одно из наиболее активно развивающихся направлений в машинном обучении. В новом выпуске подкаста «Деньги любят техно», сезон Data Science,...
В этом выпуске мы возвращаемся к теме MLOps — на этот раз с Алексеем Незнановым, к.т.н., старшим научным сотрудником международной лаборатории интеллектуальных систем и структурного анализа НИУ ВШЭ, и...
Мы рады поделиться первым выпуском четвёртого сезона подкаста «Деньги любят техно» — и это уже второй сезон, посвящённый темам Data Science. Сразу же решили обсудить животрепещущую тему датасетов для...
С Кириллом Кулаковым, техническим консультантом «Лаборатории Касперского», и Лилией Шароватовой, начальником управления анализа и мониторинга операций ВТБ, обсуждаем привычные и совершенно новые уловк...
Чем больше мы доверяем ИИ, тем чаще слышим о его ошибках и уязвимостях. Пробуем разобраться, какие с этим связаны риски сейчас и какие появятся в будущем. Почему многое зависит от входных данных на эт...
Чаще, сильнее, продолжительнее. Этими тремя словами можно описать кибератаки, обрушившиеся в 2022 году на инфраструктуру российских компаний.
Подводим итоги уходящего года в области кибербезопасности...
В России каждая четвертая компания использует технологии сбора и обработки больших данных, а в финансовой отрасли — почти каждая вторая компания. Обсуждаем тренды развития рынка данных: почему все чащ...
Экспериментальный выпуск, который поможет эффективнее бороться с категоричностью и с крайностями в суждениях. Такого ещё никто не делал, а мы попробовали. В новом выпуске постарались выяснить, являетс...
Для чего сегодня применяется MLOps и в каких задачах без него не обойтись завтра? Помогает ли MLOps бизнесу развивать Data Science или, может быть, мешает? В чём заключается роль специалиста по ML, и...
Следующий год станет годом пробных проектов с цифровым рублём. Что это такое, как это будет работать, для чего его можно будет использовать? Цифровой рубль — это безопасно? И насколько это будет удобн...
Как необходимо развиваться сегодня, чтобы AutoML не заменил вас завтра?
О практической и философской стороне AutoML, изменениях в роли специалиста в Data Science, прошлом и будущем построения моделей...
Александр Сахнов, руководитель отдела мультивариативного анализа X5 Group и Артём Летин, руководитель подразделения разработки моделей для корпоративного сегмента клиентов ВТБ обсудили метод А/В-тести...
Россия, год 2022. Из крупнейших магазинов приложений исчезают важные и нужные аппы. Это — ощутимая проблема и для пользователей, и для компаний. Операционный директор RuStore Илья Сверчков и управляющ...
Директор по стратегическому маркетингу «Яндекса» Андрей Себрант, руководитель департамента цифрового бизнеса ВТБ Никита Чугунов и технологический обозреватель Марина Эфендиева обсудили главные техноло...
В новом выпуске обсуждаем, как деятельность дата-сайентистов влияет на общество и жизнь людей в целом. Почему необходимо менять подходы к образованию специалистов по Data Science и что делать, чтобы ч...
В новом выпуске подкаста обсуждаем безналичную реальность — сервисы p2p-платежей и культуру p2p-благодарности.
Как поблагодарить официанта в ресторане, если у вас нет наличных? Сколько оставлять на ч...
Зайти в офис без пропуска, получить кредит без визита в банк, пройти по аэропорту без задержек. В новом выпуске подкаста обсуждаем, где, для чего и как применяется биометрия сегодня и какое будущее её...
Говорим с экспертами из ВТБ и VK про Open API: есть ли от них польза рынку и какая? Кто выигрывает? Что с этого пользователям? Сколько приложений создано на платформе VK Mini Apps и какие сервисы стро...
Разбираем понятия «универсальный дизайн», «юзабилити» и «аксессибилити». Что между ними общего, чем они отличаются. Говорим о доступности цифровых сервисов для людей с инвалидностью или со временными...
В новом выпуске обсуждаем, обязательно ли переезжать в Москву, чтобы двигаться по карьерной лестнице в финансовой сфере, заниматься интересными проектами и получать хорошие деньги. Раскрываем суть про...
Выстроить работу большой команды в новом формате непросто, а если приходиться делать это в ускоренном темпе — сложнее в разы. Как сохранить продуктивность, помочь сотрудникам адаптироваться и не «упас...