Открыто

Инженер данных [2024] [teachmeskills] [Дмитрий]

Тема в разделе "Курсы по программированию", создана пользователем Toxich, 25 апр 2024.

Основной список: 14 участников

Резервный список: 6 участников

  1. 25 апр 2024
    #1
    Toxich
    Toxich ЧКЧлен клуба

    Складчина: Инженер данных [2024] [teachmeskills] [Дмитрий]

    2024-05-02_005952.png

    Стань востребованным Data-инженером c нуля через 6 месяцев.

    О профессии:
    Онлайн-образование в IT-школе TeachMeSkills предлагает курсы по профессии Data Engineer, которые станут отличным стартом для тех, кто хочет стать инженером данных. Инженер данных, играет ключевую роль в обработке и анализе больших объемов данных.

    Твой результат в конце курса:
    1. Будете обладать основными навыками программирования на Python и работы с данными, включая загрузку, обработку и визуализацию данных с помощью библиотеки Pandas и Matplotlib.
    2. Сможете эффективно работать с базами данных, включая создание таблиц, выполнение запросов SQL, управление данными и оптимизацию структур баз данных.
    3. Приобретете знания по моделированию данных, включая понимание основных концепций, типов моделей данных и их применение в реальных проектах.
    4. Научитесь управлять рабочими процессами с помощью Apache Airflow, включая создание и конфигурирование DAG, планирование и мониторинг задач, а также использование расширенных возможностей этого инструмента.
    5. Завершите курс, разработав и реализовав полноценный проект Data Engineering, который включает в себя проектирование ETL процессов, анализ и визуализацию данных, оптимизацию баз данных и представление результатов проекта.
    6. Станешь востребованным Инженером данных в IT

    Модуль 1 - Роль Data Engineer в современной индустрии
    • Обзор роли Data Engineer в процессе анализа и обработки данных.
    • Рассмотрение ключевых обязанностей Data Engineer в различных компаниях и проектах
    Модуль 2 - Задачи и обязанности Data Engineer
    • Анализ конкретных задач, которые решает Data Engineer.
    • Изучение процесса сбора, обработки, хранения и анализа данных
    Модуль 3 - Инструменты и технологии, используемые Data Engineer
    • Обзор основных инструментов и технологий, применяемых Data Engineer.
    • Сравнение различных технологических стеков и их применение в различных сценариях.
    Модуль 4 - Основные концепции моделирования данных и его значение для проектов обработки данных
    • Введение в основные концепции моделирования данных.
    • Обсуждение значения моделирования данных для успешного выполнения проектов обработки данных.
    Модуль 5 - Введение в Python: Основы синтаксиса
    • Основные правила и конструкции языка Python.
    • Знакомство с синтаксисом: инструкции, отступы, комментарии и строковые литералы.
    Модуль 6 - Введение в Python: Переменные, типы данных и операторы
    • Работа с переменными и их типами в Python.
    • Операторы и их применение для выполнения операций с данными.
    Модуль 7 - Введение в Python: Управляющие структуры
    • Условные операторы (if-else) и циклы (for, while).
    • Применение управляющих структур для решения различных задач.
    Модуль 8 - Введение в Python: Структуры данных
    • Списки, кортежи, словари и множества в Python.
    • Операции и методы для работы с различными структурами данных.
    Модуль 9 - Введение в Python: Работа с файлами
    • Открытие, чтение и запись файлов в Python.
    • Обработка файловых объектов с помощью стандартных методов и операций.
    Модуль 10 - Введение в Python: Функции и модули
    • Создание и использование функций в Python.
    • Модули и их роль в организации кода.
    Модуль 11 - Введение в Python: Обработка исключений
    • Понятие исключений в Python.
    • Обработка исключений с помощью конструкции try-except.
    Модуль 12 - Введение в работу с данными: Работа с библиотекой Pandas
    • Обзор функциональности библиотеки Pandas для работы с данными.
    • Загрузка и первичная обработка данных с помощью Pandas.
    Модуль 13 - Введение в работу с данными: Загрузка и обработка данных
    • Загрузка данных из различных источников: файлы, базы данных и API.
    • Предварительная обработка данных для анализа и визуализации
    Модуль 14 - Введение в систему контроля версий Git
    • Основные понятия системы контроля версий (VCS) и Git.
    • Установка Git и настройка окружения.
    • Создание репозитория: локального и удаленного.
    • Основные команды Git: init, add, commit, push, pull, clone.
    • Работа с ветками: создание, переключение, слияние, удаление.
    • Разрешение конфликтов при слиянии веток.
    • Использование .gitignore для исключения файлов из отслеживания.
    • Работа с удаленными репозиториями: добавление удаленных ссылок, работа с ветками на удаленном репозитории.
    • Практические примеры использования Git для управления проектами.
    Модуль 15 - Введение в SQL: Введение в базы данных
    • Обзор различных типов баз данных и их особенностей.
    • Структура реляционных баз данных и их компоненты
    Модуль 16 - Введение в SQL: Основы SQL
    • Создание таблиц и вставка данных.
    • Запросы SELECT для выборки данных из базы данных
    Модуль 17 - Введение в SQL: Условия, сортировка и ограничения
    • Использование условий и операторов сравнения в SQL.
    • Сортировка данных и применение ограничений к выборке.
    Модуль 18 - Введение в SQL: Объединения таблиц
    • Применение операторов JOIN для объединения данных из различных таблиц.
    • Работа с несколькими таблицами для выполнения сложных запросов.
    Модуль 19 - Работа с данными в SQL: Группировка данных и агрегатные функции
    • Группировка данных по определенным критериям.
    • Применение агрегатных функций для вычисления статистических показателей.
    Модуль 20 - Работа с данными в SQL: Подзапросы
    • Создание подзапросов для выполнения вложенных запросов.
    • Применение подзапросов для фильтрации и агрегации данных.
    Модуль 21 - Работа с данными в SQL: Изменение и удаление данных
    • Выполнение операций добавления, обновления и удаления данных в базе данных.
    • Применение транзакций для обеспечения целостности данных.
    Модуль 22 - Управление базами данных: Создание и удаление баз данных
    • Создание новых баз данных с помощью SQL команд.
    • Удаление баз данных и их компонентов.
    Модуль 23 - Управление базами данных: Работа с индексами и ключами
    • Создание индексов для ускорения выполнения запросов.
    • Управление первичными и внешними ключами для обеспечения целостности данных.
    Модуль 24 - Управление базами данных: Транзакции и управление данными
    • Понятие транзакции в базах данных и их роль в обеспечении целостности данных.
    • Управление данными с использованием транзакций и команд DML
    Модуль 25 - Основы моделирования данных: Понятие моделирования данных
    • Обзор основных понятий моделирования данных.
    • Различные подходы к моделированию данных в Data Engineering.
    Модуль 26 - Основы моделирования данных: Типы моделей данных
    • Рассмотрение различных типов моделей данных: реляционные, графовые, документоориентированные и др.
    • Выбор подходящей модели данных для конкретного проекта.
    Модуль 27 - Основы моделирования данных: Принципы нормализации и денормализации данных
    • Основные принципы нормализации данных и их значение.
    • Применение денормализации для оптимизации производительности запросов.
    Модуль 28 - Современные подходы к моделированию данных: Использование NoSQL баз данных
    • Обзор NoSQL баз данных и их особенностей.
    • Применение NoSQL баз данных для хранения и обработки разнотипных данных
    Модуль 29 - Современные подходы к моделированию данных: Графовые базы данных
    • Роль графовых баз данных в анализе связей и сетей.
    • Примеры использования графовых баз данных в реальных проектах.
    Модуль 30 - Современные подходы к моделированию данных: Обзор технологий для моделирования данных в реальном времени
    • Изучение технологий, позволяющих работать с данными в реальном времени.
    • Применение стриминговых архитектур для обработки данных в режиме реального времени.
    Модуль 31 - Проектирование и оптимизация структур данных: Проектирование схем баз данных
    • Понятие проектирования схем баз данных и его значение для успешной работы с данными.
    • Применение методов нормализации и денормализации для проектирования эффективных схем.
    Модуль 32 - Проектирование и оптимизация структур данных: Оптимизация структур данных
    • Изучение методов оптимизации структур данных для повышения производительности запросов.
    • Применение индексов, кластеризации и разделения данных для оптимизации доступа к данным
    Модуль 33 - Интеграция данных и ETL процессы: Проектирование ETL процессов
    • Анализ потребностей в данных и проектирование процессов их извлечения, преобразования и загрузки.
    • Выбор подходящих инструментов и технологий для реализации ETL процессов.
    Модуль 34 - Интеграция данных и ETL процессы: Интеграция данных из различных источников
    • Работа с различными источниками данных: файлы, базы данных, API и другие.
    • Проектирование и реализация механизмов интеграции данных для обеспечения единой точки доступа.
    Модуль 35 - Интеграция данных и ETL процессы: Автоматизация ETL процессов
    • Разработка автоматизированных ETL процессов с использованием современных инструментов и платформ.
    • Использование расписаний и мониторинга для обеспечения надежности и производительности процессов ETL.
    Модуль 36 - Введение в Apache Airflow: Основные концепции и возможности
    • Обзор Apache Airflow и его роли в управлении рабочими процессами.
    • Изучение ключевых концепций: DAG, задачи и операторы, cron выражения.
    Модуль 37 - Введение в Apache Airflow: Установка и настройка
    • Подготовка среды для установки Apache Airflow.
    • Установка и базовая настройка Apache Airflow для начала работы.
    Модуль 38 - Введение в Apache Airflow: Разработка и запуск простых DAG
    • Создание простых DAG для выполнения базовых задач.
    • Запуск и мониторинг выполнения DAG в Apache Airflow.
    Модуль 39 - Введение в Apache Airflow: Создание и конфигурация DAG
    • Подробное рассмотрение процесса создания и настройки DAG в Apache Airflow.
    • Определение зависимостей между задачами и конфигурация параметров выполнения.
    Модуль 40 - Введение в Apache Airflow: Задачи и операторы
    • Обзор различных типов задач и операторов, доступных в Apache Airflow.
    • Применение задач и операторов для реализации различных рабочих процессов.
    Модуль 41 - Введение в Apache Airflow: Планирование и мониторинг задач
    • Организация планирования выполнения задач в Apache Airflow.
    • Мониторинг выполнения задач и состояния DAG с помощью интерфейса пользователя и логов
    Модуль 42 - Введение в Apache Airflow: Логирование и отладка DAG
    • Применение логирования для отслеживания выполнения задач и выявления ошибок.
    • Отладка DAG с использованием инструментов и методов, предоставляемых Apache Airflow
    Модуль 43 - Введение в Apache Airflow: Параметризация и динамическое определение DAG
    • Использование параметров для создания динамических DAG в Apache Airflow.\
    Модуль 44 - Введение в Apache Airflow: Использование переменных и шаблонов
    • Введение в переменные в Apache Airflow.
    • Создание и управление переменными через интерфейс пользовательского веб-интерфейса (UI).
    • Применение переменных в настройках DAG и задач.
    • Использование шаблонов для динамической настройки DAG и параметров задач.
    Модуль 45 - Введение в Apache Airflow: Внедрение пользовательских операторов и хуков
    • Создание пользовательских операторов для выполнения специфических задач.
    • Разработка пользовательских хуков для взаимодействия с внешними системами.
    • Внедрение пользовательских операторов и хуков в DAG.
    • Тестирование пользовательских операторов и хуков.
    Модуль 46 - Практические проекты и развитие навыков: Проектирование и разработка ETL процессов
    • Анализ требований к данным и определение целей проекта.
    • Проектирование структуры ETL процессов.
    • Реализация ETL процессов с использованием инструментов Data Engineering.
    • Тестирование и оптимизация разработанных ETL процессов.
    Модуль 47 - Практические проекты и развитие навыков: Анализ и визуализация данных
    • Построение отчетов и дашбордов на основе данных проекта.
    • Использование инструментов визуализации данных для создания графиков и диаграмм.
    • Интерактивная визуализация данных для исследования и анализа.
    • Практические упражнения по анализу и визуализации данных.
    Модуль 48 - Практические проекты и развитие навыков: Разработка и оптимизация баз данных
    • Оптимизация запросов SQL для улучшения производительности.
    • Нормализация баз данных для улучшения структуры и управления данными.
    • Разработка индексов для оптимизации доступа к данным и выполнения запросов.
    • Тестирование и оптимизация
    Модуль 49 - Введение в инструмент визуализации данных Tableau Public
    • Создание дашбордов и визуализаций на основе анализа данных с использованием Tableau Public.
    • Презентация результатов анализа данных с использованием различных типов графиков, диаграмм и карт.
    Модуль 50 - Подготовка к дипломному проекту: Документация и презентация проекта
    • Написание документации, описывающей процесс разработки системы анализа и визуализации данных.
    • Подготовка презентации, демонстрирующей результаты работы, включая основные этапы проекта, использованные инструменты и полученные выводы.

    Преподаватель курса: Дмитрий
    Business Intelligence lead Developer в EPAM. 4,5+ года коммерческой разработки

    Стоимость курса 2 970 (BYN) ~ 84497р.
    Скрытая ссылка
     
    Последнее редактирование модератором: 1 май 2024
    3 пользователям это понравилось.
  2. Последние события

    1. Uninspired
      Uninspired участвует.
      29 авг 2025
    2. Petr152
      Petr152 не участвует.
      27 июл 2025
    3. Северянин
      Северянин не участвует.
      29 июн 2025
    4. endystark
      endystark не участвует.
      30 май 2025