DE or DIE #5
Дата мероприятия: 24.12.2020.
Формат мероприятия: online.
Доклады
Использование Scala UDF в PySpark
Автор: Андрей Титов, Senior Spark Engineer, NVIDIA.
Материалы первого доклада:
- Запись выступления на YouTube.
- Презентация в формате PDF.
О чем первый доклад
В своем докладе я поделюсь своим опытом использования пользовательских функций в высокопроизводительных PySpark приложениях.
При использовании PySpark часто забывают о возможности использования UDF, написанных на Scala/Java. А ведь это отличный способ увеличить производительность вашего приложения.
К сожалению, в официальной документации приводится самый базовый вариант их применения, который имеет ряд ограничений и не раскрывает всех возможностей применения Scala/Java UDF в PySpark.
В своем докладе я расскажу, как:
- заставить PySpark автоматически выводить тип данных, возвращаемых в UDF;
- создать pyspark.sql.Column на базе UDF вместо использования spark.sql(…);
- использовать Singleton Pattern для сохранения данных между вызовами функций и работы с внешними источниками из UDF;
- избежать повторного вызова UDF на одних и тех же данных;
- настроить логирование с помощью встроенного log4j.
Мой первый Data Lake
Автор: Дмитрий Шалин, Data Engineer, СБЕР.
Материалы второго доклада:
- Запись выступления на YouTube.
- Презентация в формате PDF.
- Демо. Код создания ETL + примеры контроля качества, про которые рассказывается в докладе.
О чем второй доклад
Если зайти в YouTube и забить data lake, получим большое количество докладов от сотрудников крупных компаний, которые имеют в своем арсенале большие деньги, широкую экспертизу, численность под реализацию end-to-end процесса работы с данными и самое главное – время.
В своем докладе я расскажу историю, как будучи сотрудником стартапа, в сжатые сроки, как и главное зачем, собирал хранилище и какие шаги позволили избежать проблемы масштабирования в будущем. Покажу по шагам (1,2,3) как уже в первую неделю, не имея глубоких знаний языка программирования, хранилищ, облачных сервисов, заложить фундамент.
Основное внимание будет уделено базе по ETL, качеству (как идеи, что это часть ETL) и основам баз данных.