Обработка данных на Spark 2.3 и Kafka 1.0
Введение
Действующие лица: пьеса в трех томах
0. Как быстро начать работу со Spark
0.1. DataSet API за 5 минут (In progress)
0.2. Apache Zeppelin
0.4. Упражнения
1. Старые-добрые RDD
1.1. Теория множеств на RDD
1.2. JOIN на RDD
1.2.1 Кишочки JOIN
1.3. Cogroup на RDD
1.4. Чтение CSV-файла
2. Как быстро начать работу с Kafka
2.1. Куда делись данные из Kafka после рестарта?
2.2. Публикация данных в Kafka
Упражнения
2.3. Получение данных из Kafka
Упражнения
2.4. Конфигурирование Kafka (In progress)
2.5. Как устроена Kafka (In progress)
3. DStreams на службе Его Величества Стриминга (In progress)
3.1. Читаем из Kafka
3.1.1. Упражнения
4. Structured Streaming, быстрый старт
4.1. Первые вопросы по настройке Structured Streaming
4.2. Операции над входящим потоком
4.3. JOIN для бедных
4.4. Агрегация и агрегаты
4.5. Сортировка
5. Сохраняем в ..
5.1. Kafka
5.2. Parquet
6. Читаем из..
Powered by
GitBook
2.5. Как устроена Kafka (In progress)
TODO:
на чем написана
на чем запускается
из чего состоит физически
что происходит физически при взаимодействии с Kafka (записи/чтении)
что лежит в рантайме у Kafka
что лежит на диске у Kafka
что летает через сеть у Kafka
results matching "
"
No results matching "
"