Обработка данных на Spark 2.3 и Kafka 1.0
Введение
Действующие лица: пьеса в трех томах
0. Как быстро начать работу со Spark
0.1. DataSet API за 5 минут (In progress)
0.2. Apache Zeppelin
0.4. Упражнения
1. Старые-добрые RDD
1.1. Теория множеств на RDD
1.2. JOIN на RDD
1.2.1 Кишочки JOIN
1.3. Cogroup на RDD
1.4. Чтение CSV-файла
2. Как быстро начать работу с Kafka
2.1. Куда делись данные из Kafka после рестарта?
2.2. Публикация данных в Kafka
Упражнения
2.3. Получение данных из Kafka
Упражнения
2.4. Конфигурирование Kafka (In progress)
2.5. Как устроена Kafka (In progress)
3. DStreams на службе Его Величества Стриминга (In progress)
3.1. Читаем из Kafka
3.1.1. Упражнения
4. Structured Streaming, быстрый старт
4.1. Первые вопросы по настройке Structured Streaming
4.2. Операции над входящим потоком
4.3. JOIN для бедных
4.4. Агрегация и агрегаты
4.5. Сортировка
5. Сохраняем в ..
5.1. Kafka
5.2. Parquet
6. Читаем из..
Powered by
GitBook
Упражнения
Напишите класс, который подписывается на все топики, которые появляются в Kafka
Напишите класс, который подписывается на все топики, но отписывается от слишком быстрых топиков (на основе чего можно оценить скорость программно?)
results matching "
"
No results matching "
"