Обработка данных на Spark 2.3 и Kafka 1.0
Введение
Действующие лица: пьеса в трех томах
0. Как быстро начать работу со Spark
0.1. DataSet API за 5 минут (In progress)
0.2. Apache Zeppelin
0.4. Упражнения
1. Старые-добрые RDD
1.1. Теория множеств на RDD
1.2. JOIN на RDD
1.2.1 Кишочки JOIN
1.3. Cogroup на RDD
1.4. Чтение CSV-файла
2. Как быстро начать работу с Kafka
2.1. Куда делись данные из Kafka после рестарта?
2.2. Публикация данных в Kafka
Упражнения
2.3. Получение данных из Kafka
Упражнения
2.4. Конфигурирование Kafka (In progress)
2.5. Как устроена Kafka (In progress)
3. DStreams на службе Его Величества Стриминга (In progress)
3.1. Читаем из Kafka
3.1.1. Упражнения
4. Structured Streaming, быстрый старт
4.1. Первые вопросы по настройке Structured Streaming
4.2. Операции над входящим потоком
4.3. JOIN для бедных
4.4. Агрегация и агрегаты
4.5. Сортировка
5. Сохраняем в ..
5.1. Kafka
5.2. Parquet
6. Читаем из..
Powered by
GitBook
2.4. Конфигурирование Kafka (In progress)
автоматическое создание топиков при первом пуше
работа с репликацией
конфигурирование Zookeeper
использование отдельно стоящего Zookeeper Cluster
конфигурирование брокера Kafka
results matching "
"
No results matching "
"