Данный модуль Hadoop представляет собой программу, строящую тепловую карту кликов по странице.
Программа принимает 5 входных файлов:
- clicks.1, clicks.2, clicks.3 (в директории
input/
): эти файлы содержат информацию о кликах пользователей на странице и генерируются случайным образом с помощью скриптаgenerateClicks.sh
. - handbookAreas (в директории
input_handbooks/
): содержит описание разделов страницы. - handbookRanges (в директории
input_handbooks/
): содержит описание диапазонов температур.
Перед запуском программы необходимо:
-
Запустить Hadoop:
/opt/hadoop-3.3.6/sbin/start-dfs.sh
/opt/hadoop-3.3.6/sbin/start-yarn.sh
-
Запустить программу скриптом
./run.sh
:
mvn clean package
./generateClicks.sh
hdfs dfs -rm -r /output
hdfs dfs -rm -r /input
hdfs dfs -put input /input
hdfs dfs -put input_handbooks /input_handbooks
yarn jar target/lab1-1.0-SNAPSHOT-jar-with-dependencies.jar /input /output
В результате работы программы в директории output
будет создан файл part-r-00000
, содержащий тепловую карту кликов.
- Скрипт generateClicks.sh: позволяет генерировать файлы с кликами пользователей.
- Файлы handbookAreas и handbookRanges: могут быть изменены для изменения описания разделов страницы и диапазонов температур.
- Страница представляет собой прямоугольник размером 1000 в ширину и 1500 в высоту.
- Каждая область является прямоугольником, который задаётся двумя точками -
(x_min, y_min)
и(x_max, y_max)
- координатами левой нижней и правой верхней точек. - Координаты кликов (x, y) в файлах
clicks.1, clicks.2, clicks.3
находятся в диапазоне от 0 до 1000 для x и от 0 до 1500 для y. Координата(0, 0)
находится в левом нижнем углу страницы. Один из файлов, а именноclicks.2
, намеренно испорчен и имеет координаты точек, выходящих за пределы страницы.
# Запуск программы
./run.sh
# Просмотр тепловой карты
hdfs dfs -cat /output/part-r-00000