top of page

Clickhouse для аналитиков - лёгкий старт

Посетив CoReHackathon, организованного Яндекс.Метрикой, CoMagic и NeedForData, я решил написать цикл статей, даже скорее пошаговых инструкций о том, как развернуть Clickhouse и начать им

пользоваться для решения ежедневных задач.

Итак, что такое Кликхаус? Это - замечательная база данных, разработанная компанией Яндекс, которая позволяет манипулировать огромнейшим количеством данных с большой скоростью.

У этой базы данных есть большое число как плюсов, так и минусов, которые в документации вежливо указываются, как особенности. Но с точки зрения аналитика, который уже вышел за рамки веб-интерфейсов аналитических систем и хочет большего, но опыта пока не много, есть довольно высокий барьер входа.

Чтобы положить свои данные в базу и написать незамысловатый select, аналитику приходится потратить кучу времени на гугление основ линукс систем, искать как установить связь с удаленным сервером итд. Не говоря уже о том, что львиная доля процесса установки происходит в командной строке, которую и я, уже пройдя через этот процесс, побаиваюсь.

Цикл состоит из следующих этапов:

7. Заливаем данные (логи) в базу Ещё не опубликованное

8. Строим атрибуцию или краткий курс селекта и особенностей языка запросов КХ

А Clickhouse это правда быстро?

Быстро - понятие относительное. Но обработка 2-х миллиардов строк с нечётким фильтром (like %), группировкой по строкам и массивам, а так же вложенным запросом за 20 секунд - на мой взгляд быстро.

P.S. Те инструкции, которые будут приведены в ниже ни коем образом не претендуют на то, чтобы быть идеальными. Я уверен, что можно что-то сделать лучше, а системный администратор с опытом, будь его воля - забанил бы этот сайт.

Comments


bottom of page