Инфраструктура GRID

2021-07-21 · 3 мин. для прочтения

Инфраструктура GRID. Работа в рамках этой инфраструктуры.

Содержание

1 Краткая информация

WLCG (Worldwide LHC Computing Grid) предназначен для обработки больших объёмов данных, поступающих с LHC (Большой адронный коллайдер, БАК).
В его состав входит 170 вычислительных центров из 36 стран.
Грид LCG был запущен 3 октября 2008 года.
Сайт: https://wlcg.web.cern.ch/

2 Уровни ГРИДа ЦЕРН

2.1 Структура уровней

Состоит из центров разных уровней или ярусов (Tier):
- Tier-0:
  - 1 центр: CERN + Будапешт (Венгрия);
- Tier-1:
  - в России есть 1 центр ОИЯИ (Дубна) (эксперимент CMS) + «Курчатовский институт» (эксперименты ALICE, ATLAS и LHCb);
- Tier-2;
- Tier-3;
- компьютеры пользователей.

2.2 Поток данных

Уровни различаются по масштабу ресурсов (сетевые, вычислительные, дисковые, архивные) и по выполняемым функциям.
Tier-0 — первичная реконструкция событий, калибровка, хранение копий полных баз данных.
- Изначально файл с данными эксперимента хранится на компьютерной ферме эксперимента.
- Спустя время происходит трансферт данных из эксперимента в центральный компьютерный центр ЦЕРН (сайт Tier-0).
- Здесь происходит первичная обработка данных.
- Он является двойным компьютерным центром: одна часть находится в ЦЕРН под Женевой, а вторая часть — в Будапеште, Венгрии.
- Его основная задача — сохранить данные.
- Данные хранятся на магнитных лентах (библиотеки).
Tier-1 — полная реконструкция событий, хранение актуальных баз данных по событиям, создание и хранение наборов анализируемых событий, моделирование, анализ.
- Обработка происходит в компьютерных центрах первого уровня (сайты Tier-1).
- Производится первичный анализ данных.
- Учёные не имеют доступа к сайтам на уровне Tier-1.
Tier-2 — репликация и хранение наборов анализируемых событий, моделирование, анализ.
- Это сайты, компьютерные центры уровня университета или большого института.
- Анализ обработанных данных.
- Зачастую исследователям нужны обработанные данные, а не сырые.
- Работают в основном обычные учёные, использующие приготовленные данные.
- Генерация симулированных событий.
Tier-3 — кластеры отдельных исследовательских групп.
- Это уже гораздо более простые сайты.
- Данные обрабатываются и постобрабатываются.
- Обучаются простые модели машинного обучения, необходимые для последующего анализа данных.

3 Технические ограничения

В рамках проекта создаётся 27 ТБ необработанных данных в день.
Плюс к этому 10 ТБ — «краткие данные событий», которые представляют выходные расчёты, сделанные процессором фермы центра данных CERN.
Эти данные передаются из Tier0 в Tier1 по выделенным соединениям со скоростью 10 Гбит/с.
Центры уровня Tier2 подключены к сетям общего назначения.
Данные, получаемые в LHC на всех элементах её распределённой вычислительной сети растёт на 10–15 Петабайт ежегодно.
Необходимы:
- вычислительная мощность (суперкомпьютер);
- пропускная способность линий связи.

4 Создание собственного центра ГРИД

Для отдельного университета целью может являться максимум Tier-2.
Для сертификации по этому уровню необходима не только техническая составляющая, но и наличие серьёзной научной составляющей.
Кроме того, для Tier-2 необходимы значительные финансовые вливания.
Вполне можно начать взаимодействие на уровне Tier-3 (уровень отдельной лаборатории).

Обновлено 2023-08-29

Science-Admin

Authors

Дмитрий Сергеевич Кулябов

Профессор кафедры теории вероятностей и кибербезопасности

Работаю профессором на кафедре теории вероятностей и кибербезопасности Российского университета дружбы народов им. Патриса Лумумбы. Научные интересы относятся к области теоретической физики и математического моделирования.

← Видео. KDEnlive. Собственный профиль 2021-07-23

Журнал Mathematics 2021-07-15 →

No results found