En ny Grid-arbeidsflyt for dataanalyse i ALICE-prosjektet

Maxim Melnik Storetvedt disputerer den 31.3.2023 for ph.d.-graden ved Høgskulen på Vestlandet med avhandlingen "A new Grid workflow for data analysis within the ALICE project using containers and modern Cloud technologies".

Grid Computing er en teknikk for automatisk kjøring av større partier med distribuerte maskinoppgaver på et globalt nettverk bestående av heterogene datasentre.

ALICE (A Large Ion Collider Experiment) - et av de fire store eksperimentene ved LHC på CERN, bruker Grid-ressurser til å behandle store mengder av sine samlede data.

Selv om det ofte blir sammenlignet med det mer sentraliserte, og ofte kommersielle, Cloud Computing (“nettsky”) paradigmet, pleier Grid-ressurser å være geografisk spredt på flere datasentre bestående av klustere av forskjellige karakteristikker. Til tross for å være løst koblet, og med få avhengigheter, går disse klusterne sammen for å danne et distribuert system fordelt over flere administrative domener. 

Heterogene klustere, slik som de finnes innad i Grid Computing, kan skape utfordringer ved å måtte tilrettelegge seg for flere forskjellige system-, konfigurasjons- og distribusjonskrav.

For å redusere utfordringene som kan oppstå, har konsept og teknologier fra Cloud Computing i nyere tid blitt tatt i bruk for å gjøre Grid databehandling mer lik skytjenester. Ved å bruke teknologier slik som virtualisering, kan ønskede maskin- og programvaremiljøer bli simulert på et bredt utvalg av oppsett og konfigurasjoner.

Dette åpner opp for å kunne skape homogene miljøer av oppsett innad i et ellers heterogent Grid-miljø - en tilnærming som i dag brukes av en rekke Grid datasentre. Mens virtualisering har økt i bruk og popularitet innad i Grid-miljøer, har imidlertid nye metoder, praksiser og teknologier begynt å dukke opp. Nærmere bestemt har både konteinere og elastisk lastbalansering økt raskt i både popularitet og bruk, og er i dag vanlig i sammenheng med skytjenester. Til tross for å ofte bli sammenlignet med vanlig virtualisering, gir konteinere muligheten til å opprette flere isolerte miljøer på toppen av samme systemkjerne, og unngår slik å påvirke ytelsen i særlig grad.

ALICE eksperimentet utforsker nå bruken av nyere konsept og teknologier fra Cloud Computing innad i sin Grid infrastruktur. Dette skjer som et ledd i utviklingen av et nytt Grid rammeverk (JAliEn – Java ALICE Environment), noe som skaper en mulighet for å kunne integrere disse konseptene og teknologiene direkte i selve kjernen av rammeverket.

Denne muligheten danner grunnlaget for det underliggende forskningsspørsmålet og påfølgende bidraget i Maxim Storetvedt sitt ph.d.-prosjekt: Å undersøke måter for hvordan databehandling innad i ALICE kan gjøres mer fleksibelt samt enklere å administrere, gjennom bruken av konsepter og teknologier fra Cloud Computing. Resultatet er en ny og
optimert arbeidsflyt for Grid databehandling som ikke bare bedrer på nåværende utfordringer, men som også kan brukes til å tilfredsstille behovene til ALICE kollaborasjonen i Run 3 av LHC.

Disputas

Tid: 31. mars 2023 kl. 13.15.
Sted: Høgskulen på Vestlandet, campus Bergen, K2, auditorium M003

Prøveforelesning

Tid: 31. mars 2023 kl. 10.15.
Sted: Høgskulen på Vestlandet, campus Bergen, K2, auditorium M003