Vi vet redan att Large Hadron Collider (LHC) kommer att vara det största och dyraste fysiksexperimentet som någonsin har utförts av mänskligheten. Att kollidera relativistiska partiklar vid energier som tidigare inte kunde tänkas (upp till 14 TeV-märket i slutet av decenniet) kommer att generera miljoner partiklar (kända och hittills upptäckta), som måste spåras och kännetecknas av enorma partikeldetektorer. Detta historiska experiment kommer att kräva en enorm insamling och lagring av data, omskrivning av reglerna för datahantering. Var femte sekund genererar LHC-kollisioner motsvarigheten till ett DVD-värde av data, det vill säga en dataproduktionshastighet på en gigabyte per sekund. För att sätta detta i perspektiv kan en genomsnittlig hushållsdator med en mycket bra anslutning kunna ladda ner data med en hastighet på en eller två megabyte per sekund (om du är väldigt lycklig! Jag får 500 kilobyte / sekund). Så LHC-ingenjörer har utformat en ny typ av datahanteringsmetod som kan lagra och distribuera petabyte (miljoner gigabyte) av data till LHC-kollaboratörer över hela världen (utan att bli gammal och grå medan de väntar på en nedladdning).
1990 revolutionerade Europeiska organisationen för kärnforskning (CERN) det sätt vi lever på. Föregående år skrev Tim Berners-Lee, en CERN-fysiker, ett förslag för elektronisk informationshantering. Han framförde idén att information lätt skulle kunna överföras via Internet med hjälp av något som kallas ”hypertext.” Med tiden gick Berners-Lee och kollaboratören Robert Cailliau, en systemingenjör också vid CERN, ihop ett enda informationsnätverk för att hjälpa CERN-forskare att samarbeta och dela information från sina persondatorer utan att behöva spara det på besvärliga lagringsenheter. Hypertext gjorde det möjligt för användare att bläddra och dela text via webbsidor med hyperlänkar. Berners-Lee skapade sedan en webbläsare-redaktör och insåg snart att denna nya form av kommunikation kunde delas av ett stort antal människor. I maj 1990 kallade CERN-forskarna detta nya samarbetsnätverk World Wide Web. Faktum är att CERN var ansvarig för världens första webbplats: http://info.cern.ch/ och ett tidigt exempel på hur denna webbplats såg ut kan hittas via webbplatsen World Wide Web Consortium.
Så CERN är inte främling för att hantera data via Internet, men den helt nya LHC kommer att kräva särskild behandling. Som framhöll av David Bader, verkställande direktör för högpresterande datoranvändning vid Georgia Institute of Technology, är den nuvarande bandbredd som Internet tillåter en enorm flaskhals, vilket gör andra former för datadelning mer önskvärt. ”Om jag tittar på LHC och vad det gör för framtiden, är det en sak som webben inte har kunnat göra med att hantera en fenomenal mängd data, Sa han, vilket innebär att det är lättare att spara stora datasätt på terabyte-hårddiskar och sedan skicka dem i posten till kollaboratörer. Även om CERN hade tagit itu med samverkan av datadelning på World Wide Web, kommer de data som LHC kommer att generera lätt att överbelasta de små bandbredd som för närvarande finns.
Därför designades LHC Computing Grid. Rutnätet hanterar stor LHC-dataproduktion i nivåer, den första (Nivå 0) ligger på plats vid CERN nära Genève, Schweiz. Nivå 0 består av ett enormt parallellt datornätverk som innehåller 100 000 avancerade CPU: er som har skapats för att omedelbart lagra och hantera rådata (1s och 0s binär kod) som pumpas ut av LHC. Det är värt att notera vid denna tidpunkt att inte alla partikelkollisioner kommer att detekteras av sensorerna, bara en mycket liten fraktion kan fångas. Även om endast ett relativt litet antal partiklar kan upptäckas, kan detta fortfarande översättas till en enorm produktion.
Tier 0 hanterar delar av den information som matas ut genom att spränga den genom dedikerade 10 gigabit per sekund fiberoptiska linjer till 11 Nivå 1 webbplatser i Nordamerika, Asien och Europa. Detta gör att kollaboratörer som Relativistic Heavy Ion Collider (RHIC) vid Brookhaven National Laboratory i New York kan analysera data från ALICE-experimentet och jämföra resultat från LHC-blyjonkollisioner med sina egna tunga jonkollisionsresultat.
Från de internationella Tier 1-datorerna paketeras datasätt och skickas till 140 Nivå 2 datornätverk belägna vid universitet, laboratorier och privata företag runt om i världen. Det är vid denna tidpunkt som forskare kommer att ha tillgång till datasätten för att utföra omvandlingen från den råa binära koden till användbar information om partikelenergier och banor.
Nivåsystemet är allt bra och bra, men det skulle inte fungera utan en mycket effektiv typ av programvara som kallas ”mellanprogram”. När man försöker få åtkomst till data kan användaren vilja ha information som är spridd över petabyterna med data på olika servrar i olika format. En open-source middleware-plattform som heter Globus kommer att ha det enorma ansvaret att samla in den nödvändiga informationen sömlöst som om den informationen redan sitter inne i forskarens dator.
Det är den här kombinationen av tiersystemet, snabb anslutning och genial mjukvara som kan utökas utöver LHC-projektet. I en värld där allt håller på att bli "på begäran" skulle denna typ av teknik kunna göra Internet transparent till slutanvändaren. Det skulle finnas direkt tillgång till allt från data som produceras av experiment på andra sidan planeten, till att titta på HD-filmer utan att vänta på nedladdningens framstegsfält. Liksom Berners-Lee's uppfinning av HTML, kan LHC Computing Grid revolutionera hur vi använder Internet.
Källor: Scientific American, CERN