umu.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
A Black-box Approach for Detecting Systems Anomalies in Virtualized Environments
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap. (Distributed Systems)ORCID-id: 0000-0002-3308-834X
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap.
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap.
2017 (Engelska)Ingår i: 2017 IEEE International Conference on Cloud and Autonomic Computing (ICCAC 2017), IEEE, 2017, s. 22-33Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

Virtualization technologies allow cloud providers to optimize server utilization and cost by co-locating services in as few servers as possible. Studies have shown how applications in multi-tenant environments are susceptible to systems anomalies such as abnormal resource usage due to performance interference. Effective detection of such anomalies requires techniques that can adapt autonomously with dynamic service workloads, require limited instrumentation to cope with diverse applications services, and infer relationship between anomalies non-intrusively to avoid "alarm fatigue" due to scale. We propose a black-box framework that includes an unsupervised prediction-based mechanism for automated anomaly detection in multi-dimensional resource behaviour of datacenter nodes and a graph-theoretic technique for ranking anomalous nodes across the datacenter. The proposed framework is evaluated using resource traces of over 100 virtual machines obtained from a production cluster as well as traces obtained from an experimental testbed under realistic service composition. The technique achieve average normalized root mean squared forecast error and R^2 of (0.92, 0.07) across hosts servers and (0.70, 0.39) across virtual machines. Also, the average detection rate is 88% while explaining 62% of SLA violations with an average lead-time of 6 time-points when the testbed is actively perturbed under three contention scenarios. 

Ort, förlag, år, upplaga, sidor
IEEE, 2017. s. 22-33
Nyckelord [en]
Anomaly Detection, Performance Anomaly Detection, Performance Diagnosis, Cloud Computing, Virtualized Services, Unsupervised Learning, Time Series Analysis, Quality of Service
Nationell ämneskategori
Datorsystem
Forskningsämne
datorteknik; administrativ databehandling
Identifikatorer
URN: urn:nbn:se:umu:diva-142031DOI: 10.1109/ICCAC.2017.10ISBN: 978-1-5386-1939-1 (digital)OAI: oai:DiVA.org:umu-142031DiVA, id: diva2:1157922
Konferens
2017 IEEE International Conference on Cloud and Autonomic Computing (ICCAC 2017), Tucson, Arizona, USA, 18–22 September 2017
Projekt
Cloud Control
Forskningsfinansiär
Vetenskapsrådet, C0590801Tillgänglig från: 2017-11-17 Skapad: 2017-11-17 Senast uppdaterad: 2018-06-09Bibliografiskt granskad
Ingår i avhandling
1. Performance anomaly detection and resolution for autonomous clouds
Öppna denna publikation i ny flik eller fönster >>Performance anomaly detection and resolution for autonomous clouds
2017 (Engelska)Doktorsavhandling, sammanläggning (Övrigt vetenskapligt)
Abstract [en]

Fundamental properties of cloud computing such as resource sharing and on-demand self-servicing is driving a growing adoption of the cloud for hosting both legacy and new application services. A consequence of this growth is that the increasing scale and complexity of the underlying cloud infrastructure as well as the fluctuating service workloads is inducing performance incidents at a higher frequency than ever before with far-reaching impact on revenue, reliability, and reputation. Hence, effectively managing performance incidents with emphasis on timely detection, diagnosis and resolution has thus become a necessity rather than luxury. While other aspects of cloud management such as monitoring and resource management are experiencing greater automation, automated management of performance incidents remains a major concern.

Given the volume of operational data produced by cloud datacenters and services, this thesis focus on how data analytics techniques can be used in the aspect of cloud performance management. In particular, this work investigates techniques and models for automated performance anomaly detection and prevention in cloud environments. To familiarize with developments in the research area, we present the outcome of an extensive survey of existing research contributions addressing various aspects of performance problem management in diverse systems domains. We discuss the design and evaluation of analytics models and algorithms for detecting performance anomalies in real-time behaviour of cloud datacenter resources and hosted services at different resolutions. We also discuss the design of a semi-supervised machine learning approach for mitigating performance degradation by actively driving quality of service from undesirable states to a desired target state via incremental capacity optimization. The research methods used in this thesis include experiments on real virtualized testbeds to evaluate aspects of proposed techniques while other aspects are evaluated using performance traces from real-world datacenters.

Insights and outcomes from this thesis can be used by both cloud and service operators to enhance the automation of performance problem detection, diagnosis and resolution. They also have the potential to spur further research in the area while being applicable in related domains such as Internet of Things (IoT), industrial sensors as well as in edge and mobile clouds.

Abstract [sv]

Grundläggande egenskaper för datormoln såsom resursdelning och självbetjäning driver ett växande nyttjande av molnet för internettjänster. En följd av denna tillväxt är att den underliggande molninfrastrukturens ökande storlek och komplexitet samt fluktuerade arbetsbelastning orsakar prestandaincidenter med högre frekvens än någonsin tidigare. En konsekvens av detta blir omfattande inverkan på intäkter, tillförlitlighet och rykte för de som äger tjänsterna. Det har därför blivit viktigt att snabbt och effektivt hantera prestandaincidenter med avseende på upptäckt, diagnos och korrigering. Även om andra aspekter av resurshantering för datormoln, som övervakning och resursallokering, på senare tid automatiserats i allt högre grad så är automatiserad hantering av prestandaincidenter fortfarande ett stort problem.

Denna avhandling fokuserar på hur prestandahanteringen i molndatacenter kan förbättras genom användning av dataanalystekniker på de stora datamängder som produceras i de system som monitorerar prestanda hos datorresurser och tjänster. I synnerhet undersöks tekniker och modeller för automatisk upptäckt och förebyggande av prestandaanomalier i datormoln. För att kartlägga utvecklingen inom forskningsområdet presenterar vi resultatet av en omfattande undersökning av befintliga forskningsbidrag som behandlar olika aspekter av hantering av prestandaproblem inom i relevanta tillämpningsområden. Vi diskuterar design och utvärdering av analysmodeller och algoritmer för att upptäcka prestandaanomalier i realtid hos resurser och tjänster. Vi diskuterar också utformningen av ett maskininlärningsbaserat tillvägagångssätt för att mildra prestandaförluster genom att aktivt driva tjänsternas kvalitet från oönskade tillstånd till ett önskat målläge genom inkrementell kapacitetoptimering. Forskningsmetoderna som används i denna avhandling innefattar experiment på verkliga virtualiserade testmiljöer för att utvärdera aspekter av föreslagna tekniker medan andra aspekter utvärderas med hjälp av belastningsmönster från verkliga datacenter.

Insikter och resultat från denna avhandling kan användas av både moln- och tjänsteoperatörer för att bättre automatisera detekteringen av prestandaproblem, inklusive dess diagnos och korrigering. Resultaten har också potential att uppmuntra vidare forskning inom området samtidigt som de är användbara inom relaterade områden som internet-av-saker, industriella sensorer, och storskaligt distribuerade moln eller telekomnätverk.

Ort, förlag, år, upplaga, sidor
Umeå: Umeå University, 2017. s. 60
Serie
Report / UMINF, ISSN 0348-0542 ; 17.18
Nyckelord
Cloud Computing, Distributed Systems, Performance Management, Anomaly Detection, Quality of Service, Performance Analytics, Machine Learning
Nationell ämneskategori
Datorsystem
Forskningsämne
datorteknik; administrativ databehandling; datalogi
Identifikatorer
urn:nbn:se:umu:diva-142033 (URN)978-91-7601-800-2 (ISBN)
Disputation
2017-12-14, MA121, MIT-huset, Umeå University, Umeå, 13:15 (Engelska)
Opponent
Handledare
Projekt
Cloud ControleSSENCE
Forskningsfinansiär
Vetenskapsrådet, C0590801
Tillgänglig från: 2017-11-21 Skapad: 2017-11-17 Senast uppdaterad: 2018-06-09Bibliografiskt granskad

Open Access i DiVA

fulltext(982 kB)154 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 982 kBChecksumma SHA-512
2a3202b9361e3050d967959899860d7c05110808f06dfad15e7d2ef900988b456d7b1538735e68f7392e867a75009c1cadf1b0cd3f4eb4574fe312b1eccdea0a
Typ fulltextMimetyp application/pdf

Övriga länkar

Förlagets fulltext

Personposter BETA

Ibidunmoye, OlumuyiwaLakew, Ewnetu BayuhElmroth, Erik

Sök vidare i DiVA

Av författaren/redaktören
Ibidunmoye, OlumuyiwaLakew, Ewnetu BayuhElmroth, Erik
Av organisationen
Institutionen för datavetenskap
Datorsystem

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 154 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

doi
isbn
urn-nbn

Altmetricpoäng

doi
isbn
urn-nbn
Totalt: 389 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • modern-language-association-8th-edition
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf