Umeå University's logo

umu.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Utilizing Statistical Modeling to Enhance Data Quality Management in Gas Turbine Delivery Process: Utilizing Mathematical Modeling and Complexity Analysis to Address Data Quality Challenges in Gas Turbine Product Management: A Statistical Approach
Umeå University, Faculty of Science and Technology, Department of Mathematics and Mathematical Statistics.
Umeå University, Faculty of Science and Technology, Department of Mathematics and Mathematical Statistics.
2024 (English)Independent thesis Advanced level (degree of Master (Two Years)), 20 credits / 30 HE creditsStudent thesis
Abstract [en]

This thesis aims to enhance the quality of industrial valve data to support more accurateand reliable data quality management. The primary task involves identifying and addressing common data quality issues, such as errors, duplicates, inconsistencies, and missingvalues. The purpose is to ensure the dataset’s integrity and reliability through comprehensive preprocessing and advanced data imputation techniques.

The approach includes preprocessing steps to standardize units of measure, correct inaccuracies using product specifications, and detect anomalies to remove outliers and ensure the data reflects true operational conditions. Different imputation methods are usedto handle missing values, and their effectiveness is evaluated based on performance metrics.

Fuzzy string matching has successfully modified 20.60% of rows, enhancing data quality by correcting inaccuracies and improving consistency.The iForest method resulted in a smoother distribution of data points, enhancing theoverall quality of the dataset. The Z-score method, assuming a normal distribution, alsosignificantly reduced data points beyond the ±3 standard deviation range.

The Artificial Neural Network model performed exceptionally well in capturing complexnon-linear relationships, particularly after feature engineering, achieving an accuracy of78.11%.

The MICE Imputation method stood out with its exceptional performance among theimputation methods evaluated. It achieved the lowest error metrics, followed by LR Imputation and KNN Imputation. Specifically, MICE Imputation achieved an MAE of 11.92 and RMSE of 60.89, demonstrating its effectiveness in handling missing values.

The conclusions drawn from these findings underscore the importance of comprehensivedata preprocessing and the application of advanced techniques to enhance data quality.This research provides a robust framework for ongoing data quality management and future improvements in the industrial sector.

Abstract [sv]

Detta examensarbete syftar till att förbättra kvaliteten på industriella ventildatabaserför att stödja mer exakt och tillförlitlig datakvalitetsstyrning. Den primära uppgifteninnebär att identifiera och åtgärda vanliga datakvalitetsproblem, såsom fel, dubbletter,inkonsekvenser och saknade värden. Syftet är att säkerställa datasetets integritet ochtillförlitlighet genom förbehandling och avancerade datatillämpningstekniker.

Tillvägagångssättet inkluderar förbehandling av data genom att standardisera måttenheter, korrigera felaktigheter med hjälp av produktspecifikationer och upptäcka avvikelserför att ta bort avvikande värden och säkerställa att datan återspeglar verkliga driftsförhållanden. Olika tillämpningsmetoder används för att hantera saknade värden, ochderas effektivitet utvärderas baserat på prestandamått.

Fuzzy string-matching har modifierat 20,60% av raderna och förbättrat datorkvalitetengenom att korrigera felaktigheter och förbättra konsistensen.Metoden iForest resulterade i en jämnare fördelning av datapunkter, vilket förbättradedatasetets övergripande kvalitet. Z-score-metoden, som antar en normal fördelning, minskade också avvikande värden betydligt utanför det ±3 standardavvikelseintervallet.

Den artificiella neurala nätverksmodellen presterade bäst av alla andra modeller genom attfånga komplexa icke-linjära relationer, särskilt efter funktionell utformning, och uppnåddeen noggrannhet på 78,11%.

MICE imputation utmärkte sig med sin exceptionella prestanda bland de utvärderadeimputation metoder. Den uppnådde de lägsta felmåtten, följt av LR och KNN. Specifiktuppnådde MICE-tillämpningen ett MAE på 11,92 och RMSE på 60,89, vilket visar desseffektivitet i hanteringen av saknade värden.

Slutsatserna som dras från dessa resultat visar vikten av omfattande datakvalitetsförbehandling och tillämpning av avancerade tekniker för att förbättra datakvaliteten. Dennaforskning ger en robust ram för pågående datakvalitetsstyrning.

Place, publisher, year, edition, pages
2024.
National Category
Mathematics
Identifiers
URN: urn:nbn:se:umu:diva-230782OAI: oai:DiVA.org:umu-230782DiVA, id: diva2:1904963
External cooperation
Siemens Energy AB
Educational program
Master of Science in Engineering and Management
Supervisors
Examiners
Available from: 2024-10-17 Created: 2024-10-10 Last updated: 2024-10-17Bibliographically approved

Open Access in DiVA

fulltext(2026 kB)142 downloads
File information
File name FULLTEXT01.pdfFile size 2026 kBChecksum SHA-512
e09b6c3cd023e416c78770dbc47d929ad09e2781e60f23e391bfa4e87d0dc9f378211413c4bdd7965074982e94fd5dd62477aaa8f1379cff238ee210953f43e4
Type fulltextMimetype application/pdf

By organisation
Department of Mathematics and Mathematical Statistics
Mathematics

Search outside of DiVA

GoogleGoogle Scholar
Total: 144 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

urn-nbn

Altmetric score

urn-nbn
Total: 449 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf