Umeå universitets logga

umu.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Analyzing the Effect of DFA Compression in Token DFAs
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap.
2024 (Engelska)Självständigt arbete på avancerad nivå (masterexamen), 20 poäng / 30 hpStudentuppsats (Examensarbete)
Abstract [en]

Many modern natural language programming systems, such as the OpenAI GPT models (including ChatGPT), use tokenizations of text. With a new algorithm, it is possible to use a deterministic finite automaton (DFA) for tokenizations. To reduce the size of these DFAs and see how this affects performance, this report proposes a new algorithm that builds a compressed automaton incrementally. The proposed algorithm uses default transitions between states for compression, which allows for the removal of many normal transitions. This compression reduces the size of the DFA to less than 2% of its original size for realistic and randomly created vocabularies. The total time needed to build the DFA using the incremental algorithm is less than 15% of the total time required for the original. This is an exciting result that enables further exploration of how compression techniques can be used in DFA tokenization.

Ort, förlag, år, upplaga, sidor
2024.
Serie
UMNAD ; 1497
Nationell ämneskategori
Datavetenskap (datalogi)
Identifikatorer
URN: urn:nbn:se:umu:diva-227289OAI: oai:DiVA.org:umu-227289DiVA, id: diva2:1878423
Utbildningsprogram
Civilingenjörsprogrammet i Teknisk datavetenskap
Handledare
Examinatorer
Tillgänglig från: 2024-06-27 Skapad: 2024-06-26 Senast uppdaterad: 2024-06-27Bibliografiskt granskad

Open Access i DiVA

fulltext(575 kB)184 nedladdningar
Filinformation
Filnamn FULLTEXT01.pdfFilstorlek 575 kBChecksumma SHA-512
a541e8e8651b1ee39741d316b481eabe9028bcb4c1b649cb1337bdb0fbb04bd5fa1647c2ecce728e4a06da12d976502716e578016ff9c0087a29da6baf883031
Typ fulltextMimetyp application/pdf

Sök vidare i DiVA

Av författaren/redaktören
Lindmark, Viktor
Av organisationen
Institutionen för datavetenskap
Datavetenskap (datalogi)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Totalt: 184 nedladdningar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 601 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf