Umeå universitets logga

umu.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Byte Pair Encoding Dictionary Equivalence
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap.
2025 (Engelska)Självständigt arbete på grundnivå (kandidatexamen), 10 poäng / 15 hpStudentuppsats (Examensarbete)
Abstract [en]

This thesis proposes a rewrite procedure for determining the equivalence of a subset of byte-pair encoding (BPE) dictionaries, a data structure essential to the tokenization process in modern large language models. We present a normalization procedure that constructs a normal form for proper BPE dictionaries, where a dictionary is proper if every token in a merge rule of length greater than one has been created by a higher-priority rule. We prove that two proper dictionaries containing the same rules are equivalent if and only if their normal forms are identical. The existing approach determines dictionary equivalence by transforming dictionaries into deterministic finite automata (DFAs) and checking for DFA equivalence. This approach is computationally expensive for large vocabularies, where the performance depends on the size of the token alphabet. In contrast, the new normalization procedure is more efficient in practice, since the time complexity of the normalization procedure depends on the length of the tokens instead, which are typically considerably smaller than the size of the token alphabet. This results in a more scalable solution for equivalence checking in real-world scenarios.

Ort, förlag, år, upplaga, sidor
2025.
Serie
UMNAD ; 1562
Nyckelord [en]
Byte Pair, Byte Pair Encoding, Byte Pair Dictionary, Byte Pair Encoding Dictionary, BPE, BPE Dictionary, Large Language Model, LLM, Dictionary Equivalence, Equivalence, Normal Form, Tokenization, Proper Dictionary, Proper Dictionaries, Normalization, Normalization procedure, Natural Language Processing, NLP
Nationell ämneskategori
Datavetenskap (datalogi)
Identifikatorer
URN: urn:nbn:se:umu:diva-240756OAI: oai:DiVA.org:umu-240756DiVA, id: diva2:1973545
Utbildningsprogram
Kandidatprogrammet i Datavetenskap
Presentation
2025-06-03, NAT.D.440, Universitetsvägen, Umeå, 09:20 (Engelska)
Handledare
Examinatorer
Tillgänglig från: 2025-06-23 Skapad: 2025-06-19 Senast uppdaterad: 2025-06-23Bibliografiskt granskad

Open Access i DiVA

bilaga(2424 kB)67 nedladdningar
Filinformation
Filnamn ATTACHMENT01.pdfFilstorlek 2424 kBChecksumma SHA-512
5a7d2cad5cff2553ece4755d4a31c56d473ac94bd7067fcb96ddff69dd8d9fb5856a6ce3a921449814fcab05aecf2964c4e7ec00060bdcf41be7bf2773e5052c
Typ attachmentMimetyp application/pdf

Sök vidare i DiVA

Av författaren/redaktören
Bergmark, Anton
Av organisationen
Institutionen för datavetenskap
Datavetenskap (datalogi)

Sök vidare utanför DiVA

GoogleGoogle Scholar
Antalet nedladdningar är summan av nedladdningar för alla fulltexter. Det kan inkludera t.ex tidigare versioner som nu inte längre är tillgängliga.

urn-nbn

Altmetricpoäng

urn-nbn
Totalt: 500 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf