Umeå universitets logga

umu.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Constructing Compact BPE Token DFAs
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap.ORCID-id: 0000-0002-3692-6994
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap.ORCID-id: 0000-0002-9873-4170
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap.
Department of Computer Science, Stellenbosch University, Stellenbosch, South Africa; National Institute for Theoretical and Computational Sciences, Stellenbosch, South Africa.
2026 (Engelska)Ingår i: Implementation and Application of Automata: 29th International Conference, CIAA 2025, Palermo, Italy, September 22–25, 2025, Proceedings, Cham: Springer, 2026, s. 27-40Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

Byte pair encoding (BPE) tokenization is a popular technique for subdividing text into relevant subwords and is frequently used in large language model systems. Since the tokenization procedure is deterministic and produces regular languages, it is beneficial to characterize it in terms of finite automata to allow for further automata-aided processing, such as pattern matching. In this paper, we demonstrate how to build such automata efficiently in practice, applying a series of optimization techniques to represent them compactly.

Ort, förlag, år, upplaga, sidor
Cham: Springer, 2026. s. 27-40
Serie
Lecture Notes in Computer Science, ISSN 0302-9743, E-ISSN 1611-3349 ; 15981
Nationell ämneskategori
Datavetenskap (datalogi)
Identifikatorer
URN: urn:nbn:se:umu:diva-243943DOI: 10.1007/978-3-032-02602-6_3Scopus ID: 2-s2.0-105014493742ISBN: 978-3-032-02601-9 (tryckt)ISBN: 978-3-032-02602-6 (digital)OAI: oai:DiVA.org:umu-243943DiVA, id: diva2:1996224
Konferens
29th International Conference on Implementation and Application of Automata, CIAA 2025, Palermo, Italy, September 22-25, 2025
Forskningsfinansiär
Wallenberg AI, Autonomous Systems and Software Program (WASP)Tillgänglig från: 2025-09-09 Skapad: 2025-09-09 Senast uppdaterad: 2025-09-09Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

Förlagets fulltextScopus

Person

Berglund, MartinJonsson, AnnaMartens, Willeke

Sök vidare i DiVA

Av författaren/redaktören
Berglund, MartinJonsson, AnnaMartens, Willeke
Av organisationen
Institutionen för datavetenskap
Datavetenskap (datalogi)

Sök vidare utanför DiVA

GoogleGoogle Scholar

doi
isbn
urn-nbn

Altmetricpoäng

doi
isbn
urn-nbn
Totalt: 237 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf