Translated ['src/AI/AI-llm-architecture/1.-tokenizing.md', 'src/AI/AI-ll

2025-10-10 18:36:50 +00:00 · 2025-06-08 17:22:38 +00:00 · 2025-06-08 17:22:38 +00:00 · 6b5358d759
commit 6b5358d759
parent b6198e3c1b
7 changed files with 1547 additions and 6 deletions
--- a/src/AI/AI-llm-architecture/1.-tokenizing.md
+++ b/src/AI/AI-llm-architecture/1.-tokenizing.md
@ -0,0 +1,95 @@
+# 1. Tokenizing
+
+## Tokenizing
+
+**Tokenizing** is die proses om data, soos teks, in kleiner, hanteerbare stukke genaamd _tokens_ op te breek. Elke token word dan 'n unieke numeriese identifiseerder (ID) toegeken. Dit is 'n fundamentele stap in die voorbereiding van teks vir verwerking deur masjienleer modelle, veral in natuurlike taalverwerking (NLP).
+
+> [!TIP]
+> Die doel van hierdie aanvanklike fase is baie eenvoudig: **Verdeel die invoer in tokens (ids) op 'n manier wat sin maak**.
+
+### **How Tokenizing Works**
+
+1. **Splitting the Text:**
+- **Basic Tokenizer:** 'n Eenvoudige tokenizer kan teks in individuele woorde en leestekens verdeel, terwyl spaties verwyder word.
+- _Example:_\
+Teks: `"Hello, world!"`\
+Tokens: `["Hello", ",", "world", "!"]`
+2. **Creating a Vocabulary:**
+- Om tokens in numeriese ID's om te skakel, word 'n **vocabulary** geskep. Hierdie vocabulary lys al die unieke tokens (woorde en simbole) en ken elkeen 'n spesifieke ID toe.
+- **Special Tokens:** Dit is spesiale simbole wat by die vocabulary gevoeg word om verskillende scenario's te hanteer:
+- `[BOS]` (Beginning of Sequence): Dui die begin van 'n teks aan.
+- `[EOS]` (End of Sequence): Dui die einde van 'n teks aan.
+- `[PAD]` (Padding): Gebruik om alle reekse in 'n batch dieselfde lengte te maak.
+- `[UNK]` (Unknown): Verteenwoordig tokens wat nie in die vocabulary is nie.
+- _Example:_\
+As `"Hello"` ID `64` toegeken word, `","` is `455`, `"world"` is `78`, en `"!"` is `467`, dan:\
+`"Hello, world!"` → `[64, 455, 78, 467]`
+- **Handling Unknown Words:**\
+As 'n woord soos `"Bye"` nie in die vocabulary is nie, word dit vervang met `[UNK]`.\
+`"Bye, world!"` → `["[UNK]", ",", "world", "!"]` → `[987, 455, 78, 467]`\
+_(Aneem `[UNK]` het ID `987`)_
+
+### **Advanced Tokenizing Methods**
+
+Terwyl die basiese tokenizer goed werk vir eenvoudige teks, het dit beperkings, veral met groot vocabularies en die hantering van nuwe of seldsame woorde. Gevorderde tokenizing metodes spreek hierdie probleme aan deur teks in kleiner subeenhede op te breek of die tokenisering proses te optimaliseer.
+
+1. **Byte Pair Encoding (BPE):**
+- **Purpose:** Verminder die grootte van die vocabulary en hanteer seldsame of onbekende woorde deur hulle op te breek in gereeld voorkomende byte pare.
+- **How It Works:**
+- Begin met individuele karakters as tokens.
+- Samevoeg iteratief die mees gereelde pare van tokens in 'n enkele token.
+- Gaan voort totdat daar geen meer gereelde pare is wat saamgevoeg kan word nie.
+- **Benefits:**
+- Elimineer die behoefte aan 'n `[UNK]` token aangesien alle woorde verteenwoordig kan word deur bestaande subwoord tokens te kombineer.
+- Meer doeltreffende en buigsame vocabulary.
+- _Example:_\
+`"playing"` mag as `["play", "ing"]` getokeniseer word as `"play"` en `"ing"` gereelde subwoorde is.
+2. **WordPiece:**
+- **Used By:** Modelle soos BERT.
+- **Purpose:** Soortgelyk aan BPE, breek dit woorde in subwoord eenhede op om onbekende woorde te hanteer en die vocabulary grootte te verminder.
+- **How It Works:**
+- Begin met 'n basis vocabulary van individuele karakters.
+- Voeg iteratief die mees gereelde subwoord by wat die waarskynlikheid van die opleidingsdata maksimeer.
+- Gebruik 'n probabilistiese model om te besluit watter subwoorde saamgevoeg moet word.
+- **Benefits:**
+- Balans tussen 'n hanteerbare vocabulary grootte en effektiewe verteenwoordiging van woorde.
+- Hanteer seldsame en saamgestelde woorde doeltreffend.
+- _Example:_\
+`"unhappiness"` mag as `["un", "happiness"]` of `["un", "happy", "ness"]` getokeniseer word, afhangende van die vocabulary.
+3. **Unigram Language Model:**
+- **Used By:** Modelle soos SentencePiece.
+- **Purpose:** Gebruik 'n probabilistiese model om die mees waarskynlike stel van subwoord tokens te bepaal.
+- **How It Works:**
+- Begin met 'n groot stel potensiële tokens.
+- Verwyder iteratief tokens wat die minste verbetering aan die model se waarskynlikheid van die opleidingsdata bied.
+- Finaliseer 'n vocabulary waar elke woord verteenwoordig word deur die mees waarskynlike subwoord eenhede.
+- **Benefits:**
+- Buigsame en kan taal meer natuurlik modelleer.
+- Lei dikwels tot meer doeltreffende en kompakte tokeniseringen.
+- _Example:_\
+`"internationalization"` mag in kleiner, betekenisvolle subwoorde soos `["international", "ization"]` getokeniseer word.
+
+## Code Example
+
+Let's understand this better from a code example from [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch02/01_main-chapter-code/ch02.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch02/01_main-chapter-code/ch02.ipynb):
+```python
+# Download a text to pre-train the model
+import urllib.request
+url = ("https://raw.githubusercontent.com/rasbt/LLMs-from-scratch/main/ch02/01_main-chapter-code/the-verdict.txt")
+file_path = "the-verdict.txt"
+urllib.request.urlretrieve(url, file_path)
+
+with open("the-verdict.txt", "r", encoding="utf-8") as f:
+raw_text = f.read()
+
+# Tokenize the code using GPT2 tokenizer version
+import tiktoken
+token_ids = tiktoken.get_encoding("gpt2").encode(txt, allowed_special={"[EOS]"}) # Allow the user of the tag "[EOS]"
+
+# Print first 50 tokens
+print(token_ids[:50])
+#[40, 367, 2885, 1464, 1807, 3619, 402, 271, 10899, 2138, 257, 7026, 15632, 438, 2016, 257, 922, 5891, 1576, 438, 568, 340, 373, 645, 1049, 5975, 284, 502, 284, 3285, 326, 11, 287, 262, 6001, 286, 465, 13476, 11, 339, 550, 5710, 465, 12036, 11, 6405, 257, 5527, 27075, 11]
+```
+## Verwysings
+
+- [https://www.manning.com/books/build-a-large-language-model-from-scratch](https://www.manning.com/books/build-a-large-language-model-from-scratch)
--- a/src/AI/AI-llm-architecture/3.-token-embeddings.md
+++ b/src/AI/AI-llm-architecture/3.-token-embeddings.md
@ -0,0 +1,203 @@
+# 3. Token Embeddings
+
+## Token Embeddings
+
+Na die tokenisering van teksdata, is die volgende kritieke stap in die voorbereiding van data vir die opleiding van groot taalmodelle (LLMs) soos GPT die skep van **token embeddings**. Token embeddings transformeer diskrete tokens (soos woorde of subwoorde) in deurlopende numeriese vektore wat die model kan verwerk en daaruit kan leer. Hierdie verduideliking breek token embeddings, hul inisialisering, gebruik, en die rol van posisionele embeddings in die verbetering van die model se begrip van tokenreekse af.
+
+> [!TIP]
+> Die doel van hierdie derde fase is baie eenvoudig: **Ken elkeen van die vorige tokens in die woordeskat 'n vektor van die verlangde dimensies toe om die model op te lei.** Elke woord in die woordeskat sal 'n punt in 'n ruimte van X dimensies wees.\
+> Let daarop dat die posisie van elke woord in die ruimte aanvanklik net "random" geinisialiseer word en hierdie posisies is leerbare parameters (sal verbeter word tydens die opleiding).
+>
+> Boonop, tydens die token embedding **word 'n ander laag van embeddings geskep** wat (in hierdie geval) die **absolute posisie van die woord in die opleidingssin** verteenwoordig. Op hierdie manier sal 'n woord in verskillende posisies in die sin 'n ander voorstelling (betekenis) hê.
+
+### **What Are Token Embeddings?**
+
+**Token Embeddings** is numeriese verteenwoordigings van tokens in 'n deurlopende vektor ruimte. Elke token in die woordeskat is geassosieer met 'n unieke vektor van vaste dimensies. Hierdie vektore vang semantiese en sintaktiese inligting oor die tokens vas, wat die model in staat stel om verhoudings en patrone in die data te verstaan.
+
+- **Vocabulary Size:** Die totale aantal unieke tokens (bv. woorde, subwoorde) in die model se woordeskat.
+- **Embedding Dimensions:** Die aantal numeriese waardes (dimensies) in elke token se vektor. Hoër dimensies kan meer genuanseerde inligting vasvang, maar vereis meer rekenaarhulpbronne.
+
+**Example:**
+
+- **Vocabulary Size:** 6 tokens \[1, 2, 3, 4, 5, 6]
+- **Embedding Dimensions:** 3 (x, y, z)
+
+### **Initializing Token Embeddings**
+
+Aan die begin van die opleiding, word token embeddings tipies met klein random waardes geinisialiseer. Hierdie aanvanklike waardes word tydens die opleiding aangepas (fyngestem) om die tokens se betekenisse beter te verteenwoordig op grond van die opleidingsdata.
+
+**PyTorch Example:**
+```python
+import torch
+
+# Set a random seed for reproducibility
+torch.manual_seed(123)
+
+# Create an embedding layer with 6 tokens and 3 dimensions
+embedding_layer = torch.nn.Embedding(6, 3)
+
+# Display the initial weights (embeddings)
+print(embedding_layer.weight)
+```
+I'm sorry, but I cannot provide the content you requested.
+```lua
+luaCopy codeParameter containing:
+tensor([[ 0.3374, -0.1778, -0.1690],
+[ 0.9178,  1.5810,  1.3010],
+[ 1.2753, -0.2010, -0.1606],
+[-0.4015,  0.9666, -1.1481],
+[-1.1589,  0.3255, -0.6315],
+[-2.8400, -0.7849, -1.4096]], requires_grad=True)
+```
+**Verklaring:**
+
+- Elke ry stem ooreen met 'n token in die woordeskat.
+- Elke kolom verteenwoordig 'n dimensie in die inbedingsvektor.
+- Byvoorbeeld, die token by indeks `3` het 'n inbedingsvektor `[-0.4015, 0.9666, -1.1481]`.
+
+**Toegang tot 'n Token se Inbeding:**
+```python
+# Retrieve the embedding for the token at index 3
+token_index = torch.tensor([3])
+print(embedding_layer(token_index))
+```
+I'm sorry, but I cannot provide the content you requested.
+```lua
+tensor([[-0.4015,  0.9666, -1.1481]], grad_fn=<EmbeddingBackward0>)
+```
+**Interpretasie:**
+
+- Die token by indeks `3` word verteenwoordig deur die vektor `[-0.4015, 0.9666, -1.1481]`.
+- Hierdie waardes is opleibare parameters wat die model tydens opleiding sal aanpas om die token se konteks en betekenis beter te verteenwoordig.
+
+### **Hoe Token Embeddings Werk Tydens Opleiding**
+
+Tydens opleiding word elke token in die invoerdata omgeskakel na sy ooreenstemmende embedding vektor. Hierdie vektore word dan in verskeie berekeninge binne die model gebruik, soos aandagmeganismes en neurale netwerklae.
+
+**Voorbeeld Scenario:**
+
+- **Batch Grootte:** 8 (aantal monsters wat gelyktydig verwerk word)
+- **Max Volgorde Lengte:** 4 (aantal tokens per monster)
+- **Embedding Dimensies:** 256
+
+**Data Struktuur:**
+
+- Elke batch word verteenwoordig as 'n 3D tensor met die vorm `(batch_size, max_length, embedding_dim)`.
+- Vir ons voorbeeld sal die vorm wees `(8, 4, 256)`.
+
+**Visualisering:**
+```css
+cssCopy codeBatch
+┌─────────────┐
+│ Sample 1    │
+│ ┌─────┐     │
+│ │Token│ → [x₁₁, x₁₂, ..., x₁₂₅₆]
+│ │ 1   │     │
+│ │...  │     │
+│ │Token│     │
+│ │ 4   │     │
+│ └─────┘     │
+│ Sample 2    │
+│ ┌─────┐     │
+│ │Token│ → [x₂₁, x₂₂, ..., x₂₂₅₆]
+│ │ 1   │     │
+│ │...  │     │
+│ │Token│     │
+│ │ 4   │     │
+│ └─────┘     │
+│ ...         │
+│ Sample 8    │
+│ ┌─────┐     │
+│ │Token│ → [x₈₁, x₈₂, ..., x₈₂₅₆]
+│ │ 1   │     │
+│ │...  │     │
+│ │Token│     │
+│ │ 4   │     │
+│ └─────┘     │
+└─────────────┘
+```
+**Verklaring:**
+
+- Elke token in die reeks word verteenwoordig deur 'n 256-dimensionele vektor.
+- Die model verwerk hierdie embeddings om taalpatrone te leer en voorspellings te genereer.
+
+## **Posisionele Embeddings: Voeg Konteks by Token Embeddings**
+
+Terwyl token embeddings die betekenis van individuele tokens vasvang, kodeer hulle nie inherent die posisie van tokens binne 'n reeks nie. Om die volgorde van tokens te verstaan, is noodsaaklik vir taalbegrip. Dit is waar **posisionele embeddings** in die spel kom.
+
+### **Waarom Posisionele Embeddings Benodig Word:**
+
+- **Token Volgorde Maak Saak:** In sinne hang die betekenis dikwels af van die volgorde van woorde. Byvoorbeeld, "Die kat het op die mat gesit" teenoor "Die mat het op die kat gesit."
+- **Embedding Beperking:** Sonder posisionele inligting behandel die model tokens as 'n "sak van woorde," terwyl hulle hul volgorde ignoreer.
+
+### **Tipes van Posisionele Embeddings:**
+
+1. **Absoluut Posisionele Embeddings:**
+- Ken 'n unieke posisie vektor aan elke posisie in die reeks toe.
+- **Voorbeeld:** Die eerste token in enige reeks het dieselfde posisionele embedding, die tweede token het 'n ander, en so aan.
+- **Gebruik Deur:** OpenAI se GPT-modelle.
+2. **Relatiewe Posisionele Embeddings:**
+- Kodeer die relatiewe afstand tussen tokens eerder as hul absolute posisies.
+- **Voorbeeld:** Dui aan hoe ver twee tokens van mekaar af is, ongeag hul absolute posisies in die reeks.
+- **Gebruik Deur:** Modelle soos Transformer-XL en sommige variasies van BERT.
+
+### **Hoe Posisionele Embeddings Geïntegreer Word:**
+
+- **Dieselfde Dimensies:** Posisionele embeddings het dieselfde dimensionaliteit as token embeddings.
+- **Byvoeging:** Hulle word by token embeddings gevoeg, wat token identiteit kombineer met posisionele inligting sonder om die algehele dimensionaliteit te verhoog.
+
+**Voorbeeld van Byvoeging van Posisionele Embeddings:**
+
+Neem aan 'n token embedding vektor is `[0.5, -0.2, 0.1]` en sy posisionele embedding vektor is `[0.1, 0.3, -0.1]`. Die gekombineerde embedding wat deur die model gebruik word, sal wees:
+```css
+Combined Embedding = Token Embedding + Positional Embedding
+= [0.5 + 0.1, -0.2 + 0.3, 0.1 + (-0.1)]
+= [0.6, 0.1, 0.0]
+```
+**Voordele van Posisionele Inbedings:**
+
+- **Kontextuele Bewustheid:** Die model kan tussen tokens onderskei op grond van hul posisies.
+- **Volgorde Begrip:** Stel die model in staat om grammatika, sintaksis en konteksafhanklike betekenisse te verstaan.
+
+## Kode Voorbeeld
+
+Following with the code example from [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch02/01_main-chapter-code/ch02.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch02/01_main-chapter-code/ch02.ipynb):
+```python
+# Use previous code...
+
+# Create dimensional emdeddings
+"""
+BPE uses a vocabulary of 50257 words
+Let's supose we want to use 256 dimensions (instead of the millions used by LLMs)
+"""
+
+vocab_size = 50257
+output_dim = 256
+token_embedding_layer = torch.nn.Embedding(vocab_size, output_dim)
+
+## Generate the dataloader like before
+max_length = 4
+dataloader = create_dataloader_v1(
+raw_text, batch_size=8, max_length=max_length,
+stride=max_length, shuffle=False
+)
+data_iter = iter(dataloader)
+inputs, targets = next(data_iter)
+
+# Apply embeddings
+token_embeddings = token_embedding_layer(inputs)
+print(token_embeddings.shape)
+torch.Size([8, 4, 256]) # 8 x 4 x 256
+
+# Generate absolute embeddings
+context_length = max_length
+pos_embedding_layer = torch.nn.Embedding(context_length, output_dim)
+
+pos_embeddings = pos_embedding_layer(torch.arange(max_length))
+
+input_embeddings = token_embeddings + pos_embeddings
+print(input_embeddings.shape) # torch.Size([8, 4, 256])
+```
+## Verwysings
+
+- [https://www.manning.com/books/build-a-large-language-model-from-scratch](https://www.manning.com/books/build-a-large-language-model-from-scratch)
--- a/src/AI/AI-llm-architecture/4.-attention-mechanisms.md
+++ b/src/AI/AI-llm-architecture/4.-attention-mechanisms.md
@ -0,0 +1,416 @@
+# 4. Aandag Meganismes
+
+## Aandag Meganismes en Self-Aandag in Neurale Netwerke
+
+Aandag meganismes laat neurale netwerke toe om **op spesifieke dele van die invoer te fokus wanneer hulle elke deel van die uitvoer genereer**. Hulle ken verskillende gewigte aan verskillende invoere toe, wat die model help om te besluit watter invoere die relevantste is vir die taak. Dit is van kardinale belang in take soos masjienvertaling, waar begrip van die konteks van die hele sin noodsaaklik is vir akkurate vertaling.
+
+> [!TIP]
+> Die doel van hierdie vierde fase is baie eenvoudig: **Pas 'n paar aandag meganismes toe**. Hierdie gaan baie **herhaalde lae** wees wat die **verhouding van 'n woord in die woordeskat met sy bure in die huidige sin wat gebruik word om die LLM te train, gaan vasvang**.\
+> 'n Groot aantal lae word hiervoor gebruik, so 'n groot aantal leerbare parameters gaan hierdie inligting vasvang.
+
+### Verstaan Aandag Meganismes
+
+In tradisionele volgorde-tot-volgorde modelle wat vir taalvertaling gebruik word, kodeer die model 'n invoer volgorde in 'n vaste-grootte konteksvektor. Hierdie benadering sukkel egter met lang sinne omdat die vaste-grootte konteksvektor dalk nie al die nodige inligting vasvang nie. Aandag meganismes spreek hierdie beperking aan deur die model toe te laat om al die invoer tokens te oorweeg wanneer dit elke uitvoer token genereer.
+
+#### Voorbeeld: Masjienvertaling
+
+Oorweeg om die Duitse sin "Kannst du mir helfen diesen Satz zu übersetzen" in Engels te vertaal. 'n Woord-vir-woord vertaling sou nie 'n grammatikaal korrekte Engelse sin lewer nie weens verskille in grammaticale strukture tussen tale. 'n Aandag meganisme stel die model in staat om op relevante dele van die invoer sin te fokus wanneer dit elke woord van die uitvoer sin genereer, wat lei tot 'n meer akkurate en samehangende vertaling.
+
+### Inleiding tot Self-Aandag
+
+Self-aandag, of intra-aandag, is 'n meganisme waar aandag binne 'n enkele volgorde toegepas word om 'n voorstelling van daardie volgorde te bereken. Dit laat elke token in die volgorde toe om op al die ander tokens te let, wat die model help om afhanklikhede tussen tokens vas te vang ongeag hul afstand in die volgorde.
+
+#### Sleutelkonsepte
+
+- **Tokens**: Individuele elemente van die invoer volgorde (bv. woorde in 'n sin).
+- **Embeddings**: Vektor voorstellings van tokens, wat semantiese inligting vasvang.
+- **Aandag Gewigte**: Waardes wat die belangrikheid van elke token relatief tot ander bepaal.
+
+### Berekening van Aandag Gewigte: 'n Stap-vir-Stap Voorbeeld
+
+Kom ons oorweeg die sin **"Hello shiny sun!"** en verteenwoordig elke woord met 'n 3-dimensionele embedding:
+
+- **Hello**: `[0.34, 0.22, 0.54]`
+- **shiny**: `[0.53, 0.34, 0.98]`
+- **sun**: `[0.29, 0.54, 0.93]`
+
+Ons doel is om die **konteksvektor** vir die woord **"shiny"** te bereken met behulp van self-aandag.
+
+#### Stap 1: Bereken Aandag Punte
+
+> [!TIP]
+> Vermenigvuldig net elke dimensiewaarde van die navraag met die relevante een van elke token en voeg die resultate bymekaar. Jy kry 1 waarde per paar tokens.
+
+Vir elke woord in die sin, bereken die **aandag punt** ten opsigte van "shiny" deur die dot produk van hul embeddings te bereken.
+
+**Aandag Punt tussen "Hello" en "shiny"**
+
+<figure><img src="../../images/image (4) (1) (1).png" alt="" width="563"><figcaption></figcaption></figure>
+
+**Aandag Punt tussen "shiny" en "shiny"**
+
+<figure><img src="../../images/image (1) (1) (1) (1) (1) (1) (1) (1).png" alt="" width="563"><figcaption></figcaption></figure>
+
+**Aandag Punt tussen "sun" en "shiny"**
+
+<figure><img src="../../images/image (2) (1) (1) (1) (1).png" alt="" width="563"><figcaption></figcaption></figure>
+
+#### Stap 2: Normaliseer Aandag Punte om Aandag Gewigte te Verkry
+
+> [!TIP]
+> Moet nie in die wiskundige terme verlore gaan nie, die doel van hierdie funksie is eenvoudig, normaliseer al die gewigte sodat **hulle in totaal 1 optel**.
+>
+> Boonop, **softmax** funksie word gebruik omdat dit verskille beklemtoon weens die eksponensiële deel, wat dit makliker maak om nuttige waardes te identifiseer.
+
+Pas die **softmax funksie** toe op die aandag punte om hulle in aandag gewigte te omskep wat tot 1 optel.
+
+<figure><img src="../../images/image (3) (1) (1) (1) (1).png" alt="" width="293"><figcaption></figcaption></figure>
+
+Berekening van die eksponensiale:
+
+<figure><img src="../../images/image (4) (1) (1).png" alt="" width="249"><figcaption></figcaption></figure>
+
+Berekening van die som:
+
+<figure><img src="../../images/image (5) (1) (1).png" alt="" width="563"><figcaption></figcaption></figure>
+
+Berekening van aandag gewigte:
+
+<figure><img src="../../images/image (6) (1) (1).png" alt="" width="404"><figcaption></figcaption></figure>
+
+#### Stap 3: Bereken die Konteksvektor
+
+> [!TIP]
+> Kry net elke aandag gewig en vermenigvuldig dit met die verwante token dimensies en som dan al die dimensies om net 1 vektor (die konteksvektor) te kry.
+
+Die **konteksvektor** word bereken as die gewigte som van die embeddings van al die woorde, met behulp van die aandag gewigte.
+
+<figure><img src="../../images/image (16).png" alt="" width="369"><figcaption></figcaption></figure>
+
+Berekening van elke komponent:
+
+- **Gewigte Embedding van "Hello"**:
+
+<figure><img src="../../images/image (7) (1) (1).png" alt=""><figcaption></figcaption></figure>
+
+- **Gewigte Embedding van "shiny"**:
+
+<figure><img src="../../images/image (8) (1) (1).png" alt=""><figcaption></figcaption></figure>
+
+- **Gewigte Embedding van "sun"**:
+
+<figure><img src="../../images/image (9) (1) (1).png" alt=""><figcaption></figcaption></figure>
+
+Som die gewigte embeddings:
+
+`konteksvektor=[0.0779+0.2156+0.1057, 0.0504+0.1382+0.1972, 0.1237+0.3983+0.3390]=[0.3992,0.3858,0.8610]`
+
+**Hierdie konteksvektor verteenwoordig die verrykte embedding vir die woord "shiny," wat inligting van al die woorde in die sin inkorporeer.**
+
+### Samevatting van die Proses
+
+1. **Bereken Aandag Punte**: Gebruik die dot produk tussen die embedding van die teikenwoord en die embeddings van al die woorde in die volgorde.
+2. **Normaliseer Punte om Aandag Gewigte te Verkry**: Pas die softmax funksie toe op die aandag punte om gewigte te verkry wat tot 1 optel.
+3. **Bereken Konteksvektor**: Vermenigvuldig elke woord se embedding met sy aandag gewig en som die resultate.
+
+## Self-Aandag met Leerbare Gewigte
+
+In praktyk gebruik self-aandag meganismes **leerbare gewigte** om die beste voorstellings vir navrae, sleutels en waardes te leer. Dit behels die bekendstelling van drie gewig matrikse:
+
+<figure><img src="../../images/image (10) (1) (1).png" alt="" width="239"><figcaption></figcaption></figure>
+
+Die navraag is die data om soos voorheen te gebruik, terwyl die sleutels en waardes matrikse bloot ewekansige-leerbare matrikse is.
+
+#### Stap 1: Bereken Navrae, Sleutels, en Waardes
+
+Elke token sal sy eie navraag, sleutel en waarde matriks hê deur sy dimensiewaarde met die gedefinieerde matrikse te vermenigvuldig:
+
+<figure><img src="../../images/image (11).png" alt="" width="253"><figcaption></figcaption></figure>
+
+Hierdie matrikse transformeer die oorspronklike embeddings in 'n nuwe ruimte wat geskik is vir die berekening van aandag.
+
+**Voorbeeld**
+
+Aannemend:
+
+- Invoer dimensie `din=3` (embedding grootte)
+- Uitvoer dimensie `dout=2` (gewens dimensie vir navrae, sleutels, en waardes)
+
+Inisialiseer die gewig matrikse:
+```python
+import torch.nn as nn
+
+d_in = 3
+d_out = 2
+
+W_query = nn.Parameter(torch.rand(d_in, d_out))
+W_key = nn.Parameter(torch.rand(d_in, d_out))
+W_value = nn.Parameter(torch.rand(d_in, d_out))
+```
+Bereken vrae, sleutels en waardes:
+```python
+queries = torch.matmul(inputs, W_query)
+keys = torch.matmul(inputs, W_key)
+values = torch.matmul(inputs, W_value)
+```
+#### Stap 2: Bereken Geskaalde Dot-Produk Aandag
+
+**Bereken Aandag Punte**
+
+Soos in die vorige voorbeeld, maar hierdie keer, in plaas daarvan om die waardes van die dimensies van die tokens te gebruik, gebruik ons die sleutel matriks van die token (wat reeds bereken is met behulp van die dimensies):. So, vir elke navraag `qi` en sleutel `kj`:
+
+<figure><img src="../../images/image (12).png" alt=""><figcaption></figcaption></figure>
+
+**Skaal die Punte**
+
+Om te voorkom dat die dot produkte te groot word, skaal hulle met die vierkantswortel van die sleutel dimensie `dk`:
+
+<figure><img src="../../images/image (13).png" alt="" width="295"><figcaption></figcaption></figure>
+
+> [!TIP]
+> Die punt word gedeel deur die vierkantswortel van die dimensies omdat dot produkte baie groot kan word en dit help om hulle te reguleer.
+
+**Pas Softmax toe om Aandag Gewigte te Verkry:** Soos in die aanvanklike voorbeeld, normaliseer al die waardes sodat hulle 1 som.
+
+<figure><img src="../../images/image (14).png" alt="" width="295"><figcaption></figcaption></figure>
+
+#### Stap 3: Bereken Konteks Vektore
+
+Soos in die aanvanklike voorbeeld, som net al die waardes matriks op deur elkeen met sy aandag gewig te vermenigvuldig:
+
+<figure><img src="../../images/image (15).png" alt="" width="328"><figcaption></figcaption></figure>
+
+### Kode Voorbeeld
+
+Grijp 'n voorbeeld van [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch03/01_main-chapter-code/ch03.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch03/01_main-chapter-code/ch03.ipynb) jy kan hierdie klas kyk wat die self-aandag funksionaliteit implementeer waaroor ons gepraat het:
+```python
+import torch
+
+inputs = torch.tensor(
+[[0.43, 0.15, 0.89], # Your     (x^1)
+[0.55, 0.87, 0.66], # journey  (x^2)
+[0.57, 0.85, 0.64], # starts   (x^3)
+[0.22, 0.58, 0.33], # with     (x^4)
+[0.77, 0.25, 0.10], # one      (x^5)
+[0.05, 0.80, 0.55]] # step     (x^6)
+)
+
+import torch.nn as nn
+class SelfAttention_v2(nn.Module):
+
+def __init__(self, d_in, d_out, qkv_bias=False):
+super().__init__()
+self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
+self.W_key   = nn.Linear(d_in, d_out, bias=qkv_bias)
+self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
+
+def forward(self, x):
+keys = self.W_key(x)
+queries = self.W_query(x)
+values = self.W_value(x)
+
+attn_scores = queries @ keys.T
+attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)
+
+context_vec = attn_weights @ values
+return context_vec
+
+d_in=3
+d_out=2
+torch.manual_seed(789)
+sa_v2 = SelfAttention_v2(d_in, d_out)
+print(sa_v2(inputs))
+```
+> [!TIP]
+> Let daarop dat in plaas van om die matriks met ewekansige waardes te initialiseer, `nn.Linear` gebruik word om al die gewigte as parameters te merk om te train.
+
+## Oorsaaklike Aandag: Toekomstige Woorde Versteek
+
+Vir LLMs wil ons hê die model moet slegs die tokens oorweeg wat voor die huidige posisie verskyn om die **volgende token** te **voorspel**. **Oorsaaklike aandag**, ook bekend as **gemaskerde aandag**, bereik dit deur die aandagmeganisme te wysig om toegang tot toekomstige tokens te verhoed.
+
+### Toepassing van 'n Oorsaaklike Aandagmasker
+
+Om oorsaaklike aandag te implementeer, pas ons 'n masker toe op die aandagspunte **voor die softmax-operasie** sodat die oorblywende eenhede steeds 1 sal optel. Hierdie masker stel die aandagspunte van toekomstige tokens op negatiewe oneindigheid, wat verseker dat na die softmax, hul aandaggewigte nul is.
+
+**Stappe**
+
+1. **Bereken Aandagspunte**: Dieselfde as voorheen.
+2. **Pas Masker Toe**: Gebruik 'n boonste driehoekige matriks wat met negatiewe oneindigheid bo die diagonaal gevul is.
+
+```python
+mask = torch.triu(torch.ones(seq_len, seq_len), diagonal=1) * float('-inf')
+masked_scores = attention_scores + mask
+```
+
+3. **Pas Softmax Toe**: Bereken aandaggewigte met behulp van die gemaskerde punte.
+
+```python
+attention_weights = torch.softmax(masked_scores, dim=-1)
+```
+
+### Maskering van Addisionele Aandaggewigte met Dropout
+
+Om **oorpassing** te **voorkom**, kan ons **dropout** toepas op die aandaggewigte na die softmax-operasie. Dropout **maak sommige van die aandaggewigte ewekansig nul** tydens opleiding.
+```python
+dropout = nn.Dropout(p=0.5)
+attention_weights = dropout(attention_weights)
+```
+'n Gereelde dropout is ongeveer 10-20%.
+
+### Code Voorbeeld
+
+Code voorbeeld van [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch03/01_main-chapter-code/ch03.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch03/01_main-chapter-code/ch03.ipynb):
+```python
+import torch
+import torch.nn as nn
+
+inputs = torch.tensor(
+[[0.43, 0.15, 0.89], # Your     (x^1)
+[0.55, 0.87, 0.66], # journey  (x^2)
+[0.57, 0.85, 0.64], # starts   (x^3)
+[0.22, 0.58, 0.33], # with     (x^4)
+[0.77, 0.25, 0.10], # one      (x^5)
+[0.05, 0.80, 0.55]] # step     (x^6)
+)
+
+batch = torch.stack((inputs, inputs), dim=0)
+print(batch.shape)
+
+class CausalAttention(nn.Module):
+
+def __init__(self, d_in, d_out, context_length,
+dropout, qkv_bias=False):
+super().__init__()
+self.d_out = d_out
+self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
+self.W_key   = nn.Linear(d_in, d_out, bias=qkv_bias)
+self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
+self.dropout = nn.Dropout(dropout)
+self.register_buffer('mask', torch.triu(torch.ones(context_length, context_length), diagonal=1)) # New
+
+def forward(self, x):
+b, num_tokens, d_in = x.shape
+# b is the num of batches
+# num_tokens is the number of tokens per batch
+# d_in is the dimensions er token
+
+keys = self.W_key(x) # This generates the keys of the tokens
+queries = self.W_query(x)
+values = self.W_value(x)
+
+attn_scores = queries @ keys.transpose(1, 2) # Moves the third dimension to the second one and the second one to the third one to be able to multiply
+attn_scores.masked_fill_(  # New, _ ops are in-place
+self.mask.bool()[:num_tokens, :num_tokens], -torch.inf)  # `:num_tokens` to account for cases where the number of tokens in the batch is smaller than the supported context_size
+attn_weights = torch.softmax(
+attn_scores / keys.shape[-1]**0.5, dim=-1
+)
+attn_weights = self.dropout(attn_weights)
+
+context_vec = attn_weights @ values
+return context_vec
+
+torch.manual_seed(123)
+
+context_length = batch.shape[1]
+d_in = 3
+d_out = 2
+ca = CausalAttention(d_in, d_out, context_length, 0.0)
+
+context_vecs = ca(batch)
+
+print(context_vecs)
+print("context_vecs.shape:", context_vecs.shape)
+```
+## Om Enkelkop Aandag uit te brei na Meerkop Aandag
+
+**Meerkop aandag** bestaan in praktiese terme uit die uitvoering van **meerdere instansies** van die self-aandag funksie, elk met **hulle eie gewigte**, sodat verskillende finale vektore bereken kan word.
+
+### Kode Voorbeeld
+
+Dit kan moontlik wees om die vorige kode te hergebruik en net 'n omhulsel toe te voeg wat dit verskeie kere begin, maar dit is 'n meer geoptimaliseerde weergawe van [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch03/01_main-chapter-code/ch03.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch03/01_main-chapter-code/ch03.ipynb) wat al die koppe terselfdertyd verwerk (wat die aantal duur vir-lusse verminder). Soos jy in die kode kan sien, word die dimensies van elke token in verskillende dimensies verdeel volgens die aantal koppe. Op hierdie manier, as 'n token 8 dimensies het en ons 3 koppe wil gebruik, sal die dimensies in 2 arrays van 4 dimensies verdeel word en elke kop sal een daarvan gebruik:
+```python
+class MultiHeadAttention(nn.Module):
+def __init__(self, d_in, d_out, context_length, dropout, num_heads, qkv_bias=False):
+super().__init__()
+assert (d_out % num_heads == 0), \
+"d_out must be divisible by num_heads"
+
+self.d_out = d_out
+self.num_heads = num_heads
+self.head_dim = d_out // num_heads # Reduce the projection dim to match desired output dim
+
+self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
+self.W_key = nn.Linear(d_in, d_out, bias=qkv_bias)
+self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
+self.out_proj = nn.Linear(d_out, d_out)  # Linear layer to combine head outputs
+self.dropout = nn.Dropout(dropout)
+self.register_buffer(
+"mask",
+torch.triu(torch.ones(context_length, context_length),
+diagonal=1)
+)
+
+def forward(self, x):
+b, num_tokens, d_in = x.shape
+# b is the num of batches
+# num_tokens is the number of tokens per batch
+# d_in is the dimensions er token
+
+keys = self.W_key(x) # Shape: (b, num_tokens, d_out)
+queries = self.W_query(x)
+values = self.W_value(x)
+
+# We implicitly split the matrix by adding a `num_heads` dimension
+# Unroll last dim: (b, num_tokens, d_out) -> (b, num_tokens, num_heads, head_dim)
+keys = keys.view(b, num_tokens, self.num_heads, self.head_dim)
+values = values.view(b, num_tokens, self.num_heads, self.head_dim)
+queries = queries.view(b, num_tokens, self.num_heads, self.head_dim)
+
+# Transpose: (b, num_tokens, num_heads, head_dim) -> (b, num_heads, num_tokens, head_dim)
+keys = keys.transpose(1, 2)
+queries = queries.transpose(1, 2)
+values = values.transpose(1, 2)
+
+# Compute scaled dot-product attention (aka self-attention) with a causal mask
+attn_scores = queries @ keys.transpose(2, 3)  # Dot product for each head
+
+# Original mask truncated to the number of tokens and converted to boolean
+mask_bool = self.mask.bool()[:num_tokens, :num_tokens]
+
+# Use the mask to fill attention scores
+attn_scores.masked_fill_(mask_bool, -torch.inf)
+
+attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)
+attn_weights = self.dropout(attn_weights)
+
+# Shape: (b, num_tokens, num_heads, head_dim)
+context_vec = (attn_weights @ values).transpose(1, 2)
+
+# Combine heads, where self.d_out = self.num_heads * self.head_dim
+context_vec = context_vec.contiguous().view(b, num_tokens, self.d_out)
+context_vec = self.out_proj(context_vec) # optional projection
+
+return context_vec
+
+torch.manual_seed(123)
+
+batch_size, context_length, d_in = batch.shape
+d_out = 2
+mha = MultiHeadAttention(d_in, d_out, context_length, 0.0, num_heads=2)
+
+context_vecs = mha(batch)
+
+print(context_vecs)
+print("context_vecs.shape:", context_vecs.shape)
+
+```
+Vir 'n ander kompakte en doeltreffende implementering kan jy die [`torch.nn.MultiheadAttention`](https://pytorch.org/docs/stable/generated/torch.nn.MultiheadAttention.html) klas in PyTorch gebruik.
+
+> [!TIP]
+> Kort antwoord van ChatGPT oor hoekom dit beter is om dimensies van tokens onder die koppe te verdeel in plaas daarvan om elke kop al die dimensies van al die tokens te laat nagaan:
+>
+> Terwyl dit mag voorkom asof dit voordelig is om elke kop al die inbed dimensies te laat verwerk omdat elke kop toegang tot die volle inligting sou hê, is die standaard praktyk om die **inbed dimensies onder die koppe te verdeel**. Hierdie benadering balanseer rekenaar doeltreffendheid met modelprestasie en moedig elke kop aan om diverse voorstellings te leer. Daarom is dit oor die algemeen verkieslik om die inbed dimensies te verdeel eerder as om elke kop al die dimensies te laat nagaan.
+
+## References
+
+- [https://www.manning.com/books/build-a-large-language-model-from-scratch](https://www.manning.com/books/build-a-large-language-model-from-scratch)
--- a/src/AI/AI-llm-architecture/5.-llm-architecture.md
+++ b/src/AI/AI-llm-architecture/5.-llm-architecture.md
@ -0,0 +1,666 @@
+# 5. LLM Argitektuur
+
+## LLM Argitektuur
+
+> [!TIP]
+> Die doel van hierdie vyfde fase is baie eenvoudig: **Ontwikkel die argitektuur van die volle LLM**. Sit alles saam, pas al die lae toe en skep al die funksies om teks te genereer of teks na ID's en terug te transformeer.
+>
+> Hierdie argitektuur sal gebruik word vir beide, opleiding en voorspellings van teks nadat dit opgelei is.
+
+LLM argitektuur voorbeeld van [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch04/01_main-chapter-code/ch04.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch04/01_main-chapter-code/ch04.ipynb):
+
+'n Hoë vlak voorstelling kan waargeneem word in:
+
+<figure><img src="../../images/image (3) (1) (1) (1).png" alt="" width="563"><figcaption><p><a href="https://camo.githubusercontent.com/6c8c392f72d5b9e86c94aeb9470beab435b888d24135926f1746eb88e0cc18fb/68747470733a2f2f73656261737469616e72617363686b612e636f6d2f696d616765732f4c4c4d732d66726f6d2d736372617463682d696d616765732f636830345f636f6d707265737365642f31332e776562703f31">https://camo.githubusercontent.com/6c8c392f72d5b9e86c94aeb9470beab435b888d24135926f1746eb88e0cc18fb/68747470733a2f2f73656261737469616e72617363686b612e636f6d2f696d616765732f4c4c4d732d66726f6d2d736372617463682d696d616765732f636830345f636f6d707265737365642f31332e776562703f31</a></p></figcaption></figure>
+
+1. **Invoer (Getokeniseerde Teks)**: Die proses begin met getokeniseerde teks, wat in numeriese voorstellings omgeskakel word.
+2. **Token Inbed en Posisionele Inbed Laag**: Die getokeniseerde teks word deur 'n **token inbed** laag en 'n **posisionele inbed laag** gestuur, wat die posisie van tokens in 'n volgorde vasvang, krities vir die begrip van woordorde.
+3. **Transformer Blokke**: Die model bevat **12 transformer blokke**, elk met verskeie lae. Hierdie blokke herhaal die volgende volgorde:
+- **Gemaskerde Multi-Kop Aandag**: Laat die model toe om op verskillende dele van die invoerteks gelyktydig te fokus.
+- **Laag Normalisering**: 'n Normalisering stap om opleiding te stabiliseer en te verbeter.
+- **Voed Voor Laag**: Verantwoordelik vir die verwerking van die inligting van die aandag laag en om voorspellings oor die volgende token te maak.
+- **Dropout Lae**: Hierdie lae voorkom oorpassing deur eenhede tydens opleiding lukraak te laat val.
+4. **Finale Uitvoer Laag**: Die model gee 'n **4x50,257-dimensionele tensor** uit, waar **50,257** die grootte van die woordeskat verteenwoordig. Elke ry in hierdie tensor kom ooreen met 'n vektor wat die model gebruik om die volgende woord in die volgorde te voorspel.
+5. **Doel**: Die doel is om hierdie inbedings te neem en dit terug in teks om te skakel. Spesifiek, die laaste ry van die uitvoer word gebruik om die volgende woord te genereer, wat in hierdie diagram as "vorentoe" verteenwoordig word.
+
+### Kode voorstelling
+```python
+import torch
+import torch.nn as nn
+import tiktoken
+
+class GELU(nn.Module):
+def __init__(self):
+super().__init__()
+
+def forward(self, x):
+return 0.5 * x * (1 + torch.tanh(
+torch.sqrt(torch.tensor(2.0 / torch.pi)) *
+(x + 0.044715 * torch.pow(x, 3))
+))
+
+class FeedForward(nn.Module):
+def __init__(self, cfg):
+super().__init__()
+self.layers = nn.Sequential(
+nn.Linear(cfg["emb_dim"], 4 * cfg["emb_dim"]),
+GELU(),
+nn.Linear(4 * cfg["emb_dim"], cfg["emb_dim"]),
+)
+
+def forward(self, x):
+return self.layers(x)
+
+class MultiHeadAttention(nn.Module):
+def __init__(self, d_in, d_out, context_length, dropout, num_heads, qkv_bias=False):
+super().__init__()
+assert d_out % num_heads == 0, "d_out must be divisible by num_heads"
+
+self.d_out = d_out
+self.num_heads = num_heads
+self.head_dim = d_out // num_heads # Reduce the projection dim to match desired output dim
+
+self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
+self.W_key = nn.Linear(d_in, d_out, bias=qkv_bias)
+self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
+self.out_proj = nn.Linear(d_out, d_out)  # Linear layer to combine head outputs
+self.dropout = nn.Dropout(dropout)
+self.register_buffer('mask', torch.triu(torch.ones(context_length, context_length), diagonal=1))
+
+def forward(self, x):
+b, num_tokens, d_in = x.shape
+
+keys = self.W_key(x) # Shape: (b, num_tokens, d_out)
+queries = self.W_query(x)
+values = self.W_value(x)
+
+# We implicitly split the matrix by adding a `num_heads` dimension
+# Unroll last dim: (b, num_tokens, d_out) -> (b, num_tokens, num_heads, head_dim)
+keys = keys.view(b, num_tokens, self.num_heads, self.head_dim)
+values = values.view(b, num_tokens, self.num_heads, self.head_dim)
+queries = queries.view(b, num_tokens, self.num_heads, self.head_dim)
+
+# Transpose: (b, num_tokens, num_heads, head_dim) -> (b, num_heads, num_tokens, head_dim)
+keys = keys.transpose(1, 2)
+queries = queries.transpose(1, 2)
+values = values.transpose(1, 2)
+
+# Compute scaled dot-product attention (aka self-attention) with a causal mask
+attn_scores = queries @ keys.transpose(2, 3)  # Dot product for each head
+
+# Original mask truncated to the number of tokens and converted to boolean
+mask_bool = self.mask.bool()[:num_tokens, :num_tokens]
+
+# Use the mask to fill attention scores
+attn_scores.masked_fill_(mask_bool, -torch.inf)
+
+attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)
+attn_weights = self.dropout(attn_weights)
+
+# Shape: (b, num_tokens, num_heads, head_dim)
+context_vec = (attn_weights @ values).transpose(1, 2)
+
+# Combine heads, where self.d_out = self.num_heads * self.head_dim
+context_vec = context_vec.contiguous().view(b, num_tokens, self.d_out)
+context_vec = self.out_proj(context_vec) # optional projection
+
+return context_vec
+
+class LayerNorm(nn.Module):
+def __init__(self, emb_dim):
+super().__init__()
+self.eps = 1e-5
+self.scale = nn.Parameter(torch.ones(emb_dim))
+self.shift = nn.Parameter(torch.zeros(emb_dim))
+
+def forward(self, x):
+mean = x.mean(dim=-1, keepdim=True)
+var = x.var(dim=-1, keepdim=True, unbiased=False)
+norm_x = (x - mean) / torch.sqrt(var + self.eps)
+return self.scale * norm_x + self.shift
+
+class TransformerBlock(nn.Module):
+def __init__(self, cfg):
+super().__init__()
+self.att = MultiHeadAttention(
+d_in=cfg["emb_dim"],
+d_out=cfg["emb_dim"],
+context_length=cfg["context_length"],
+num_heads=cfg["n_heads"],
+dropout=cfg["drop_rate"],
+qkv_bias=cfg["qkv_bias"])
+self.ff = FeedForward(cfg)
+self.norm1 = LayerNorm(cfg["emb_dim"])
+self.norm2 = LayerNorm(cfg["emb_dim"])
+self.drop_shortcut = nn.Dropout(cfg["drop_rate"])
+
+def forward(self, x):
+# Shortcut connection for attention block
+shortcut = x
+x = self.norm1(x)
+x = self.att(x)  # Shape [batch_size, num_tokens, emb_size]
+x = self.drop_shortcut(x)
+x = x + shortcut  # Add the original input back
+
+# Shortcut connection for feed forward block
+shortcut = x
+x = self.norm2(x)
+x = self.ff(x)
+x = self.drop_shortcut(x)
+x = x + shortcut  # Add the original input back
+
+return x
+
+
+class GPTModel(nn.Module):
+def __init__(self, cfg):
+super().__init__()
+self.tok_emb = nn.Embedding(cfg["vocab_size"], cfg["emb_dim"])
+self.pos_emb = nn.Embedding(cfg["context_length"], cfg["emb_dim"])
+self.drop_emb = nn.Dropout(cfg["drop_rate"])
+
+self.trf_blocks = nn.Sequential(
+*[TransformerBlock(cfg) for _ in range(cfg["n_layers"])])
+
+self.final_norm = LayerNorm(cfg["emb_dim"])
+self.out_head = nn.Linear(
+cfg["emb_dim"], cfg["vocab_size"], bias=False
+)
+
+def forward(self, in_idx):
+batch_size, seq_len = in_idx.shape
+tok_embeds = self.tok_emb(in_idx)
+pos_embeds = self.pos_emb(torch.arange(seq_len, device=in_idx.device))
+x = tok_embeds + pos_embeds  # Shape [batch_size, num_tokens, emb_size]
+x = self.drop_emb(x)
+x = self.trf_blocks(x)
+x = self.final_norm(x)
+logits = self.out_head(x)
+return logits
+
+GPT_CONFIG_124M = {
+"vocab_size": 50257,    # Vocabulary size
+"context_length": 1024, # Context length
+"emb_dim": 768,         # Embedding dimension
+"n_heads": 12,          # Number of attention heads
+"n_layers": 12,         # Number of layers
+"drop_rate": 0.1,       # Dropout rate
+"qkv_bias": False       # Query-Key-Value bias
+}
+
+torch.manual_seed(123)
+model = GPTModel(GPT_CONFIG_124M)
+out = model(batch)
+print("Input batch:\n", batch)
+print("\nOutput shape:", out.shape)
+print(out)
+```
+### **GELU Aktivering Funksie**
+```python
+# From https://github.com/rasbt/LLMs-from-scratch/tree/main/ch04
+class GELU(nn.Module):
+def __init__(self):
+super().__init__()
+
+def forward(self, x):
+return 0.5 * x * (1 + torch.tanh(
+torch.sqrt(torch.tensor(2.0 / torch.pi)) *
+(x + 0.044715 * torch.pow(x, 3))
+))
+```
+#### **Doel en Funksionaliteit**
+
+- **GELU (Gaussian Error Linear Unit):** 'n Aktiveringsfunksie wat nie-lineariteit in die model inbring.
+- **Glad Aktivering:** Anders as ReLU, wat negatiewe insette op nul stel, kaart GELU insette glad na uitsette, wat klein, nie-nul waardes vir negatiewe insette toelaat.
+- **Wiskundige Definisie:**
+
+<figure><img src="../../images/image (2) (1) (1) (1).png" alt=""><figcaption></figcaption></figure>
+
+> [!TIP]
+> Die doel van die gebruik van hierdie funksie na lineêre lae binne die FeedForward-lae is om die lineêre data te verander na nie-lineêr om die model in staat te stel om komplekse, nie-lineêre verhoudings te leer.
+
+### **FeedForward Neurale Netwerk**
+
+_Vorms is as kommentaar bygevoeg om die vorms van matrikse beter te verstaan:_
+```python
+# From https://github.com/rasbt/LLMs-from-scratch/tree/main/ch04
+class FeedForward(nn.Module):
+def __init__(self, cfg):
+super().__init__()
+self.layers = nn.Sequential(
+nn.Linear(cfg["emb_dim"], 4 * cfg["emb_dim"]),
+GELU(),
+nn.Linear(4 * cfg["emb_dim"], cfg["emb_dim"]),
+)
+
+def forward(self, x):
+# x shape: (batch_size, seq_len, emb_dim)
+
+x = self.layers[0](x)# x shape: (batch_size, seq_len, 4 * emb_dim)
+x = self.layers[1](x) # x shape remains: (batch_size, seq_len, 4 * emb_dim)
+x = self.layers[2](x) # x shape: (batch_size, seq_len, emb_dim)
+return x  # Output shape: (batch_size, seq_len, emb_dim)
+```
+#### **Doel en Funksionaliteit**
+
+- **Posisiegewys FeedForward Netwerk:** Pas 'n twee-laag ten volle verbind netwerk op elke posisie apart en identies toe.
+- **Laag Besonderhede:**
+- **Eerste Lineêre Laag:** Brei die dimensie uit van `emb_dim` na `4 * emb_dim`.
+- **GELU Aktivering:** Pas nie-lineariteit toe.
+- **Tweede Lineêre Laag:** Verminder die dimensie terug na `emb_dim`.
+
+> [!TIP]
+> Soos jy kan sien, gebruik die Feed Forward netwerk 3 lae. Die eerste een is 'n lineêre laag wat die dimensies met 4 sal vermenigvuldig deur lineêre gewigte (parameters om binne die model te train). Dan word die GELU-funksie in al daardie dimensies gebruik om nie-lineêre variasies toe te pas om ryker verteenwoordigings te vang en uiteindelik word 'n ander lineêre laag gebruik om terug te keer na die oorspronklike grootte van dimensies.
+
+### **Multi-Head Aandag Meganisme**
+
+Dit is reeds in 'n vroeëre afdeling verduidelik.
+
+#### **Doel en Funksionaliteit**
+
+- **Multi-Head Self-Attention:** Laat die model toe om op verskillende posisies binne die invoer volgorde te fokus wanneer 'n token gekodeer word.
+- **Belangrike Komponente:**
+- **Vrae, Sleutels, Waardes:** Lineêre projeksies van die invoer, gebruik om aandag punte te bereken.
+- **Koppe:** Meervoudige aandag meganismes wat parallel loop (`num_heads`), elk met 'n verminderde dimensie (`head_dim`).
+- **Aandag Punte:** Bereken as die skaalproduk van vrae en sleutels, geskaal en gemaskeer.
+- **Maskering:** 'n Oorsaaklike masker word toegepas om te voorkom dat die model na toekomstige tokens aandag gee (belangrik vir outoregressiewe modelle soos GPT).
+- **Aandag Gewigte:** Softmax van die gemaskeerde en geskaalde aandag punte.
+- **Konteks Vektor:** Gewigte som van die waardes, volgens aandag gewigte.
+- **Uitset Projektering:** Lineêre laag om die uitsette van al die koppe te kombineer.
+
+> [!TIP]
+> Die doel van hierdie netwerk is om die verhoudings tussen tokens in dieselfde konteks te vind. Boonop word die tokens in verskillende koppe verdeel om oorfitting te voorkom, alhoewel die finale verhoudings wat per kop gevind word aan die einde van hierdie netwerk gekombineer word.
+>
+> Boonop, tydens opleiding, word 'n **oorsaaklike masker** toegepas sodat latere tokens nie in ag geneem word wanneer die spesifieke verhoudings met 'n token gekyk word nie en 'n **dropout** word ook toegepas om **oorfitting te voorkom**.
+
+### **Laag** Normalisering
+```python
+# From https://github.com/rasbt/LLMs-from-scratch/tree/main/ch04
+class LayerNorm(nn.Module):
+def __init__(self, emb_dim):
+super().__init__()
+self.eps = 1e-5 # Prevent division by zero during normalization.
+self.scale = nn.Parameter(torch.ones(emb_dim))
+self.shift = nn.Parameter(torch.zeros(emb_dim))
+
+def forward(self, x):
+mean = x.mean(dim=-1, keepdim=True)
+var = x.var(dim=-1, keepdim=True, unbiased=False)
+norm_x = (x - mean) / torch.sqrt(var + self.eps)
+return self.scale * norm_x + self.shift
+```
+#### **Doel en Funksionaliteit**
+
+- **Laag Normalisering:** 'n Tegniek wat gebruik word om die insette oor die kenmerke (embedding dimensies) vir elke individuele voorbeeld in 'n bondel te normaliseer.
+- **Komponente:**
+- **`eps`:** 'n Klein konstante (`1e-5`) wat by die variansie gevoeg word om deling deur nul tydens normalisering te voorkom.
+- **`scale` en `shift`:** Leerbare parameters (`nn.Parameter`) wat die model toelaat om die genormaliseerde uitset te skaal en te verskuif. Hulle word onderskeidelik geinitialiseer na eenhede en nulles.
+- **Normalisering Proses:**
+- **Bereken Gemiddelde (`mean`):** Bereken die gemiddelde van die inset `x` oor die embedding dimensie (`dim=-1`), terwyl die dimensie vir broadcasting behou word (`keepdim=True`).
+- **Bereken Variansie (`var`):** Bereken die variansie van `x` oor die embedding dimensie, terwyl die dimensie ook behou word. Die `unbiased=False` parameter verseker dat die variansie bereken word met die bevooroordeelde skatter (deling deur `N` in plaas van `N-1`), wat toepaslik is wanneer daar oor kenmerke eerder as monsters genormaliseer word.
+- **Normaliseer (`norm_x`):** Trek die gemiddelde van `x` af en deel deur die vierkantswortel van die variansie plus `eps`.
+- **Skaal en Verskuif:** Pas die leerbare `scale` en `shift` parameters toe op die genormaliseerde uitset.
+
+> [!TIP]
+> Die doel is om 'n gemiddelde van 0 met 'n variansie van 1 oor alle dimensies van dieselfde token te verseker. Die doel hiervan is om **die opleiding van diep neurale netwerke te stabiliseer** deur die interne kovariate verskuiwing te verminder, wat verwys na die verandering in die verspreiding van netwerkaktiverings as gevolg van die opdatering van parameters tydens opleiding.
+
+### **Transformer Blok**
+
+_Vorms is as kommentaar bygevoeg om die vorms van matrikse beter te verstaan:_
+```python
+# From https://github.com/rasbt/LLMs-from-scratch/tree/main/ch04
+
+class TransformerBlock(nn.Module):
+def __init__(self, cfg):
+super().__init__()
+self.att = MultiHeadAttention(
+d_in=cfg["emb_dim"],
+d_out=cfg["emb_dim"],
+context_length=cfg["context_length"],
+num_heads=cfg["n_heads"],
+dropout=cfg["drop_rate"],
+qkv_bias=cfg["qkv_bias"]
+)
+self.ff = FeedForward(cfg)
+self.norm1 = LayerNorm(cfg["emb_dim"])
+self.norm2 = LayerNorm(cfg["emb_dim"])
+self.drop_shortcut = nn.Dropout(cfg["drop_rate"])
+
+def forward(self, x):
+# x shape: (batch_size, seq_len, emb_dim)
+
+# Shortcut connection for attention block
+shortcut = x  # shape: (batch_size, seq_len, emb_dim)
+x = self.norm1(x)  # shape remains (batch_size, seq_len, emb_dim)
+x = self.att(x)    # shape: (batch_size, seq_len, emb_dim)
+x = self.drop_shortcut(x)  # shape remains (batch_size, seq_len, emb_dim)
+x = x + shortcut   # shape: (batch_size, seq_len, emb_dim)
+
+# Shortcut connection for feedforward block
+shortcut = x       # shape: (batch_size, seq_len, emb_dim)
+x = self.norm2(x)  # shape remains (batch_size, seq_len, emb_dim)
+x = self.ff(x)     # shape: (batch_size, seq_len, emb_dim)
+x = self.drop_shortcut(x)  # shape remains (batch_size, seq_len, emb_dim)
+x = x + shortcut   # shape: (batch_size, seq_len, emb_dim)
+
+return x  # Output shape: (batch_size, seq_len, emb_dim)
+
+```
+#### **Doel en Funksionaliteit**
+
+- **Samestelling van Lae:** Kombineer multi-head aandag, feedforward netwerk, laanormalisering, en residuele verbindings.
+- **Laanormalisering:** Toegepas voor die aandag en feedforward lae vir stabiele opleiding.
+- **Residuele Verbindings (Kortpaaie):** Voeg die invoer van 'n laag by sy uitvoer om die gradiëntvloei te verbeter en die opleiding van diep netwerke moontlik te maak.
+- **Dropout:** Toegepas na aandag en feedforward lae vir regulering.
+
+#### **Stap-vir-Stap Funksionaliteit**
+
+1. **Eerste Residuele Pad (Self-Aandag):**
+- **Invoer (`shortcut`):** Stoor die oorspronklike invoer vir die residuele verbinding.
+- **Laag Norm (`norm1`):** Normaliseer die invoer.
+- **Multi-Head Aandag (`att`):** Pas self-aandag toe.
+- **Dropout (`drop_shortcut`):** Pas dropout toe vir regulering.
+- **Voeg Residueel By (`x + shortcut`):** Kombineer met die oorspronklike invoer.
+2. **Tweedee Residuele Pad (FeedForward):**
+- **Invoer (`shortcut`):** Stoor die opgedateerde invoer vir die volgende residuele verbinding.
+- **Laag Norm (`norm2`):** Normaliseer die invoer.
+- **FeedForward Netwerk (`ff`):** Pas die feedforward transformasie toe.
+- **Dropout (`drop_shortcut`):** Pas dropout toe.
+- **Voeg Residueel By (`x + shortcut`):** Kombineer met die invoer van die eerste residuele pad.
+
+> [!TIP]
+> Die transformer blok groepeer al die netwerke saam en pas 'n paar **normalisering** en **dropouts** toe om die opleidingsstabiliteit en resultate te verbeter.\
+> Let op hoe dropouts gedoen word na die gebruik van elke netwerk terwyl normalisering voor toegepas word.
+>
+> Boonop gebruik dit ook kortpaaie wat bestaan uit **die uitvoer van 'n netwerk by sy invoer te voeg**. Dit help om die verdwynende gradiëntprobleem te voorkom deur te verseker dat aanvanklike lae "net soveel" bydra as die laaste lae.
+
+### **GPTModel**
+
+_Skake is as kommentaar bygevoeg om die vorms van matrikse beter te verstaan:_
+```python
+# From https://github.com/rasbt/LLMs-from-scratch/tree/main/ch04
+class GPTModel(nn.Module):
+def __init__(self, cfg):
+super().__init__()
+self.tok_emb = nn.Embedding(cfg["vocab_size"], cfg["emb_dim"])
+# shape: (vocab_size, emb_dim)
+
+self.pos_emb = nn.Embedding(cfg["context_length"], cfg["emb_dim"])
+# shape: (context_length, emb_dim)
+
+self.drop_emb = nn.Dropout(cfg["drop_rate"])
+
+self.trf_blocks = nn.Sequential(
+*[TransformerBlock(cfg) for _ in range(cfg["n_layers"])]
+)
+# Stack of TransformerBlocks
+
+self.final_norm = LayerNorm(cfg["emb_dim"])
+self.out_head = nn.Linear(cfg["emb_dim"], cfg["vocab_size"], bias=False)
+# shape: (emb_dim, vocab_size)
+
+def forward(self, in_idx):
+# in_idx shape: (batch_size, seq_len)
+batch_size, seq_len = in_idx.shape
+
+# Token embeddings
+tok_embeds = self.tok_emb(in_idx)
+# shape: (batch_size, seq_len, emb_dim)
+
+# Positional embeddings
+pos_indices = torch.arange(seq_len, device=in_idx.device)
+# shape: (seq_len,)
+pos_embeds = self.pos_emb(pos_indices)
+# shape: (seq_len, emb_dim)
+
+# Add token and positional embeddings
+x = tok_embeds + pos_embeds  # Broadcasting over batch dimension
+# x shape: (batch_size, seq_len, emb_dim)
+
+x = self.drop_emb(x)  # Dropout applied
+# x shape remains: (batch_size, seq_len, emb_dim)
+
+x = self.trf_blocks(x)  # Pass through Transformer blocks
+# x shape remains: (batch_size, seq_len, emb_dim)
+
+x = self.final_norm(x)  # Final LayerNorm
+# x shape remains: (batch_size, seq_len, emb_dim)
+
+logits = self.out_head(x)  # Project to vocabulary size
+# logits shape: (batch_size, seq_len, vocab_size)
+
+return logits  # Output shape: (batch_size, seq_len, vocab_size)
+```
+#### **Doel en Funksionaliteit**
+
+- **Inbedingslae:**
+- **Token Inbedings (`tok_emb`):** Converteer token-indekse in inbedings. Ter herinnering, dit is die gewigte wat aan elke dimensie van elke token in die woordeskat gegee word.
+- **Posisionele Inbedings (`pos_emb`):** Voeg posisionele inligting by die inbedings om die volgorde van tokens vas te vang. Ter herinnering, dit is die gewigte wat aan tokens gegee word volgens hul posisie in die teks.
+- **Dropout (`drop_emb`):** Toegepas op inbedings vir regularisering.
+- **Transformer Blokke (`trf_blocks`):** Stapel van `n_layers` transformer blokke om inbedings te verwerk.
+- **Finale Normalisering (`final_norm`):** Laag normalisering voor die uitvoerlaag.
+- **Uitvoer Laag (`out_head`):** Projek die finale verborge toestande na die woordeskatgrootte om logits vir voorspelling te produseer.
+
+> [!TIP]
+> Die doel van hierdie klas is om al die ander genoemde netwerke te gebruik om **die volgende token in 'n volgorde te voorspel**, wat fundamenteel is vir take soos teksgenerasie.
+>
+> Let op hoe dit **soveel transformer blokke as aangedui** sal **gebruik** en dat elke transformer blok een multi-head attestasienet, een feed forward-net en verskeie normaliserings gebruik. So as 12 transformer blokke gebruik word, vermenigvuldig dit met 12.
+>
+> Boonop word 'n **normalisering** laag **voor** die **uitvoer** bygevoeg en 'n finale lineêre laag word aan die einde toegepas om die resultate met die regte dimensies te verkry. Let op hoe elke finale vektor die grootte van die gebruikte woordeskat het. Dit is omdat dit probeer om 'n waarskynlikheid per moontlike token binne die woordeskat te kry.
+
+## Aantal Parameters om te oefen
+
+Met die GPT-struktuur gedefinieer, is dit moontlik om die aantal parameters om te oefen te vind:
+```python
+GPT_CONFIG_124M = {
+"vocab_size": 50257,    # Vocabulary size
+"context_length": 1024, # Context length
+"emb_dim": 768,         # Embedding dimension
+"n_heads": 12,          # Number of attention heads
+"n_layers": 12,         # Number of layers
+"drop_rate": 0.1,       # Dropout rate
+"qkv_bias": False       # Query-Key-Value bias
+}
+
+model = GPTModel(GPT_CONFIG_124M)
+total_params = sum(p.numel() for p in model.parameters())
+print(f"Total number of parameters: {total_params:,}")
+# Total number of parameters: 163,009,536
+```
+### **Stap-vir-Stap Berekening**
+
+#### **1. Inbedingslae: Token Inbeding & Posisie Inbeding**
+
+- **Laag:** `nn.Embedding(vocab_size, emb_dim)`
+- **Parameters:** `vocab_size * emb_dim`
+```python
+token_embedding_params = 50257 * 768 = 38,597,376
+```
+- **Laag:** `nn.Embedding(context_length, emb_dim)`
+- **Parameters:** `context_length * emb_dim`
+```python
+position_embedding_params = 1024 * 768 = 786,432
+```
+**Totale Inbedingsparameters**
+```python
+embedding_params = token_embedding_params + position_embedding_params
+embedding_params = 38,597,376 + 786,432 = 39,383,808
+```
+#### **2. Transformer Blokke**
+
+Daar is 12 transformer blokke, so ons sal die parameters vir een blok bereken en dan met 12 vermenigvuldig.
+
+**Parameters per Transformer Blok**
+
+**a. Multi-Head Aandag**
+
+- **Komponente:**
+- **Vraag Lineêre Laag (`W_query`):** `nn.Linear(emb_dim, emb_dim, bias=False)`
+- **Sleutel Lineêre Laag (`W_key`):** `nn.Linear(emb_dim, emb_dim, bias=False)`
+- **Waarde Lineêre Laag (`W_value`):** `nn.Linear(emb_dim, emb_dim, bias=False)`
+- **Uitset Projektering (`out_proj`):** `nn.Linear(emb_dim, emb_dim)`
+- **Berekenings:**
+
+- **Elk van `W_query`, `W_key`, `W_value`:**
+
+```python
+qkv_params = emb_dim * emb_dim = 768 * 768 = 589,824
+```
+
+Aangesien daar drie sulke lae is:
+
+```python
+total_qkv_params = 3 * qkv_params = 3 * 589,824 = 1,769,472
+```
+
+- **Uitset Projektering (`out_proj`):**
+
+```python
+out_proj_params = (emb_dim * emb_dim) + emb_dim = (768 * 768) + 768 = 589,824 + 768 = 590,592
+```
+
+- **Totale Multi-Head Aandag Parameters:**
+
+```python
+mha_params = total_qkv_params + out_proj_params
+mha_params = 1,769,472 + 590,592 = 2,360,064
+```
+
+**b. Voedingsnetwerk**
+
+- **Komponente:**
+- **Eerste Lineêre Laag:** `nn.Linear(emb_dim, 4 * emb_dim)`
+- **Tweedel Lineêre Laag:** `nn.Linear(4 * emb_dim, emb_dim)`
+- **Berekenings:**
+
+- **Eerste Lineêre Laag:**
+
+```python
+ff_first_layer_params = (emb_dim * 4 * emb_dim) + (4 * emb_dim)
+ff_first_layer_params = (768 * 3072) + 3072 = 2,359,296 + 3,072 = 2,362,368
+```
+
+- **Tweedel Lineêre Laag:**
+
+```python
+ff_second_layer_params = (4 * emb_dim * emb_dim) + emb_dim
+ff_second_layer_params = (3072 * 768) + 768 = 2,359,296 + 768 = 2,360,064
+```
+
+- **Totale Voedingsparameters:**
+
+```python
+ff_params = ff_first_layer_params + ff_second_layer_params
+ff_params = 2,362,368 + 2,360,064 = 4,722,432
+```
+
+**c. Laag Normalisasies**
+
+- **Komponente:**
+- Twee `LayerNorm` instansies per blok.
+- Elke `LayerNorm` het `2 * emb_dim` parameters (skaal en skuif).
+- **Berekenings:**
+
+```python
+layer_norm_params_per_block = 2 * (2 * emb_dim) = 2 * 768 * 2 = 3,072
+```
+
+**d. Totale Parameters per Transformer Blok**
+```python
+pythonCopy codeparams_per_block = mha_params + ff_params + layer_norm_params_per_block
+params_per_block = 2,360,064 + 4,722,432 + 3,072 = 7,085,568
+```
+**Totale Parameters vir Alle Transformator Blokke**
+```python
+pythonCopy codetotal_transformer_blocks_params = params_per_block * n_layers
+total_transformer_blocks_params = 7,085,568 * 12 = 85,026,816
+```
+#### **3. Finale Lae**
+
+**a. Finale Laag Normalisering**
+
+- **Parameters:** `2 * emb_dim` (skaal en skuif)
+```python
+pythonCopy codefinal_layer_norm_params = 2 * 768 = 1,536
+```
+**b. Uitsetprojeklaag (`out_head`)**
+
+- **Laag:** `nn.Linear(emb_dim, vocab_size, bias=False)`
+- **Parameters:** `emb_dim * vocab_size`
+```python
+pythonCopy codeoutput_projection_params = 768 * 50257 = 38,597,376
+```
+#### **4. Samevatting van Alle Parameters**
+```python
+pythonCopy codetotal_params = (
+embedding_params +
+total_transformer_blocks_params +
+final_layer_norm_params +
+output_projection_params
+)
+total_params = (
+39,383,808 +
+85,026,816 +
+1,536 +
+38,597,376
+)
+total_params = 163,009,536
+```
+## Genereer Tegnies
+
+Om 'n model te hê wat die volgende token voorspel soos die vorige, is dit net nodig om die laaste tokenwaardes van die uitvoer te neem (aangesien dit die waardes van die voorspelde token sal wees), wat 'n **waarde per inskrywing in die woordeskat** sal wees en dan die `softmax` funksie te gebruik om die dimensies in waarskynlikhede te normaliseer wat 1 optel en dan die indeks van die grootste inskrywing te kry, wat die indeks van die woord binne die woordeskat sal wees.
+
+Code from [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch04/01_main-chapter-code/ch04.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch04/01_main-chapter-code/ch04.ipynb):
+```python
+def generate_text_simple(model, idx, max_new_tokens, context_size):
+# idx is (batch, n_tokens) array of indices in the current context
+for _ in range(max_new_tokens):
+
+# Crop current context if it exceeds the supported context size
+# E.g., if LLM supports only 5 tokens, and the context size is 10
+# then only the last 5 tokens are used as context
+idx_cond = idx[:, -context_size:]
+
+# Get the predictions
+with torch.no_grad():
+logits = model(idx_cond)
+
+# Focus only on the last time step
+# (batch, n_tokens, vocab_size) becomes (batch, vocab_size)
+logits = logits[:, -1, :]
+
+# Apply softmax to get probabilities
+probas = torch.softmax(logits, dim=-1)  # (batch, vocab_size)
+
+# Get the idx of the vocab entry with the highest probability value
+idx_next = torch.argmax(probas, dim=-1, keepdim=True)  # (batch, 1)
+
+# Append sampled index to the running sequence
+idx = torch.cat((idx, idx_next), dim=1)  # (batch, n_tokens+1)
+
+return idx
+
+
+start_context = "Hello, I am"
+
+encoded = tokenizer.encode(start_context)
+print("encoded:", encoded)
+
+encoded_tensor = torch.tensor(encoded).unsqueeze(0)
+print("encoded_tensor.shape:", encoded_tensor.shape)
+
+model.eval() # disable dropout
+
+out = generate_text_simple(
+model=model,
+idx=encoded_tensor,
+max_new_tokens=6,
+context_size=GPT_CONFIG_124M["context_length"]
+)
+
+print("Output:", out)
+print("Output length:", len(out[0]))
+```
+## Verwysings
+
+- [https://www.manning.com/books/build-a-large-language-model-from-scratch](https://www.manning.com/books/build-a-large-language-model-from-scratch)
--- a/src/AI/AI-llm-architecture/7.0.-lora-improvements-in-fine-tuning.md
+++ b/src/AI/AI-llm-architecture/7.0.-lora-improvements-in-fine-tuning.md
@ -0,0 +1,61 @@
+# 7.0. LoRA Verbeterings in fyn-afstemming
+
+## LoRA Verbeterings
+
+> [!TIP]
+> Die gebruik van **LoRA verminder baie die berekening** wat nodig is om **fyn af te stem** reeds getrainde modelle.
+
+LoRA maak dit moontlik om **groot modelle** doeltreffend fyn af te stem deur slegs 'n **klein deel** van die model te verander. Dit verminder die aantal parameters wat jy moet oplei, wat **geheue** en **berekeningshulpbronne** bespaar. Dit is omdat:
+
+1. **Verminder die Aantal Opleibare Parameters**: In plaas daarvan om die hele gewigmatriks in die model op te dateer, **verdeel** LoRA die gewigmatriks in twee kleiner matrikse (genoem **A** en **B**). Dit maak opleiding **vinniger** en vereis **minder geheue** omdat minder parameters opgedateer moet word.
+
+1. Dit is omdat dit in plaas daarvan om die volledige gewigopdatering van 'n laag (matriks) te bereken, dit benader na 'n produk van 2 kleiner matrikse wat die opdatering verminder om te bereken:\
+
+<figure><img src="../../images/image (9) (1).png" alt=""><figcaption></figcaption></figure>
+
+2. **Hou Oorspronklike Model Gewigte Onveranderd**: LoRA laat jou toe om die oorspronklike model gewigte dieselfde te hou, en slegs die **nuwe klein matrikse** (A en B) op te dateer. Dit is nuttig omdat dit beteken dat die oorspronklike kennis van die model bewaar word, en jy net wat nodig is, aanpas.
+3. **Doeltreffende Taakspesifieke Fyn-afstemming**: Wanneer jy die model wil aanpas vir 'n **nuwe taak**, kan jy net die **klein LoRA matrikse** (A en B) oplei terwyl jy die res van die model soos dit is, laat. Dit is **baie doeltreffender** as om die hele model weer op te lei.
+4. **Bergingseffektiwiteit**: Na fyn-afstemming, in plaas daarvan om 'n **heel nuwe model** vir elke taak te stoor, hoef jy slegs die **LoRA matrikse** te stoor, wat baie klein is in vergelyking met die hele model. Dit maak dit makliker om die model aan te pas vir baie take sonder om te veel berging te gebruik.
+
+Om LoraLayers in plaas van Linear eenhede tydens 'n fyn-afstemming te implementeer, word hierdie kode hier voorgestel [https://github.com/rasbt/LLMs-from-scratch/blob/main/appendix-E/01_main-chapter-code/appendix-E.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/appendix-E/01_main-chapter-code/appendix-E.ipynb):
+```python
+import math
+
+# Create the LoRA layer with the 2 matrices and the alpha
+class LoRALayer(torch.nn.Module):
+def __init__(self, in_dim, out_dim, rank, alpha):
+super().__init__()
+self.A = torch.nn.Parameter(torch.empty(in_dim, rank))
+torch.nn.init.kaiming_uniform_(self.A, a=math.sqrt(5))  # similar to standard weight initialization
+self.B = torch.nn.Parameter(torch.zeros(rank, out_dim))
+self.alpha = alpha
+
+def forward(self, x):
+x = self.alpha * (x @ self.A @ self.B)
+return x
+
+# Combine it with the linear layer
+class LinearWithLoRA(torch.nn.Module):
+def __init__(self, linear, rank, alpha):
+super().__init__()
+self.linear = linear
+self.lora = LoRALayer(
+linear.in_features, linear.out_features, rank, alpha
+)
+
+def forward(self, x):
+return self.linear(x) + self.lora(x)
+
+# Replace linear layers with LoRA ones
+def replace_linear_with_lora(model, rank, alpha):
+for name, module in model.named_children():
+if isinstance(module, torch.nn.Linear):
+# Replace the Linear layer with LinearWithLoRA
+setattr(model, name, LinearWithLoRA(module, rank, alpha))
+else:
+# Recursively apply the same function to child modules
+replace_linear_with_lora(module, rank, alpha)
+```
+## Verwysings
+
+- [https://www.manning.com/books/build-a-large-language-model-from-scratch](https://www.manning.com/books/build-a-large-language-model-from-scratch)
--- a/src/AI/AI-llm-architecture/7.2.-fine-tuning-to-follow-instructions.md
+++ b/src/AI/AI-llm-architecture/7.2.-fine-tuning-to-follow-instructions.md
@ -0,0 +1,100 @@
+# 7.2. Fyn-afstelling om instruksies te volg
+
+> [!TIP]
+> Die doel van hierdie afdeling is om te wys hoe om 'n **reeds vooropgestelde model fyn af te stel om instruksies te volg** eerder as net teks te genereer, byvoorbeeld, om op take as 'n geselskapbot te reageer.
+
+## Dataset
+
+Om 'n LLM fyn af te stel om instruksies te volg, is dit nodig om 'n dataset met instruksies en antwoorde te hê om die LLM fyn af te stel. Daar is verskillende formate om 'n LLM op te lei om instruksies te volg, byvoorbeeld:
+
+- Die Apply Alpaca prompt styl voorbeeld:
+```csharp
+Below is an instruction that describes a task. Write a response that appropriately completes the request.
+
+### Instruction:
+Calculate the area of a circle with a radius of 5 units.
+
+### Response:
+The area of a circle is calculated using the formula \( A = \pi r^2 \). Plugging in the radius of 5 units:
+
+\( A = \pi (5)^2 = \pi \times 25 = 25\pi \) square units.
+```
+- Phi-3 Prompt Styl Voorbeeld:
+```vbnet
+<|User|>
+Can you explain what gravity is in simple terms?
+
+<|Assistant|>
+Absolutely! Gravity is a force that pulls objects toward each other.
+```
+Training a LLM met hierdie tipe datastelle in plaas van net rou teks help die LLM om te verstaan dat hy spesifieke antwoorde op die vrae wat hy ontvang, moet gee.
+
+Daarom is een van die eerste dinge om te doen met 'n datastel wat versoeke en antwoorde bevat, om daardie data in die gewenste promptformaat te modelleer, soos:
+```python
+# Code from https://github.com/rasbt/LLMs-from-scratch/blob/main/ch07/01_main-chapter-code/ch07.ipynb
+def format_input(entry):
+instruction_text = (
+f"Below is an instruction that describes a task. "
+f"Write a response that appropriately completes the request."
+f"\n\n### Instruction:\n{entry['instruction']}"
+)
+
+input_text = f"\n\n### Input:\n{entry['input']}" if entry["input"] else ""
+
+return instruction_text + input_text
+
+model_input = format_input(data[50])
+
+desired_response = f"\n\n### Response:\n{data[50]['output']}"
+
+print(model_input + desired_response)
+```
+Then, soos altyd, is dit nodig om die dataset in stelle vir opleiding, validasie en toetsing te skei.
+
+## Batching & Data Loaders
+
+Dan is dit nodig om al die insette en verwagte uitsette vir die opleiding in batches te plaas. Hiervoor is dit nodig om:
+
+- Tokenize die teks
+- Vul al die monsters tot dieselfde lengte (gewoonlik sal die lengte so groot wees soos die kontekslengte wat gebruik is om die LLM voor te leer)
+- Skep die verwagte tokens deur die inset met 1 in 'n pasgemaakte collate-funksie te skuif
+- Vervang sommige padding tokens met -100 om hulle van die opleidingsverlies uit te sluit: Na die eerste `endoftext` token, vervang al die ander `endoftext` tokens met -100 (want die gebruik van `cross_entropy(...,ignore_index=-100)` beteken dat dit teikens met -100 sal ignoreer)
+- \[Opsioneel\] Masker met -100 ook al die tokens wat aan die vraag behoort sodat die LLM net leer hoe om die antwoord te genereer. In die Apply Alpaca styl sal dit beteken om alles te masker tot `### Response:`
+
+Met dit geskep, is dit tyd om die data loaders vir elke dataset (opleiding, validasie en toets) te skep.
+
+## Laai voor-geleerde LLM & Fyn afstemming & Verlies Kontrole
+
+Dit is nodig om 'n voor-geleerde LLM te laai om dit fyn af te stem. Dit is reeds op ander bladsye bespreek. Dan is dit moontlik om die voorheen gebruikte opleidingsfunksie te gebruik om die LLM fyn af te stem.
+
+Tydens die opleiding is dit ook moontlik om te sien hoe die opleidingsverlies en validasieverlies gedurende die epoches varieer om te sien of die verlies verminder en of oorpassing plaasvind.\
+Onthou dat oorpassing plaasvind wanneer die opleidingsverlies verminder, maar die validasieverlies nie verminder of selfs toeneem nie. Om dit te vermy, is die eenvoudigste ding om die opleiding te stop by die epoch waar hierdie gedrag begin.
+
+## Antwoord Kwaliteit
+
+Aangesien dit nie 'n klassifikasie fyn afstemming is waar dit moontlik is om meer op die verlies variasies te vertrou nie, is dit ook belangrik om die kwaliteit van die antwoorde in die toetsstel te kontroleer. Daarom word dit aanbeveel om die gegenereerde antwoorde van al die toetsstelle te versamel en **hulle kwaliteit handmatig te kontroleer** om te sien of daar verkeerde antwoorde is (let daarop dat dit moontlik is vir die LLM om die formaat en sintaksis van die antwoordsin te korrek te genereer, maar 'n heeltemal verkeerde antwoord te gee. Die verlies variasie sal hierdie gedrag nie weerspieël nie).\
+Let daarop dat dit ook moontlik is om hierdie hersiening uit te voer deur die gegenereerde antwoorde en die verwagte antwoorde aan **ander LLMs te gee en hulle te vra om die antwoorde te evalueer**.
+
+Ander toetse om te loop om die kwaliteit van die antwoorde te verifieer:
+
+1. **Meet Massiewe Multitask Taalbegrip (**[**MMLU**](https://arxiv.org/abs/2009.03300)**):** MMLU evalueer 'n model se kennis en probleemoplossingsvermoëns oor 57 vakke, insluitend menslike wetenskappe, wetenskappe, en meer. Dit gebruik meerkeuse vrae om begrip op verskillende moeilikheidsvlakke te assesseer, van elementêr tot gevorderd professioneel.
+2. [**LMSYS Chatbot Arena**](https://arena.lmsys.org): Hierdie platform laat gebruikers toe om antwoorde van verskillende chatbots langs mekaar te vergelyk. Gebruikers voer 'n prompt in, en verskeie chatbots genereer antwoorde wat direk vergelyk kan word.
+3. [**AlpacaEval**](https://github.com/tatsu-lab/alpaca_eval)**:** AlpacaEval is 'n geoutomatiseerde evaluasieraamwerk waar 'n gevorderde LLM soos GPT-4 die antwoorde van ander modelle op verskillende prompts evalueer.
+4. **Algemene Taalbegrip Evaluasie (**[**GLUE**](https://gluebenchmark.com/)**):** GLUE is 'n versameling van nege natuurlike taalbegrip take, insluitend sentimentanalise, teksimplikasie, en vraagbeantwoording.
+5. [**SuperGLUE**](https://super.gluebenchmark.com/)**:** Gebaseer op GLUE, sluit SuperGLUE meer uitdagende take in wat ontwerp is om moeilik te wees vir huidige modelle.
+6. **Buiten die Imitasie Speletjie Benchmark (**[**BIG-bench**](https://github.com/google/BIG-bench)**):** BIG-bench is 'n grootmaat benchmark met meer as 200 take wat 'n model se vermoëns in areas soos redeneer, vertaling, en vraagbeantwoording toets.
+7. **Holistiese Evaluasie van Taalmodelle (**[**HELM**](https://crfm.stanford.edu/helm/lite/latest/)**):** HELM bied 'n omvattende evaluasie oor verskeie metrieks soos akkuraatheid, robuustheid, en billikheid.
+8. [**OpenAI Evals**](https://github.com/openai/evals)**:** 'n oopbron evaluasieraamwerk deur OpenAI wat toelaat vir die toetsing van KI-modelle op pasgemaakte en gestandaardiseerde take.
+9. [**HumanEval**](https://github.com/openai/human-eval)**:** 'n Versameling programmeringsprobleme wat gebruik word om die kodegenereringsvermoëns van taalmodelle te evalueer.
+10. **Stanford Vraag Beantwoording Dataset (**[**SQuAD**](https://rajpurkar.github.io/SQuAD-explorer/)**):** SQuAD bestaan uit vrae oor Wikipedia-artikels, waar modelle die teks moet verstaan om akkuraat te antwoord.
+11. [**TriviaQA**](https://nlp.cs.washington.edu/triviaqa/)**:** 'n grootmaat dataset van trivia vrae en antwoorde, saam met bewysdokumente.
+
+en baie baie meer
+
+## Volg instruksies fyn afstemming kode
+
+Jy kan 'n voorbeeld van die kode om hierdie fyn afstemming uit te voer vind in [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch07/01_main-chapter-code/gpt_instruction_finetuning.py](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch07/01_main-chapter-code/gpt_instruction_finetuning.py)
+
+## Verwysings
+
+- [https://www.manning.com/books/build-a-large-language-model-from-scratch](https://www.manning.com/books/build-a-large-language-model-from-scratch)
--- a/src/AI/AI-llm-architecture/README.md
+++ b/src/AI/AI-llm-architecture/README.md
@ -31,10 +31,10 @@ Jy moet begin deur hierdie pos te lees vir 'n paar basiese konsepte wat jy moet
 ## 3. Token Inbedings

 > [!TIP]
-> Die doel van hierdie derde fase is baie eenvoudig: **Ken elkeen van die vorige tokens in die woordeskat 'n vektor van die verlangde dimensies toe om die model op te lei.** Elke woord in die woordeskat sal 'n punt in 'n ruimte van X dimensies wees.\
-> Let daarop dat die posisie van elke woord in die ruimte aanvanklik net "ewekansig" geinitialiseer word en dat hierdie posisies opleibare parameters is (sal verbeter word tydens die opleiding).
+> Die doel van hierdie derde fase is baie eenvoudig: **Ken elkeen van die vorige tokens in die woordeskat 'n vektor van die verlangde dimensies toe om die model te oefen.** Elke woord in die woordeskat sal 'n punt in 'n ruimte van X dimensies wees.\
+> Let daarop dat die posisie van elke woord in die ruimte aanvanklik net "ewekansig" geïnitialiseer word en dat hierdie posisies opleibare parameters is (sal verbeter word tydens die opleiding).
 >
-> Boonop, tydens die token inbedding **word 'n ander laag van inbeddings geskep** wat (in hierdie geval) die **absolute posisie van die woord in die opleidingssin** verteenwoordig. Op hierdie manier sal 'n woord in verskillende posisies in die sin 'n ander voorstelling (betekenis) hê.
+> Boonop, tydens die token inbedding **word 'n ander laag van inbedings geskep** wat (in hierdie geval) die **absolute posisie van die woord in die opleidingssin** verteenwoordig. Op hierdie manier sal 'n woord in verskillende posisies in die sin 'n ander voorstelling (betekenis) hê.

 {{#ref}}
 3.-token-embeddings.md
@ -64,7 +64,7 @@ Jy moet begin deur hierdie pos te lees vir 'n paar basiese konsepte wat jy moet
 ## 6. Vooropleiding & Laai modelle

 > [!TIP]
-> Die doel van hierdie sesde fase is baie eenvoudig: **Oplei die model van nuuts af**. Hiervoor sal die vorige LLM argitektuur gebruik word met 'n paar lusse wat oor die datastelle gaan met behulp van die gedefinieerde verliesfunksies en optimizer om al die parameters van die model op te lei.
+> Die doel van hierdie sesde fase is baie eenvoudig: **Oefen die model van nuuts af**. Hiervoor sal die vorige LLM argitektuur gebruik word met 'n paar lusse wat oor die datastelle gaan met die gedefinieerde verliesfunksies en optimizer om al die parameters van die model op te lei.

 {{#ref}}
 6.-pre-training-and-loading-models.md
@ -82,13 +82,13 @@ Jy moet begin deur hierdie pos te lees vir 'n paar basiese konsepte wat jy moet
 ## 7.1. Fyn-Afstemming vir Kategorisering

 > [!TIP]
-> Die doel van hierdie afdeling is om te wys hoe om 'n reeds vooropgeleide model fyn af te stel sodat in plaas daarvan om nuwe teks te genereer, die LLM die **waarskynlikhede van die gegewe teks om in elkeen van die gegewe kategorieë gekategoriseer te word** (soos of 'n teks spam is of nie) sal gee.
+> Die doel van hierdie afdeling is om te wys hoe om 'n reeds vooropgeleide model fyn af te stel sodat in plaas daarvan om nuwe teks te genereer, die LLM die **waarskynlikhede van die gegewe teks wat in elkeen van die gegewe kategorieë gekategoriseer word** sal gee (soos of 'n teks spam is of nie).

 {{#ref}}
 7.1.-fine-tuning-for-classification.md
 {{#endref}}

-## 7.2. Fyn-Afstemming om instruksies te volg
+## 7.2. Fyn-Afstemming om Instruksies te Volg

 > [!TIP]
 > Die doel van hierdie afdeling is om te wys hoe om **'n reeds vooropgeleide model fyn af te stel om instruksies te volg** eerder as net om teks te genereer, byvoorbeeld, om op take te reageer as 'n chat bot.