# Echa Scraping Log Readme  

Il file di log viene utilizzato durante lo scraping per tenere traccia delle sostanze estratte.  

**Colonne:**  
- **casNo**: il numero CAS della sostanza.  
- **substanceId**: l'identificativo della sostanza nel database COSING.  
- **inciName**: il nome INCI della sostanza.  
- **scraping_AcuteToxicity**: stato dello scraping della pagina *Acute Toxicity* (valori LD50, LC50, ecc.).  
- **scraping_RepeatedDose**: stato dello scraping della pagina *Repeated Dose* (valori NOAEL, DNEL, ecc.).  
- **timestamp**: il momento in cui il dato è stato registrato.  

**Valori possibili per scraping_AcuteToxicity e scraping_RepeatedDose:**  
1. **no_lead_dossiers**: non esistono lead dossiers attivi o inattivi per la sostanza.  
2. **successful_scrape**: dati estratti con successo dalla pagina.  
3. **no_data_found**: è stato trovato un lead dossier, ma la pagina non esiste o non contiene dati.  
4. **error**: diversi tipi di errori.  

---

Ho dedicato 20-30 minuti alla conferma manuale dei risultati *no_data_found* e *no_lead_dossiers*: ho verificato casualmente che non esistessero dossier o che le pagine fossero effettivamente prive di dati.  

Durante il primo full-scraping era presente un bug, che ho successivamente corretto, consentendo l'estrazione di altre 700 sostanze. Non so se siano presenti altri bug simili.  

---

Al momento ci sono **68 righe nel log con errori.** Sto investigando, ma nella maggior parte dei casi si tratta di errori causati dalla mancanza di dati nelle pagine.  
In pratica, molti di questi sono semplicemente *no_data_found* erroneamente segnati come *error*.