# Echa Scraping Log Readme Il file di log viene utilizzato durante lo scraping per tenere traccia delle sostanze estratte. **Colonne:** - **casNo**: il numero CAS della sostanza. - **substanceId**: l'identificativo della sostanza nel database COSING. - **inciName**: il nome INCI della sostanza. - **scraping_AcuteToxicity**: stato dello scraping della pagina *Acute Toxicity* (valori LD50, LC50, ecc.). - **scraping_RepeatedDose**: stato dello scraping della pagina *Repeated Dose* (valori NOAEL, DNEL, ecc.). - **timestamp**: il momento in cui il dato è stato registrato. **Valori possibili per scraping_AcuteToxicity e scraping_RepeatedDose:** 1. **no_lead_dossiers**: non esistono lead dossiers attivi o inattivi per la sostanza. 2. **successful_scrape**: dati estratti con successo dalla pagina. 3. **no_data_found**: è stato trovato un lead dossier, ma la pagina non esiste o non contiene dati. 4. **error**: diversi tipi di errori. --- Ho dedicato 20-30 minuti alla conferma manuale dei risultati *no_data_found* e *no_lead_dossiers*: ho verificato casualmente che non esistessero dossier o che le pagine fossero effettivamente prive di dati. Durante il primo full-scraping era presente un bug, che ho successivamente corretto, consentendo l'estrazione di altre 700 sostanze. Non so se siano presenti altri bug simili. --- Al momento ci sono **68 righe nel log con errori.** Sto investigando, ma nella maggior parte dei casi si tratta di errori causati dalla mancanza di dati nelle pagine. In pratica, molti di questi sono semplicemente *no_data_found* erroneamente segnati come *error*.