cosmoguard-bd/data/log_readme.md

28 lines
1.6 KiB
Markdown

# Echa Scraping Log Readme
Il file di log viene utilizzato durante lo scraping per tenere traccia delle sostanze estratte.
**Colonne:**
- **casNo**: il numero CAS della sostanza.
- **substanceId**: l'identificativo della sostanza nel database COSING.
- **inciName**: il nome INCI della sostanza.
- **scraping_AcuteToxicity**: stato dello scraping della pagina *Acute Toxicity* (valori LD50, LC50, ecc.).
- **scraping_RepeatedDose**: stato dello scraping della pagina *Repeated Dose* (valori NOAEL, DNEL, ecc.).
- **timestamp**: il momento in cui il dato è stato registrato.
**Valori possibili per scraping_AcuteToxicity e scraping_RepeatedDose:**
1. **no_lead_dossiers**: non esistono lead dossiers attivi o inattivi per la sostanza.
2. **successful_scrape**: dati estratti con successo dalla pagina.
3. **no_data_found**: è stato trovato un lead dossier, ma la pagina non esiste o non contiene dati.
4. **error**: diversi tipi di errori.
---
Ho dedicato 20-30 minuti alla conferma manuale dei risultati *no_data_found* e *no_lead_dossiers*: ho verificato casualmente che non esistessero dossier o che le pagine fossero effettivamente prive di dati.
Durante il primo full-scraping era presente un bug, che ho successivamente corretto, consentendo l'estrazione di altre 700 sostanze. Non so se siano presenti altri bug simili.
---
Al momento ci sono **68 righe nel log con errori.** Sto investigando, ma nella maggior parte dei casi si tratta di errori causati dalla mancanza di dati nelle pagine.
In pratica, molti di questi sono semplicemente *no_data_found* erroneamente segnati come *error*.