1.6 KiB
Echa Scraping Log Readme
Il file di log viene utilizzato durante lo scraping per tenere traccia delle sostanze estratte.
Colonne:
- casNo: il numero CAS della sostanza.
- substanceId: l'identificativo della sostanza nel database COSING.
- inciName: il nome INCI della sostanza.
- scraping_AcuteToxicity: stato dello scraping della pagina Acute Toxicity (valori LD50, LC50, ecc.).
- scraping_RepeatedDose: stato dello scraping della pagina Repeated Dose (valori NOAEL, DNEL, ecc.).
- timestamp: il momento in cui il dato è stato registrato.
Valori possibili per scraping_AcuteToxicity e scraping_RepeatedDose:
- no_lead_dossiers: non esistono lead dossiers attivi o inattivi per la sostanza.
- successful_scrape: dati estratti con successo dalla pagina.
- no_data_found: è stato trovato un lead dossier, ma la pagina non esiste o non contiene dati.
- error: diversi tipi di errori.
Ho dedicato 20-30 minuti alla conferma manuale dei risultati no_data_found e no_lead_dossiers: ho verificato casualmente che non esistessero dossier o che le pagine fossero effettivamente prive di dati.
Durante il primo full-scraping era presente un bug, che ho successivamente corretto, consentendo l'estrazione di altre 700 sostanze. Non so se siano presenti altri bug simili.
Al momento ci sono 68 righe nel log con errori. Sto investigando, ma nella maggior parte dei casi si tratta di errori causati dalla mancanza di dati nelle pagine.
In pratica, molti di questi sono semplicemente no_data_found erroneamente segnati come error.