28 lines
1.6 KiB
Markdown
28 lines
1.6 KiB
Markdown
# Echa Scraping Log Readme
|
|
|
|
Il file di log viene utilizzato durante lo scraping per tenere traccia delle sostanze estratte.
|
|
|
|
**Colonne:**
|
|
- **casNo**: il numero CAS della sostanza.
|
|
- **substanceId**: l'identificativo della sostanza nel database COSING.
|
|
- **inciName**: il nome INCI della sostanza.
|
|
- **scraping_AcuteToxicity**: stato dello scraping della pagina *Acute Toxicity* (valori LD50, LC50, ecc.).
|
|
- **scraping_RepeatedDose**: stato dello scraping della pagina *Repeated Dose* (valori NOAEL, DNEL, ecc.).
|
|
- **timestamp**: il momento in cui il dato è stato registrato.
|
|
|
|
**Valori possibili per scraping_AcuteToxicity e scraping_RepeatedDose:**
|
|
1. **no_lead_dossiers**: non esistono lead dossiers attivi o inattivi per la sostanza.
|
|
2. **successful_scrape**: dati estratti con successo dalla pagina.
|
|
3. **no_data_found**: è stato trovato un lead dossier, ma la pagina non esiste o non contiene dati.
|
|
4. **error**: diversi tipi di errori.
|
|
|
|
---
|
|
|
|
Ho dedicato 20-30 minuti alla conferma manuale dei risultati *no_data_found* e *no_lead_dossiers*: ho verificato casualmente che non esistessero dossier o che le pagine fossero effettivamente prive di dati.
|
|
|
|
Durante il primo full-scraping era presente un bug, che ho successivamente corretto, consentendo l'estrazione di altre 700 sostanze. Non so se siano presenti altri bug simili.
|
|
|
|
---
|
|
|
|
Al momento ci sono **68 righe nel log con errori.** Sto investigando, ma nella maggior parte dei casi si tratta di errori causati dalla mancanza di dati nelle pagine.
|
|
In pratica, molti di questi sono semplicemente *no_data_found* erroneamente segnati come *error*.
|