Tests for distinctness, homogeneity and stability of Poplar clones are still based on the use of proper descriptors of the main morphological and phenetic characteristics of the plant. Although the importance of a precise identification of clones is widely acknowledged, no sound technique has yet come into wide use. Many descriptors related to economic and productivity traits show a reduced repeatability or within clone variability. A multivariate approach by means of parametric procedure is ineffective due to the joint presence of variables with different sampling properties. We have applied some new numerical techniques based on computer simulation approaches to overcome difficulties due to the probability distribution of different traits. Among others, the procedure known as
Le prove per l’identificazione, l’omogeneità e la stabilità di cloni di pioppo sono tuttora basate sull’uso di appropriati descrittori delle caratteristiche morfologiche della pianta (
Dal punto di vista metodologico, si tratta di risolvere un problema di classificazione (
Il criterio guida seguito in questo lavoro non è costituito dalla comprensione della struttura di covariazione dei caratteri considerati, e neppure dallo sviluppo di modelli parametrici sofisticati (e difficoltosi da gestire senza adeguato addestramento), ma consiste invece nella soluzione del problema di classificazione mediante regole semplici che possano essere facilmente applicate nella pratica vivaistica, al più ricorrendo a risorse di calcolo disponibili in un computer palmare.
Una promettente strategia recentemente sviluppata da Leo Breiman (University of California, Berkeley, USA) si basa sull’utilizzo di
Al fine di saggiare le potenzialità delle Foreste Casuali, abbiamo analizzato i dati sperimentali relativi a 30 cloni di pioppo, rappresentativi della collezione di germoplasma, ottenuti nell’ambito del Progetto Ri.Selv.Italia.
Complessivamente, abbiamo dimostrato che la procedura delle Foreste Casuali è particolarmente efficace per la discriminazione clonale. Tra gli aspetti più interessanti delle Foreste Casuali vi sono:
la presenza di stime interne che permettono di descrivere il processo classificatorio e la sua efficienza;
la capacità di gestire variabili classificatrici indipendenti di qualsiasi tipologia.
Il lavoro si apre con una prima sezione contenente le definizioni di albero di classificazione e di
Un classificatore è una regola che permette di attribuire una unità statistica ad un certo sottoinsieme sulla base del valore assunto da una o più variabili osservate o misurate sulla medesima unità statistica. In genere si indica con y la variabile che rappresenta il sottoinsieme (nel presente contesto indica il clone, y = 1, 2,..., 30) e con
Un albero di classificazione è una collezione di tali regole espresse in forma di albero binario, ottenute attraverso partizionamento ricorsivo (
facilità nell’interpretazione dei risultati quando si considerino contemporaneamente variabili qualitative e quantitative,
l’invarianza rispetto a trasformazioni monotone delle variabili,
adeguata trattazione dei valori mancanti,
capacità di cogliere aspetti non lineari e interazioni di ordine elevato.
Formalmente, un
Spesso la funzione di perdita vale uno oppure zero, cioè se per l’unità statistica u vale yu = yu* allora la perdita è nulla, ovvero osservato e previsto coincidono, altrimenti la perdita vale uno. L’insieme di dati D è comunemente detto
Una Foresta Casuale (
La classificazione basata su foreste stocastiche ha caratteristiche statistiche molto interessanti:
E’ relativamente robusta rispetto ad osservazioni estreme (
E’ più veloce di molte altre procedure di classificazione numerica.
Consente stime interne dell’errore, della correlazione e dell’importanza delle variabili utilizzate nel processo di classificazione.
E’ relativamente semplice e può essere implementata su calcolatori paralleli in modo efficiente.
E’ facilmente paralellelizzabile.
Uno dei punti fondamentali che caratterizzano le Foreste Casuali è che l’errore di generalizzazione converge “quasi certamente” per un numero di alberi della foresta che diverge ed è pertanto scongiurata l’eventualità di operare una sovrastrutturazione (
Breiman ha proposto quattro misure le quali, in base alla struttura emersa nell’analisi dei risultati della simulazione Monte Carlo, quantificano la rilevanza di ogni variabile. Nella
Nella
Nella
L’applicazione delle procedure descritte è implementata tramite software gentilmente fornito da L. Breiman. Il numero di variabili di suddivisione per ogni albero è stato fissato a tre, come da suggerimento dell’Autore stesso.
Nell’ambito di un progetto di ricerca volta allo sviluppo di modelli d’analisi congiunta di descrittori con differenti proprietà distributive, abbiamo analizzato i dati relativi a trenta cloni di pioppo (
Il disegno sperimentale è strutturato in due località (Casale Monferrato e Mantova) con 10 repliche in ognuna. In ciascuna replica sono stati rilevati 18 descrittori, sia qualitativi che quantitativi, su due piante per ogni clone.
Le linee guida UPOV relative al pioppo elencano più di 50 descrittori, con le relative classi qualitative nelle quali la variabilità osservata viene codificata. Nel nostro caso abbiamo utilizzato 12 di questi, considerati maggiormente utili per la classificazione del materiale. Ad essi sono stati aggiunti sei caratteri quantitativi riferiti alla misurazione di alcune caratteristiche della foglia. Questi ultimi sono stati rilevati in laboratorio su campioni di foglie appartenenti alle stesse piante le cui caratteristiche sono state osservate in vivaio. I caratteri rilevati sono elencati in
I risultati relativi ai singoli caratteri sono stati analizzati con appropriate procedure statistiche e l’ipotesi di eguaglianza dei cloni è stata statisticamente rifiutata per tutti i caratteri (dati non riportati, ma compresi in altra pubblicazione nell’ambito del sottoprogetto). La procedura
La procedura genera un numero crescente di alberi classificatori e permette stime dell’errore di generalizzazione. In
Come tutti procedimenti di analisi discriminante, le Foreste stocastiche derivano le regole migliori per assegnare i singoli casi (nel nostro caso le singole piante) alla classe di appartenenza. La bontà del procedimento si verifica riclassificando le singole piante appartenenti al
In
Un ulteriore vantaggio delle Foreste Casuali consiste nella possibilità di ordinare i caratteri utilizzati sulla base del loro contributo relativo al processo di classificazione. Nella
Le variabili “portamento” (portamento delle foglie in relazione al fusto), “sezione” (sezione del fusto) e “formapi” (forma dell’apice della lamina) sono risultate poco informative pressoché con ognuna delle quattro misure. Al massimo valore per le misure si pongono “picciolo” (lunghezza del picciolo), “pelos” (pelosità del germoglio), “nervcent” (lunghezza della nervatura centrale) e “colore” (colore del germoglio apicale). Valutato convenientemente il significato delle misure proposte da Breiman è possibile identificare le variabili che sono risultate meno utili ai fini classificatori, almeno relativamente al
L’utilizzo di tecniche discriminanti sulla base di procedure di tassonomia numerica è una consolidata strategia in diversi settori della biologia applicata. Più complesso è il loro utilizzo nel caso di uso congiunto di variabili caratterizzate da diverse proprietà distributive. In questo caso i metodi di simulazione numerica possono essere di valido aiuto. Nel settore della valutazione dell’informazione molecolare evidenziata da marcatori abbiamo efficacemente utilizzato i cosiddetti Algoritmi Genetici, tecniche numeriche che propongono soluzioni ottimizzate simulando le proprietà dell’evoluzione biologica (
Sulla base dei dati disponibili possiamo giudicare soddisfacente l’abilità della procedura nell’assegnare, dopo apprendimento sulla base di un data training set volutamente eterogeneo, un gruppo di piante (nel nostro caso 40) al clone di appartenenza. Con l’eccezione di tre cloni, il livello di errore riferito alla singola pianta è mediamente ridotto. Naturalmente il livello di efficienza diminuisce con le dimensioni del campione rendendo poco realistico l’utilizzo della procedura di discriminazione per assegnare al proprio clone una sola pianta. La tecnica, riferita ad un lotto di piante valutate in una singola località, può essere già agevolmente applicata anche con risorse di calcolo limitate, ponendo particolare attenzione alle tecniche di rilevamento dei caratteri, peraltro facilmente automatizzabili con l’ausilio di un calcolatore palmare.
Non va infine sottovalutato che la procedura qui descritta può essere estesa anche ad ulteriori descrittori con caratteristiche diverse e tra questi, anche se non ancora inseriti nelle procedure di valutazione ufficiale, i numerosi marcatori molecolari che le attuali tecniche di laboratorio rendono sempre più accessibili e a costi limitati. Limitando l’analisi a descrittori morfologici, l’efficienza del sistema può essere accresciuta valutando l’inserimento di nuove caratteristiche nella fase di training e considerando campioni di dimensioni più ampie per quei cloni che presentano maggiori difficoltà classificatorie.
Lavoro svolto nell’ambito del progetto Ri.Selv.Italia, sottoprogetto 2.2 “Arboricoltura da legno con specie a rapido accrescimento (pioppicoltura)”. Gli Autori ringraziano il Dott. Stefano Bisoffi ed il personale dell’Istituto di sperimentazione per la Pioppicoltura (Casale Monferrato) per la collaborazione ed il Prof. L. Breiman per la disponibilità del software e gli utili suggerimenti forniti.
Errore di classificazione in funzione del numero di alberi contenuti nella foresta casuale.
Ordinamento delle variabili classificatrici in base al valore assunto da quattro “misure” differenti (si veda il testo).
Elenco dei cloni inseriti nella valutazione, loro denominazione e specie di appartenenza.
# | Denominazione | Specie | # | Denominazione | Specie |
---|---|---|---|---|---|
1 | Jean Pourtet |
|
16 | Soligo |
|
2 | Vereecken |
|
17 | Taro |
|
3 | Carolina di Santena |
|
18 | Bellini |
|
4 | Dora |
|
19 | Brenta |
|
5 | Lambro |
|
20 | Cima |
|
6 | Lux |
|
21 | Guardi |
|
7 | Oglio |
|
22 | Luisa Avanzo |
|
8 | Dvina |
|
23 | Neva |
|
9 | Onda |
|
24 | Blanc de Poitou |
|
10 | San Martino |
|
25 | I-154 II |
|
11 | I-45/51 |
|
26 | I-214 |
|
12 | Stura |
|
27 | I-262 |
|
13 | Triplo |
|
28 | I-455 |
|
14 | Lena II |
|
29 | I-476 |
|
15 | Sile |
|
30 | Panaro |
|
Caratteri valutati, loro caratteristica distributiva (D = discreta; C = continua) e nome codificato. FMS="foglie" maggiormente sviluppate.
Carattere | D/C | Nome codificato | Carattere | D/C | Nome codificato |
---|---|---|---|---|---|
Sezione del fusto | D | sezione | Colore nervatura centrale | D | colorenc |
Colore del fusto | D | colorefu | Num. ghiandole peziolari | D | numghia |
Pelosità del germoglio | D | pelos | Ondulazione del margine | D | ondulama |
Portamento foglie (FMS) in relazione al fusto | D | portamento | Profilo della superficie della lamina tra nervature | D | profilone |
Colore germoglio apicale | D | colore | Lunghezza del picciolo (cm) | C | picciolo |
Forma inserzione picciolo sulla lamina | D | inspic | Lunghezza nervatura centrale (NC) (cm) | C | nervcent |
Forma della base della lamina delle FMS | D | formaba | Larghezza massima della lamina (cm) | C | larlam |
Forma dell’apice della lamina delle FMS | D | formapi | Largh. lamina a ¼ apicale | C | baseapice |
Colore del picciolo (FMS) | D | colopic | Angolo inserzione 2a nervatura lat. e NC. | C | angolo |
Matrice di confondimento ottenuta dalla procedura di classificazione.
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 39 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
2 | 0 | 39 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
3 | 0 | 0 | 36 | 0 | 1 | 0 | 0 | 2 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
4 | 0 | 0 | 0 | 35 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 2 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
5 | 0 | 0 | 1 | 0 | 30 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 2 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
6 | 0 | 0 | 0 | 1 | 0 | 33 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 4 | 0 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
7 | 0 | 0 | 0 | 0 | 0 | 0 | 34 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
8 | 1 | 0 | 0 | 0 | 1 | 0 | 0 | 35 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
9 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 36 | 1 | 0 | 0 | 1 | 2 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
10 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 36 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
11 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 22 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
12 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | 37 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
13 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 20 | 0 | 17 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
14 | 0 | 2 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 0 | 0 | 35 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
15 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 39 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 |
16 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 32 | 0 | 0 | 0 | 0 | 0 | 2 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0 |
17 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 34 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 2 | 1 | 0 | 0 | 1 | 0 |
18 | 0 | 1 | 1 | 0 | 8 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 16 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
19 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 35 | 0 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
20 | 2 | 3 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 30 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
21 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 34 | 1 | 0 | 0 | 2 | 0 | 0 | 0 | 0 | 0 |
22 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 37 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0 |
23 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 36 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
24 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 2 | 0 | 35 | 0 | 0 | 0 | 0 | 0 | 0 |
25 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 35 | 0 | 0 | 0 | 0 | 0 |
26 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 39 | 1 | 0 | 0 | 0 |
27 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 30 | 0 | 0 | 0 |
28 | 0 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 33 | 0 | 0 |
29 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 39 | 0 |
30 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 39 |
Percentuali d’errore per ciascun clone.
Clone | Errore | Clone | Errore |
---|---|---|---|
1 | 0.0250 | 16 | 0.1111 |
2 | 0.0250 | 17 | 0.1500 |
3 | 0.1000 | 18 | 0.4074 |
4 | 0.1026 | 19 | 0.0789 |
5 | 0.1429 | 20 | 0.2500 |
6 | 0.1750 | 21 | 0.0811 |
7 | 0.0811 | 22 | 0.0750 |
8 | 0.1250 | 23 | 0.1000 |
9 | 0.1000 | 24 | 0.0789 |
10 | 0.1000 | 25 | 0.0540 |
11 | 0.4500 | 26 | 0.0250 |
12 | 0.0750 | 27 | 0.1176 |
13 | 0.5750 | 28 | 0.1081 |
14 | 0.1250 | 29 | 0.0250 |
15 | 0.0250 | 30 | 0.000 |