sabato 6 maggio 2017

Resampling

Per Resampling si intende quell’insieme di tecniche basate sull’utilizzo di sottoinsiemi di dati, che possono essere estratti sia casualmente sia secondo una procedura sistematica, allo scopo di approssimare alcune caratteristiche della distribuzione campionaria, di una statistica, un test o uno stimatore (quali per esempio la varianza e i quantili), per validare un modello statistico.


Si può distinguere tra metodi basati sull’estrazione casuale di sottoinsiemi dei dati campionari e metodi nei quali il resampling avviene secondo una procedura non randomizzata.
Appartengono alla prima categoria il metodo bootstrap e le sue varianti come il subsampling. 
Rientrano invece nella seconda categoria procedure come il jackknife e la cross-validazione. 
Sono annoverati nella famiglia dei metodi di resampling anche test statistici detti test di permutazione o esatti.


  • Bootstrap
 Il Bootstrap è una tecnica statistica di ricampionamento con reimmissione per approssimare la distribuzione campionaria di una statistica. Permette perciò di approssimare media e varianza di uno stimatore, costruire intervalli di confidenza e calcolare p-values di test quando, in particolare, non si conosce la distribuzione della statistica di interesse.Nel caso semplice di campionamento casuale semplice, il funzionamento è il seguente: consideriamo un campione effettivamente osservato di numerosità pari ad n, diciamo x = (x1 , … , xn) . Da x si ricampionano m altri campioni di numerosità costante pari ad n, diciamo x*1, … , x*m  e in ciascuna estrazione bootstrap, i dati provenienti dal primo elemento del campione, cioè x1 , possono essere estratti più di una volta e ciascun dato ha probabilità pari a 1/n di essere estratto.
Sia T lo stimatore di Θ che ci interessa studiare, diciamo T(x) = Θ. Si calcola tale quantità per ogni campione bootstrap, T( x*1), … ,T( x*m) . In questo modo si hanno a disposizione m stime di Θ, dalle quali è possibile calcolare la media bootstrap, la varianza bootstrap, i percentili bootstrap etc. che sono approssimazioni dei corrispondenti valori ignoti e portano informazioni sulla distribuzione di T(x). Partendo quindi da queste quantità stimate è possibile calcolare intervalli di confidenza, saggiare ipotesi, etc.


Risultati immagini per resampling
  • Jackknife
Metodo usato, come il bootstrap e il subsampling, per stimare caratteristiche come la distorsione e l’errore standard (deviazione standard) di una statistica. Il jackknife consente di ottenere le stime desiderate senza ricorrere necessariamente ad assunzioni parametriche. A differenza degli altri due metodi, il jackknife si basa sul calcolo della statistica di interesse per sottocampioni ottenuti, lasciando fuori un’osservazione campionaria alla volta. Quando la statistica di interesse è lineare nelle osservazioni, il jackknife e il bootstrap danno risultati molto simili, tuttavia il primo ha una maggiore semplicità di implementazione. La stima jackknife è consistente per diverse statistiche campionarie, quali media, varianza, coefficiente di correlazione, stimatore di massima verosimiglianza e altri.

  • Cross-validazione

Metodo usato in procedure di selezione del modello basate sul principio dell’accuratezza predittiva. Si suddivide un campione in due sottoinsiemi, dei quali il primo (insieme di training) viene usato per la costruzione e la stima, mentre il secondo (insieme di validazione) viene usato per verificare l’accuratezza delle predizioni del modello stimato. Attraverso una sintesi delle ripetute predizioni si ottiene una misura dell’accuratezza del modello. Un metodo di cross-validazione è simile al jackknife, poiché lascia fuori un’osservazione alla volta. In un altro metodo, K-fold validation, si divide il campione in K sottoinsiemi e, a turno, ciascuno di essi è lasciato fuori come insieme di validazione.







Nessun commento:

Posta un commento