PDF Print

Az ML-EM algoritmus

A Maximum-Likelihood Expectation Maximisation (ML-EM módszer)

 
Az ML-EM módszer lényege, hogy a mért értékek együttes sűrűségfüggvénye nem tartalmazza a - tegyük fel - kimaradt mérések sűrűségfüggvényét, melyek mégis döntően befolyásolják a becslést. Ezt a hiányzó információt iteratívan próbáljuk közelíteni, mely során minden iterációs lépésben elvégezzük a ML-becslést is. Gondolhatunk például arra, hogy a mért adatok egymástól teljesen függetlenek, és teljesen független paramétercsoportokkal állnak összefüggésben. Ha tudnánk, hogy melyik adat melyik csoportba tartozik, sokkal pontosabb ML becslést végezhetnék ezeken a csoportokon. Az ML-EM módszer E lépése megpróbálja ennek a hiányzó paraméternek a hatását figyelembe venni anélkül, hogy konkrétan ezekre az értékekre is becslést szolgáltatna.

Tegyük fel, hogy a mért y adatok kiegészíthetőek egy s adatvektorrá, mely tartalmazza a hiányzó információkat. Ekkor felállítható egy statisztikai modell a következő sűrűségfüggvénnyel:$ \wp \left ( \mathbf{s}; \mathbf{x} \right )

Az ML-EM módszer a következő lépések ismétlésével végzi az iterációt:

1) A módszer E (Expectation) lépése

Az n. iterációban kapott xn paraméterbecslés alapján a $ \wp \left ( \mathbf{s}; \mathbf{x} \right ) staisztikai modellünk segítségével kiszámoljuk a likelihood-függvényünket a következő feltételes várhatóértékkel minden lehetséges x paraméterre:
$  Q\left ( \mathbf{x},\mathbf{x}^{n} \right )=E\left [\wp \left ( \mathbf{s}; \mathbf{x} \right )\mid\mathbf{y} ;\mathbf{x}^{n} ]

2) A módszer M (Maximization) lépése

Az előállt likelihood-függvénnyel hagyományos ML lépést végzünk:
$ \mathbf{\widehat{x}}^{n+1}=\arg \underset{\mathbf{x}}{\max} Q\left ( \mathbf{x},\mathbf{x}^{n} \right )

Az ML-EM módszer konvergenciája

Felmerül a kérdés: ha a hiányzó adatok nem mérhetőek, hogyan nyerünk plusz információt, mellyel pontosíthatjuk a becslésünket? A válasz a modellezésben magában van, a módszerrel a statisztikai modell árnyalása ad módot a jobb becslésre. Be kell azonban látnunk, hogy ez a plusz információ legalábbis nem ront a korábbi becslési eljárásunkon. Ehhez írjuk fel a teljes adathalmazra vonatkozó sűrűségfüggvényt a Bayes-tétel segítségéevel:
$ \wp \left ( \mathbf{s}; \mathbf{x} \right )=\wp \left ( \mathbf{s}\mid\mathbf{y} ; \mathbf{x} \right )\wp \left ( \mathbf{y} ; \mathbf{x} \right )
A log-likelihood függvény tehát kifejezhető:
$ \ln \wp \left ( \mathbf{y} ; \mathbf{x} \right )=\ln \wp \left ( \mathbf{s}; \mathbf{x} \right )-\ln \wp \left ( \mathbf{s}\mid\mathbf{y} ; \mathbf{x} \right )
Nézzük meg, hogy hogyan változik a log-likelihood-függvény értéke az E és M lépések elvégzése után, ahol a várható érték az s valószínűségi változóra értendő:
$ E\left [\ln \wp \left ( \mathbf{y} ; \mathbf{x} \right )  \right \mid\mathbf{y} ;\mathbf{x}^{n} ]=\underbrace{E\left [\ln \wp \left ( \mathbf{s}; \mathbf{x} \right ) \mid\mathbf{y} ;\mathbf{x}^{n} \right ]}_{Q\left ( \mathbf{x},\mathbf{x}^{n} \right )}-\underbrace{E\left [\ln \wp \left ( \mathbf{s}\mid\mathbf{y} ; \mathbf{x} \right ) \mid\mathbf{y} ;\mathbf{x}^{n} \right ]}_{R\left ( \mathbf{x},\mathbf{x}^{n} \right )}
A baloldal s-et nem tartlamazza, tehát a várható értéke önmaga. Nézzük most meg, hogy az n. és n+1. iterációs lépés között a log-likelihood-függvény hogyan változik, ha behelyettesítjük a becsült paramétereket:
$  \ln \wp \left ( \mathbf{y} ; \mathbf{x}^{n+1} \right )-\ln \wp \left ( \mathbf{y} ; \mathbf{x}^{n} \right )=\left \{ Q\left ( \mathbf{x}^{n+1},\mathbf{x}^{n} \right )-Q\left ( \mathbf{x}^{n},\mathbf{x}^{n} \right )  \right \}-\left \{ R\left ( \mathbf{x}^{n+1},\mathbf{x}^{n} \right )-R\left ( \mathbf{x}^{n},\mathbf{x}^{n} \right )\right \}

Az algoritmus M lépése a $ Q\left ( \mathbf{x}^{n+1},\mathbf{x}^{n} \right )-Q\left ( \mathbf{x}^{n},\mathbf{x}^{n} \right ) tagot, amennyiben sikeresen maximalizálta, akkor a behelyettesített értékek különbsége pozitív. A második tag várható értékét becsülhetjük a következő egyenlőtlenség felhasználásával:
$\ln \left ( x \right )\leqslant x-1
tehát:
$  R\left ( \mathbf{x}^{n+1},\mathbf{x}^{n} \right )-R\left ( \mathbf{x}^{n},\mathbf{x}^{n} \right ) =E\left [\frac{
\ln \wp \left ( \mathbf{s}\mid\mathbf{y} ; \mathbf{x}^{n+1} \right )}{\ln \wp \left ( \mathbf{s}\mid\mathbf{y} ; \mathbf{x}^{n} \right )} \mid\mathbf{y} ;\mathbf{x}^{n} \right]\leqslant \int \frac{
\ln \wp \left ( \mathbf{s}\mid\mathbf{y} ; \mathbf{x}^{n+1} \right )}{\ln \wp \left ( \mathbf{s}\mid\mathbf{y} ; \mathbf{x}^{n} \right )}\ln \wp \left ( \mathbf{s}\mid\mathbf{y} ; \mathbf{x}^{n} \right )d\mathbf{s}-1=0
Azaz az E és M lépések hatására R változása negatív.
Beláttuk tehát, hogy
$  \ln \wp \left ( \mathbf{y} ; \mathbf{x}^{n+1} \right )-\ln \wp \left ( \mathbf{y} ; \mathbf{x}^{n} \right )\geqslant 0

Ezzel beláttuk, hogy az algoritmus legalábbis nem ront az egyszerű ML algoritmuson.
A következő fejezeteben az ML-EM algoritmus alkalmazását tekintjük át az Emissziós Tomográfiában.

 


Site Language: English

Log in as…