04 – Neřízená klasifikace – Učební materiály z geoinformatiky

Neřízená klasifikace

Neřízená klasifikace je metoda, která identifikuje přirozené skupiny nebo struktury, obsažené v zaznamenaných multispektrálních datech. Při tomto způsobu klasifikace se metodami shlukové analýzy automatizovaně extrahují dominantní obrazce spektrální odrazivosti (tzv. spektrální třídy). Teprve dodatečně, ex post, se zjišťuje reálný význam vzniklých tříd (informační třídy). K tomuto účelu se používají mapy, letecké snímky, terénní pochůzky a jiné materiály, které se týkají zájmového území.

Metody shlukové analýzy:

Hierarchické:
1. aglomerační metody: jednotlivé pixely (segmenty) se postupně spojují do shluků
2. rozkladové metody: vstupní soubor se postupně dělí do více skupin
Nehierarchické:
1. hledají takový rozklad množiny objektů, který je optimální podle zvoleného kritéria. Využívají iterační algoritmy.

Obecné kroky shlukové analýzy:

Určení spektrálních pásem snímku, se kterými má algoritmus pracovat
Definování (přibližného) počtu výsledných shluků
Určení počáteční polohy centroidu pro každý shluk
Postupné přiřazení všech pixelů k tomu shluku, k němuž mají v příznakovém prostoru nejblíže
Výpočet nové polohy centroidu pro každý shluk na základě přiřazených pixelů
Opakování kroku 3 a 4 do té doby, dokud se poloha shluku či počet pixelů zařazených do shluku výrazně nemění
Přiřazení konkrétního významu každému tzv. stabilnímu shluku
Vytváření informačních tříd spojováním (agregací) tříd spektrálních

Algoritmy shlukové analýzy

metoda K-means
ISODATA (Iterative Self-Organising Data Analysis Technique)

Tyto algoritmy předpokládají, že dopředu známe (alespoň přibližně) počet shluků, do kterého chceme rozdělit vstupní soubor. Výpočet začne s k náhodnými shluky. Jednotky se poté postupně přesouvají mezi jednotlivými shluky a to tak, aby:

1. minimalizovaly variabilitu mezi jednotkami uvnitř jednoho shluku

2. maximalizovaly variabilitu mezi jednotlivými shluky

Algoritmus K-means

Na začátku algoritmus očekává vstupní parametr, počet shluků. Podle počtu shluků je vygenerován ekvivalentní počet bodů, tzv. centroidů. V každém kroku se do shluku přiřadí takové objekty, které mají co nejmenší vzdálenost od reprezentanta shluku – centroidu (středy shluků reprezentované body, které ale nepatří do souboru dat).

ISODATA algoritmus

Rozšířený K-means algoritmus – umožňuje měnit shluky v průběhu iterací. Shluky, které se stanou heterogenní se rozdělí, shluky, které jsou blízko sebe se sloučí a shluky s malým počtem pixelů se rozpustí do ostatních.

Algoritmus ISODATA se od algoritmu K-means liší tím, že nemá stálý počet shluků, takže požadovaný počet shluků musí být zadán jejich minimálním a maximálním počtem. V tomto rozmezí pak počet shluků kolísá v jednotlivých iteracích. Shluky mohou být spojovány, pokud vzdálenost středů těchto shluků je menší než předem zadaná hodnota, nebo rozdělovány, pokud se stanou příliš heterogenními (měřeno maximální hodnotou směrodatné odchylky zadanou na počátku výpočtu).

Shluky mohou být i zcela rušeny, pokud obsahují méně pixelů než je předem zadaná minimální velikost shluku. Příslušné pixely jsou pak přiřazeny k nejbližším okolním shlukům. Po každé iteraci dochází k přepočítávání statistik a opakování celého procesu a přeřazování
pixelů. Proces klasifikace je definitivně ukončen, když je dosaženo maximálního zadaného počtu iterací nebo když už nedochází k významnému počtu změn v zařazení jednotlivých klasifikovaných pixelů.

Výhody neřízené klasifikace:

spektrálních tříd je v obraze více než lze vizuálně nalézt – neřízená klasifikace tak často odhalí rozdíly mezi navenek příbuznými třídami – např.poškozené stromy, odlišnou vlhkost apod.

Neřízená klasifikace s prostředí ArcGIS Pro je popsána v tomto dokumentu.