Mitä ovat aggregaatiofunktiot (COUNT, SUM, AVG, jne.)?

Question

Accepted Answer

**Aggregaatiofunktiot** laskevat yhden arvon useista riveistä — `COUNT`, `SUM`, `AVG`, `MIN`, `MAX`. Ne ovat välttämättömiä tietojen yhteenvetämiseen (summat, keskiarvot, laskurit), erityisesti kun niitä käytetään yhdessä `GROUP BY`:n kanssa.

## Tärkeimmät aggregaatiofunktiot

```sql
SELECT
  COUNT(*)        AS total_rows,        -- count all rows
  COUNT(email)    AS rows_with_email,    -- count NON-NULL emails (ignores NULLs!)
  SUM(amount)     AS total_amount,       -- sum of a column
  AVG(price)      AS average_price,      -- average
  MIN(price)      AS lowest,             -- minimum
  MAX(price)      AS highest             -- maximum
FROM orders;
```

Jokaisella funktiolla vähennetään monta riviä yhdeksi arvoksi. `SUM`/`AVG` toimivat numeroilla; `MIN`/`MAX` numeroilla, päivämäärillä tai tekstillä; `COUNT` millä tahansa.

## COUNT(*) vs COUNT(sarake) — tärkeä ero

```sql
COUNT(*)         -- counts ALL rows (including those with NULLs)
COUNT(email)     -- counts only rows where email is NOT NULL
COUNT(DISTINCT country)  -- counts UNIQUE non-null values
```

**`COUNT(*)`** laskee kaikki rivit, mutta **`COUNT(sarake)`** laskee vain rivit, joissa kyseinen sarake **ei ole NULL** — hienovarainen mutta tärkeä ero. `COUNT(DISTINCT sarake)` laskee ainutlaatuiset arvot.

## Aggregaatiot yhdessä GROUP BY:n kanssa (ryhmäkohtaiset yhteenvedot)

```sql
-- aggregate PER GROUP instead of the whole table
SELECT country, COUNT(*) AS users, AVG(age) AS avg_age
FROM users
GROUP BY country;          -- one result row per country
-- → for each country: how many users and their average age
```

Ilman `GROUP BY`:tä aggregaatio tiivistää koko tuloksen yhdeksi riviksi. `GROUP BY`:n kanssa se tuottaa yhden yhteenvetorivim **ryhmää kohden** — tyypillinen ja tehokas käyttötapa.

## Yleinen sudenkuoppa: aggregaatiot ja ei-aggregoidut sarakkeet

```sql
-- ❌ ERROR — can't mix an aggregate with a non-grouped column
SELECT name, COUNT(*) FROM users;        -- which name? ambiguous
-- ✅ either group by it, or only select aggregates
SELECT country, COUNT(*) FROM users GROUP BY country;
```

## Miksi tämä on tärkeää

Aggregaatiofunktiot ovat välttämättömiä **tietojen yhteenvetämiseen ja analyysiin** — summien, keskiarvojen, laskurien ja ääriarvojen laskeminen on jatkuva tarve raportoinnissa, analytiikassa, kojelaudoissa ja sovelluksen logiikassa, joten niiden ymmärtäminen on perustavanlaatuista SQL-osaamista.

Pääfunktioiden (`COUNT`, `SUM`, `AVG`, `MIN`, `MAX`) tunteminen ja siitä, miten ne vähentävät useiden rivien joukot yksittäisiksi arvoiksi, on välttämätöntä kaikelle datatietojen yhteenvetämiselle.

Tärkeä ja usein väärinymmärretty yksityiskohta on **`COUNT(*)` ja `COUNT(sarake)` välinen ero** (`COUNT(*)` laskee kaikki rivit, `COUNT(sarake)` laskee vain ei-NULL-arvot — mikä voi antaa erilaisia, yllättäviä tuloksia) sekä `COUNT(DISTINCT)` ainutlaatuisten arvojen laskemiseen.

Tehokkaimmin aggregaatiot yhdistyvät **`GROUP BY`:hin** ryhmäkohtaisten yhteenveto-tulosten tuottamiseksi (laskurit/keskiarvot kategoriaittain) — analyyttisten kyselyjen perusta.

Ymmärtäminen **sudenkuopasta**, että aggregaatteja ei voi sekoittaa ryhmäämättömiin sarakkeisiin (yleinen virhe), on myös tärkeää.

Koska datatietojen yhteenvetäminen on kaikkialla esiintyvä tietokantatehtävä (jokainen raportti, kojelauta ja analytiikkakysely käyttää aggregaatioita) ja koska funktioiden, COUNT-hienouksien ja erityisesti niiden yhdistelmisen GROUP BY:n kanssa ymmärtäminen on perustavanlaatuista tietojen analyysille SQL:ssä, aggregaatiofunktioiden hallitseminen on keskeistä, usein sovellettavaa osaamista, joka on välttämätöntä datatietojen kanssa työskentelemiseen — se yhdistää peruskyselyt ja analyyttisen, yhteenvetävän voiman, joka tekee SQL:stä arvokkaan raportoinnille ja näkemyksille.