Koji su glavni tipovi neuronskih mreža (CNN, RNN, transformatori)?

Question

Accepted Answer

Različite arhitekture neuronskih mreža pogađaju različitim podacima i zadacima — **CNN-ovi** za slike, **RNN-ovi** za sekvence, i **transformatori** za jezik (i sve više za sve ostalo). Razumijevanje glavnih tipova pojašnjava kako AI rješava različite probleme.

## Glavne arhitekture

```text
CNN (Convolutional Neural Network) → for IMAGES/spatial data:
  → uses convolutions to detect local features (edges, shapes) hierarchically
  → for: image classification, object detection, computer vision
RNN (Recurrent Neural Network) → for SEQUENCES/time-series:
  → processes sequences step by step, maintaining a 'memory' of previous inputs
  → for: text, time-series, speech (older approach; LSTM/GRU variants)
  ⚠️ struggles with long sequences; largely SUPERSEDED by transformers for language
TRANSFORMER → for SEQUENCES (language) and increasingly everything:
  → attention mechanism; parallel; the dominant modern architecture (LLMs)
  → for: language (LLMs), and now vision, audio, multimodal
```

## Ostale arhitekture

```text
→ FEEDFORWARD/dense networks → basic, fully-connected (general tasks, tabular data)
→ GANs (Generative Adversarial Networks) → generate realistic data (images) via two
  competing networks
→ AUTOENCODERS → learn compressed representations (dimensionality reduction, anomaly detection)
→ DIFFUSION MODELS → modern image generation (DALL-E, Stable Diffusion)
→ match the architecture to the data/task
```

## Zašto je važno

Razumijevanje glavnih tipova neuronskih mreža je vrijedno jer se **različite arhitekture primjenjuju na različitim podacima i zadacima**, što pojašnjava kako AI rješava različite probleme.

Neuronske mreže dolaze u različitim arhitekturama specijaliziranima za različite podatke.

Razumijevanje **glavnih arhitektura** — **CNN-ova** (za slike i prostorne podatke, koristeći konvolucije za detekciju lokalnih svojstava hijerarhijski, za računalni vid), **RNN-ova** (za sekvence i vremenske serije, procesuiranja korak po korak s memorijom, korišteni za tekst i govor, ali uglavnom zamijenjeni transformatorima za jezik), i **transformatora** (za jezik i sve više za sve ostalo, koristeći attention, dominantna moderna arhitektura koja pokreće LLM-ove) — pojašnjava koja arhitektura odgovara kojim podacima i zadatku.

Razumijevanje trajektorije (RNN-ovi su stariji i zamijenjeni transformatorima, transformatori sada dominiraju i proširuju se na vid i multimodalne zadatke) odražava kako se polje razvilo.

Razumijevanje **ostalih arhitektura** — feedforward/dense mreže (osnovne, za opće i tabelarne zadatke), GAN-ovi (generiranje realističnih podataka kroz konkurentne mreže), autoencoderi (učenje komprimiranih reprezentacija), i **difuzijski modeli** (moderni modeli za generiranje slika iza DALL-E i Stable Diffusion) — proširuje svjesnost o arhitekturama iza različitih AI aplikacija.

Razumijevanje da **prilagođavate arhitekturu podacima i zadatku** odražava ključni princip.

Ovo znanje pojašnjava kako rade različite AI aplikacije (CNN-ovi iza prepoznavanja slika, transformatori iza LLM-ova, difuzijski modeli iza generiranja slika), pružajući uvid u različitost pristupa neuronskim mrežama i koja arhitektura odgovara kojem problemu.

Budući da se različite arhitekture neuronskih mreža (CNN, RNN, transformator, GAN, difuzija) primjenjuju na različitim podacima i zadacima te razumijevanje glavnih tipova pojašnjava kako AI rješava različite probleme (slike, sekvence, jezik, generiranje), razumijevanje glavnih tipova neuronskih mreža je vrijedno, praktično relevantno AI znanje — pojašnjavajući kako se različite arhitekture primjenjuju na različitim podacima i zadacima (CNN-ovi za slike, transformatori za jezik, difuzija za generiranje slika), pružajući uvid u kako rade različite AI aplikacije, i korisno konceptualno znanje o raznolikosti pristupa neuronskim mrežama.