AI Models Beyond LLM

By Cuong Tran 2026-04-05 23 min read

LLM thống trị, nhưng không phải mô hình AI duy nhất. Landscape AI 2025 rộng hơn nhiều.

01. Bức Tranh Tổng Thể

LLM (Large Language Model) đang chiếm spotlight, nhưng thế giới AI không chỉ có Transformer và next-token prediction. Nhiều kiến trúc khác đang giải quyết những bài toán mà LLM không thể — hoặc giải tốt hơn.

---
config:
  theme: neutral
  look: classic
---
flowchart TB
    subgraph TEXT["📝 Text & Code"]
        direction LR
        T1["Transformer
(LLM)"]:::purple
        T2["SSM
(Mamba)"]:::blue
        T3["RWKV"]:::blue
    end

    subgraph VISION["🎨 Image & Video"]
        direction LR
        V1["Diffusion
Models"]:::green
        V2["Vision
Transformer"]:::purple
        V3["GAN"]:::dim
    end

    subgraph MULTI["🌐 Multimodal"]
        direction LR
        M1["GPT-4o"]:::orange
        M2["Gemini"]:::orange
        M3["Claude"]:::orange
    end

    subgraph SPECIAL["🔬 Specialized"]
        direction LR
        SP1["AlphaFold
(supervised)"]:::red
        SP2["Deep RL
(robotics)"]:::red
        SP3["RLHF
(alignment)"]:::red
    end

    subgraph AUDIO["🎵 Speech & Audio"]
        direction LR
        A1["Whisper"]:::cyan
        A2["TTS"]:::cyan
        A3["Music Gen"]:::cyan
    end

    classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
    classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a
    classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a
    classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a
    classDef cyan fill:#d1ecf1,stroke:#0c5460,color:#1a1a1a
    classDef dim fill:#f0f0f0,stroke:#999,color:#666

02. Diffusion Models — Nghệ Thuật Từ Nhiễu

Cơ Chế: Ngược Chiều Với LLM

LLM dự đoán token tiếp theo (trái → phải). Diffusion models làm ngược lại: bắt đầu từ noise hoàn toàn ngẫu nhiên, dần dần khử nhiễu (denoise) thành output có ý nghĩa.

Paper nền tảng: "Denoising Diffusion Probabilistic Models" (Ho et al., 2020)¹

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    subgraph FORWARD["Forward Process (training)"]
        direction LR
        F1["🖼 Ảnh gốc"]:::green
        F2["🔵 Thêm noise"]:::blue
        F3["⚪ Pure noise"]:::dim
        F1 --> F2 --> F3
    end

    subgraph REVERSE["Reverse Process (generation)"]
        direction LR
        R1["⚪ Random noise"]:::dim
        R2["🔵 Khử noise"]:::blue
        R3["🖼 Ảnh mới"]:::green
        R1 --> R2 --> R3
    end

    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a
    classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
    classDef dim fill:#f0f0f0,stroke:#999,color:#666

Toán học cốt lõi:

Forward process thêm Gaussian noise dần dần:

q(xₜ | xₜ₋₁) = N(xₜ; √(1-βₜ)·xₜ₋₁, βₜI)

Reverse process học dự đoán noise đã thêm:

pθ(xₜ₋₁ | xₜ) = N(xₜ₋₁; μθ(xₜ, t), σₜ²I)

Model được train để dự đoán noise ε tại mỗi timestep, sau đó trừ đi để khôi phục signal.

Latent Diffusion — Bước Đột Phá Thực Dụng

Paper: "High-Resolution Image Synthesis with Latent Diffusion Models" (Rombach et al., 2022)²

Thay vì diffuse trên pixel space (rất tốn compute), Latent Diffusion nén ảnh xuống latent space nhỏ hơn nhiều lần rồi mới chạy diffusion. Đây là nền tảng của Stable Diffusion.

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    A["📝 Text prompt"]:::orange --> B["Text Encoder
(CLIP)"]:::blue --> C["Diffusion
in Latent Space"]:::purple --> D["Decoder
(VAE)"]:::green --> E["🖼 Output"]:::green

    classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a
    classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
    classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a

Landscape Hiện Tại

Model	Hãng	Loại	Đặc điểm
DALL-E 3	OpenAI	Image	Tích hợp ChatGPT, hiểu prompt tốt
Midjourney v6	Midjourney	Image	Chất lượng nghệ thuật cao
Stable Diffusion 3	Stability AI	Image	Open-source, chạy local
Flux	Black Forest Labs	Image	Open-source, đối thủ Midjourney
Sora	OpenAI	Video	Text-to-video, chưa public rộng
Runway Gen-3	Runway	Video	Video editing + generation

03. State Space Models — Đối Thủ Của Transformer

Vấn Đề Của Transformer

Self-attention có chi phí O(n²) với sequence length n. Context window 1M tokens = ma trận attention 1M × 1M. Đây là bottleneck cơ bản.

Mamba: Linear-Time Alternative

Paper: "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" (Gu & Dao, 2023)³

Mamba đạt O(n) complexity — tuyến tính với sequence length — bằng cách dùng selective state space thay vì attention.

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    subgraph TRANS["Transformer"]
        direction TB
        TA["O(n²) attention"]:::red
        TB["Parallel training ✅"]:::green
        TC["Parallel inference ❌"]:::red
    end

    subgraph SSM["Mamba (SSM)"]
        direction TB
        SA["O(n) selective scan"]:::green
        SB["Parallel training ✅"]:::green
        SC["Parallel inference ✅"]:::green
    end

    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a
    classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a

Ý tưởng cốt lõi: SSM truyền thống dùng parameters cố định (time-invariant). Mamba làm parameters phụ thuộc vào input (selective) — cho phép model "chọn" thông tin nào cần nhớ, thông tin nào cần quên. Đây là cơ chế tương đương chức năng với attention nhưng chi phí thấp hơn.

RWKV: RNN Reborn

Paper: "RWKV: Reinventing RNNs for the Transformer Era" (Peng et al., 2023)⁴

RWKV kết hợp ưu điểm của RNN (inference O(1) per token) với Transformer (train song song được). Tên viết tắt từ 4 thành phần: Receptance, Weight, Key, Value.

So Sánh Hiệu Suất

Khía cạnh	Transformer	Mamba	RWKV
Training complexity	O(n²)	O(n)	O(n)
Inference per token	O(n)	O(1)	O(1)
Long context	Tốt (nhưng đắt)	Rất tốt	Tốt
Chất lượng ở scale lớn	Proven	Promising	Đang phát triển
Ecosystem	Khổng lồ	Đang xây dựng	Cộng đồng nhỏ

Thực tế: Tính đến 2025, chưa có SSM nào vượt Transformer ở scale lớn trên các benchmark tổng hợp. Nhưng hybrid architectures (Jamba = Mamba + Transformer) đang cho kết quả rất promising — gợi ý rằng tương lai có thể là kết hợp, không phải thay thế.

04. Multimodal Models — Hội Tụ Các Modality

Xu Hướng: Từ Specialist Đến Generalist

Thay vì model riêng cho text, image, audio — xu hướng hiện tại là một model xử lý tất cả.

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    subgraph PAST["2020-2022: Specialist"]
        direction TB
        P1["GPT-3
(text only)"]:::dim
        P2["DALL-E
(image only)"]:::dim
        P3["Whisper
(audio only)"]:::dim
    end

    subgraph NOW["2023-2025: Generalist"]
        direction TB
        N1["GPT-4o
(text+image+audio)"]:::green
        N2["Gemini 2.5
(text+image+video+audio)"]:::green
    end

    PAST -->|"convergence"| NOW

    classDef dim fill:#f0f0f0,stroke:#999,color:#666
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a,stroke-width:2px

Vision Transformer (ViT)

Paper: "An Image is Worth 16x16 Words" (Dosovitskiy et al., 2021)⁵

ViT chứng minh rằng Transformer — vốn thiết kế cho text — hoạt động tốt tương đương hoặc hơn CNN cho computer vision khi có đủ data. Ý tưởng: chia ảnh thành patches 16×16, mỗi patch = 1 "token", rồi dùng standard Transformer.

Đây là bước quan trọng dẫn đến multimodal models: cùng kiến trúc cho cả text lẫn image.

Landscape Multimodal 2025

Model	Text	Image	Audio	Video	Native Multimodal
GPT-4o	✅	✅	✅	✅	✅
Gemini 2.5	✅	✅	✅	✅	✅
Claude 4.6	✅	✅	❌	❌	❌
LLaMA 3.2	✅	✅	❌	❌	✅

"Native multimodal" = model được train từ đầu trên nhiều modalities cùng lúc, không phải ghép module sau. Gemini là ví dụ rõ nhất — Google train nó trên text, image, audio, video đồng thời.

05. Specialized AI — Nơi LLM Không Thể Đến

Bài Toán Nào LLM Không Giải Tốt?

LLM giỏi pattern matching và generation. Nhưng LLM không giỏi:

Dự đoán cấu trúc 3D — cần geometric reasoning, không chỉ text
Tương tác vật lý — robot cần trial-and-error (RL)
Tối ưu hóa — tìm solution tốt nhất, không chỉ plausible

AlphaFold — Supervised Learning Cho Khoa Học

Paper: "Highly accurate protein structure prediction with AlphaFold" (Jumper et al., 2021)⁶

AlphaFold dự đoán cấu trúc 3D của protein từ chuỗi amino acid — bài toán mà nhân loại mất 50 năm chưa giải được. AlphaFold 2 giải nó với độ chính xác ngang thực nghiệm.

Đây không phải LLM, cũng không phải RL — nó dùng kiến trúc riêng (Evoformer + Structure Module) kết hợp attention với geometric reasoning, được train bằng supervised learning trên các cấu trúc protein đã biết.

Impact: AlphaFold đã dự đoán cấu trúc của ~200 triệu protein — gần như toàn bộ protein đã biết. Đây là một trong những đóng góp lớn nhất của AI cho khoa học.

RLHF — Reinforcement Learning ↔ LLM

Paper: "Training language models to follow instructions with human feedback" (Ouyang et al., 2022)⁷

RLHF (Reinforcement Learning from Human Feedback) là kỹ thuật then chốt biến LLM từ "autocomplete engine" thành "helpful assistant". Quy trình:

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    A["Pre-trained
LLM"]:::dim --> B["SFT
(supervised
fine-tuning)"]:::blue --> C["Reward
Model
(human prefs)"]:::orange --> D["PPO
(RL training)"]:::purple --> E["Aligned
LLM"]:::green

    classDef dim fill:#f0f0f0,stroke:#999,color:#666
    classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
    classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a
    classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a

Không có RLHF, GPT-3 chỉ là autocomplete. Có RLHF, nó trở thành ChatGPT.

06. Speech & Audio Models

Whisper — Universal Speech Recognition

Paper: "Robust Speech Recognition via Large-Scale Weak Supervision" (Radford et al., 2023)⁸

Whisper được train trên 680,000 giờ audio đa ngôn ngữ. Điểm đặc biệt: nó dùng kiến trúc Transformer encoder-decoder — cùng họ với LLM, nhưng input là mel spectrogram thay vì text tokens.

Text-to-Speech & Music

Model	Hãng	Năng lực
ElevenLabs	ElevenLabs	Voice cloning, TTS chất lượng cao
Bark	Suno	Open-source TTS
Suno v4	Suno	Full song generation từ text prompt
Udio	Udio	Music generation, cạnh tranh Suno

07. So Sánh: Hiệu Quả Và Ai Dẫn Đầu

Theo Domain

Domain	Kiến trúc dominant	Dẫn đầu	Open-source?
Text/Code	Transformer (LLM)	OpenAI, Anthropic, Google	Meta (LLaMA)
Image gen	Diffusion	Midjourney, Black Forest Labs	Flux, SD
Video gen	Diffusion + Transformer	OpenAI (Sora), Runway	Đang phát triển
Speech	Transformer (enc-dec)	OpenAI (Whisper), ElevenLabs	Whisper
Music	Diffusion + LM	Suno, Udio	Bark
Science	Custom (supervised + attention)	DeepMind (AlphaFold)	AlphaFold
Robotics	RL + Vision	Google, Tesla	Hạn chế
Efficient seq	SSM (Mamba)	Research stage	Mamba, RWKV

Theo Mô Hình Học (Learning Paradigm)

---
config:
  theme: neutral
  look: classic
---
flowchart TB
    subgraph SELF["Self-Supervised"]
        direction LR
        S1["LLM
(next-token)"]:::purple
        S2["Diffusion
(denoising)"]:::green
        S3["BERT
(masked LM)"]:::blue
    end

    subgraph SUPER["Supervised"]
        direction LR
        SU1["ViT
(classification)"]:::orange
        SU2["Whisper
(transcription)"]:::orange
        SU3["AlphaFold
(structure)"]:::orange
    end

    subgraph REINFORCE["Reinforcement"]
        direction LR
        R1["RLHF"]:::red
        R2["Robotics"]:::red
        R3["AlphaGo"]:::red
    end

    classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a
    classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
    classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a
    classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a

08. Kiến Trúc Mới Nổi — Thay Thế Nền Tảng

Kolmogorov-Arnold Networks (KAN)

Paper: "KAN: Kolmogorov-Arnold Networks" (Liu et al., 2024)⁹

MLP (Multi-Layer Perceptron) là nền tảng của mọi neural network từ 1986 — weights cố định trên edges, activation functions trên nodes. KAN đảo ngược: đặt learnable functions trên edges thay vì weights cố định.

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    subgraph MLP["MLP (truyền thống)"]
        direction TB
        M1["Fixed weights
on edges"]:::dim
        M2["Activation functions
on nodes"]:::dim
    end

    subgraph KAN["KAN (mới)"]
        direction TB
        K1["Learnable functions
on edges"]:::green
        K2["Summation
on nodes"]:::green
    end

    classDef dim fill:#f0f0f0,stroke:#999,color:#666
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a

Tại sao quan trọng: KAN interpretable hơn MLP — có thể nhìn vào learned functions để hiểu model "nghĩ" gì. Đặc biệt hiệu quả cho scientific tasks (fitting equations, symbolic regression). Nhưng chưa chứng minh được ở LLM-scale.

Liquid Neural Networks

Paper: "Liquid Time-constant Networks" (Hasani et al., 2021)¹⁰

Networks thông thường có cấu trúc cố định sau khi train. Liquid networks thay đổi behavior theo thời gian — neurons điều chỉnh time constants dựa trên input hiện tại. Lấy cảm hứng từ hệ thần kinh của giun tròn C. elegans (302 neurons).

Kết quả đáng chú ý: MIT demo autonomous driving với chỉ 19 neurons — trong khi các hệ thống khác cần hàng triệu parameters¹⁰.

Flow Matching — Thế Hệ Sau Của Diffusion

Paper: "Flow Matching for Generative Modeling" (Lipman et al., 2023)¹¹

Diffusion models denoise qua nhiều steps (chậm). Flow matching học đường đi trực tiếp từ noise distribution → data distribution — nhanh hơn và dễ train hơn.

Stable Diffusion 3 và Flux đã chuyển sang flow matching. Đây có thể là replacement cho DDPM trong tương lai gần.

09. Paradigm Học Mới

Test-Time Compute — Scaling Lúc Inference

Thay vì "train model lớn hơn" (scaling pretrain), cho model nghĩ lâu hơn lúc inference. OpenAI o1/o3 và DeepSeek R1 là ví dụ — dùng RL-trained reasoning để model tự explore nhiều reasoning paths.

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    subgraph OLD["Scaling truyền thống"]
        direction TB
        O1["Bigger model
= Better"]:::dim
    end

    subgraph NEW["Inference-time scaling"]
        direction TB
        N1["Same model
+ More thinking
= Better"]:::green
    end

    OLD -->|"paradigm shift"| NEW

    classDef dim fill:#f0f0f0,stroke:#999,color:#666
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a,stroke-width:2px

Ý nghĩa: Có thể dùng model nhỏ + nhiều inference compute thay cho model khổng lồ. Đảo ngược scaling paradigm từ "train-time" sang "test-time".

Direct Preference Optimization (DPO)

Paper: "Direct Preference Optimization: Your Language Model is Secretly a Reward Model" (Rafailov et al., 2023)¹²

RLHF cần 3 bước phức tạp: SFT → Reward Model → PPO training. DPO rút gọn thành 1 bước duy nhất — optimize trực tiếp trên human preferences mà không cần reward model riêng.

	RLHF	DPO
Bước	3 (SFT → RM → PPO)	1
Cần reward model	Có	Không
Stability	Khó tune	Ổn định
Kết quả	Tốt	Tương đương
Code complexity	Cao	Thấp ~10x

Ý nghĩa: Democratize alignment — team nhỏ cũng có thể align model mà không cần infrastructure RLHF phức tạp.

Mixture of Experts (MoE)

Paper: "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer" (Shazeer et al., 2017)¹³

Model khổng lồ nhưng chỉ activate một phần nhỏ cho mỗi input. Router network quyết định input nào đi đến expert nào.

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    I["Input"]:::orange --> R["Router"]:::purple

    R --> E1["Expert 1"]:::green
    R --> E2["Expert 2"]:::dim
    R --> E3["Expert 3"]:::dim
    R --> E4["Expert 4"]:::green

    E1 --> O["Output"]:::orange
    E4 --> O

    classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a
    classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a,stroke-width:2px
    classDef dim fill:#f0f0f0,stroke:#999,color:#666

Ví dụ thực tế: Mixtral 8x7B có tổng 46.7B parameters nhưng chỉ dùng 12.9B per token (2/8 experts active). GPT-4 được cho là kiến trúc MoE. Đây là cách scale lên trillions of parameters mà inference cost vẫn chấp nhận được.

10. Hướng Đi Sâu — Những Gì Ít Được Nói Đến

Causal AI — Từ Correlation Đến Causation

Mọi AI hiện tại (kể cả LLM) học correlation: A xuất hiện cùng B. Causal AI học causation: A gây ra B.

Judea Pearl — cha đẻ lý thuyết nhân quả trong AI — đề xuất "Ladder of Causation"¹⁴:

Bậc	Câu hỏi	AI hiện tại	Causal AI
1. Association	A và B có liên quan?	✅	✅
2. Intervention	Nếu tôi làm X, Y sẽ thay đổi?	❌	✅
3. Counterfactual	Nếu X đã không xảy ra, Y có xảy ra?	❌	✅

LLM không phân biệt được "mưa gây đường ướt" vs "đường ướt gây mưa". Causal AI có thể. Đây là missing piece cho AI thật sự "hiểu" thế giới — nhưng vẫn chủ yếu ở giai đoạn lý thuyết.

World Models — Mô Hình Thế Giới

Yann LeCun (Chief AI Scientist, Meta) cho rằng approach hiện tại — train LLM trên text — là dead end cho AGI¹⁵. Lý do: text chỉ chứa một phần nhỏ kiến thức về thế giới. Trẻ em học về vật lý, không gian, nhân quả trước khi biết nói.

JEPA (Joint Embedding Predictive Architecture)¹⁵ là vision của LeCun: AI xây dựng internal simulation của thế giới vật lý — có thể "tưởng tượng" kết quả của hành động trước khi thực hiện.

---
config:
  theme: neutral
  look: classic
---
flowchart TB
    subgraph LLM_WAY["Approach hiện tại"]
        L1["Text corpus"]:::dim --> L2["Pattern matching"]:::dim --> L3["Plausible output"]:::dim
    end

    subgraph WORLD["World Model approach"]
        W1["Sensory data"]:::green --> W2["Internal world model"]:::green --> W3["Predict + Plan + Act"]:::green
    end

    classDef dim fill:#f0f0f0,stroke:#999,color:#666
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a

Neuromorphic Computing — Hardware Sinh Học

Não người chạy ~20 watts. Training GPT-4 tốn ~50 megawatts. Neuromorphic chips (Intel Loihi 2, IBM NorthPole) mô phỏng não thật — dùng spiking neural networks (SNNs) truyền tín hiệu dạng xung thay vì floating point.

	GPU (hiện tại)	Neuromorphic
Tín hiệu	Continuous (float32)	Spikes (binary events)
Năng lượng	Megawatts	Milliwatts
Tính toán	Synchronous	Event-driven
Trạng thái	Early research	Early research

Tiềm năng: Giảm energy consumption 100-1000x cho inference. Nhưng software ecosystem gần như zero — đây là 10+ year bet.

11. Meta-Trends — Xu Hướng Vĩ Mô

Trend	Ý nghĩa	Ai dẫn đầu
Synthetic data	Train AI bằng data do AI tạo — giảm phụ thuộc data thật	Nvidia, mọi lab lớn
Distillation	Model nhỏ học từ model lớn — quality cao trong kích thước nhỏ	Google (Gemma), Microsoft (Phi)
Edge AI	AI chạy on-device, không cần cloud	Apple, Qualcomm
AI Agents	Từ chatbot → agent tự hành động	Anthropic, OpenAI
Post-training	RLHF, DPO — cải thiện sau pretrain quan trọng không kém	Anthropic, OpenAI

12. Hybrid Architectures — Tương Lai Là Kết Hợp

Xu hướng lớn nhất không phải "model nào thắng" mà là kết hợp:

Hybrid	Thành phần	Ví dụ
LLM + Diffusion	Text understanding + Image generation	DALL-E 3 dùng GPT-4 viết lại prompt
LLM + RL	Language reasoning + Search/Planning	OpenAI o1/o3 dùng RL-trained reasoning
Transformer + SSM	Attention quality + Linear efficiency	Jamba (AI21) = Mamba + Transformer layers
LLM + World Model	Language + Physical understanding	Yann LeCun's JEPA vision¹⁵
Dense + MoE	Full model + Sparse routing	GPT-4 (rumored), Mixtral¹³
Diffusion + Flow	Denoising + Direct transport	Stable Diffusion 3¹¹

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    A["Transformer
(quality)"]:::purple
    B["SSM
(efficiency)"]:::blue
    C["Diffusion/Flow
(generation)"]:::green
    D["RL
(optimization)"]:::red
    E["MoE
(scaling)"]:::cyan

    A --- H(["🔗 Hybrid
Architectures"]):::orange
    B --- H
    C --- H
    D --- H
    E --- H

    classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
    classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a
    classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a
    classDef cyan fill:#d1ecf1,stroke:#0c5460,color:#1a1a1a
    classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a,stroke-width:2px

13. Kết Luận — 5 Cuộc Chiến Thực Sự

Cuộc chiến không phải "LLM nào tốt hơn". Mà là 5 câu hỏi lớn hơn:

Scaling pretrain vs Scaling inference — Model lớn hơn hay nghĩ lâu hơn? o1/o3 gợi ý hướng 2 có thể hiệu quả hơn
Transformer vs Alternatives — Mamba, KAN, Liquid đều promising. Transformer tốt nhất hiện tại nhưng không nhất thiết mãi mãi³⁹¹⁰
Correlation vs Causation — LLM chỉ biết correlation. Causal AI là missing piece cho true reasoning¹⁴
Software vs Hardware — Neuromorphic computing có thể khiến GPU-based AI trở nên lỗi thời
Text-first vs World-first — LeCun cho rằng train trên text là dead end. World models mới là con đường đúng¹⁵

Không có "one model to rule them all." Mỗi kiến trúc giải quyết một class of problems khác nhau. AI engineer giỏi cần hiểu landscape — giống như software engineer biết khi nào dùng SQL vs NoSQL, REST vs gRPC. Tương lai thuộc về người biết kết hợp đúng công cụ.

References

Ho, J. et al. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020. arXiv:2006.11239 ↩
Rombach, R. et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022. arXiv:2112.10752 ↩
Gu, A. & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752 ↩ ↩²
Peng, B. et al. (2023). RWKV: Reinventing RNNs for the Transformer Era. EMNLP 2023 Findings. arXiv:2305.13048 ↩
Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021. arXiv:2010.11929 ↩
Jumper, J. et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596, 583–589. DOI:10.1038/s41586-021-03819-2 ↩
Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. NeurIPS 2022. arXiv:2203.02155 ↩
Radford, A. et al. (2023). Robust Speech Recognition via Large-Scale Weak Supervision. ICML 2023. arXiv:2212.04356 ↩
Liu, Z. et al. (2024). KAN: Kolmogorov-Arnold Networks. arXiv:2404.19756 ↩ ↩²
Hasani, R. et al. (2021). Liquid Time-constant Networks. AAAI 2021. arXiv:2006.04439 ↩ ↩² ↩³
Lipman, Y. et al. (2023). Flow Matching for Generative Modeling. ICLR 2023. arXiv:2210.02747 ↩ ↩²
Rafailov, R. et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023. arXiv:2305.18290 ↩
Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. ICLR 2017. arXiv:1701.06538 ↩ ↩²
Pearl, J. & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books. ISBN:978-0465097609 ↩ ↩²
LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. openreview.net ↩ ↩² ↩³ ↩⁴

AI Blog — Cập nhật 04/2026

Bài viết liên quan

Các Mô Hình Học Của AI Từ "dạy máy bằng đáp án" đến "máy tự học từ internet" — sự tiến hóa của Learning Paradigms. LLM — Bộ Não Của AI Agent Tại sao một mô hình "đoán từ tiếp theo" lại có thể lập luận, viết code, và điều phối hệ thống phức tạp? OpenClaw — Giải Mã Hiện Tượng AI Agent Có Stars Kỷ Lục GitHub 346,000 stars trong 60 ngày. Tại sao một dự án của 1 developer lại phá kỷ lục 10 năm của React? AI Agent Harness Engineering LLM là CPU, Harness là OS — engineering layer biến "text predictor" thành "autonomous agent". Claude Code Architecture AI Agent from IPO Model to Extension Mechanisms