AI Models Beyond LLM
LLM thống trị, nhưng không phải mô hình AI duy nhất. Landscape AI 2025 rộng hơn nhiều.
01. Bức Tranh Tổng Thể
LLM (Large Language Model) đang chiếm spotlight, nhưng thế giới AI không chỉ có Transformer và next-token prediction. Nhiều kiến trúc khác đang giải quyết những bài toán mà LLM không thể — hoặc giải tốt hơn.
---
config:
theme: neutral
look: classic
---
flowchart TB
subgraph TEXT["📝 Text & Code"]
direction LR
T1["Transformer
(LLM)"]:::purple
T2["SSM
(Mamba)"]:::blue
T3["RWKV"]:::blue
end
subgraph VISION["🎨 Image & Video"]
direction LR
V1["Diffusion
Models"]:::green
V2["Vision
Transformer"]:::purple
V3["GAN"]:::dim
end
subgraph MULTI["🌐 Multimodal"]
direction LR
M1["GPT-4o"]:::orange
M2["Gemini"]:::orange
M3["Claude"]:::orange
end
subgraph SPECIAL["🔬 Specialized"]
direction LR
SP1["AlphaFold
(supervised)"]:::red
SP2["Deep RL
(robotics)"]:::red
SP3["RLHF
(alignment)"]:::red
end
subgraph AUDIO["🎵 Speech & Audio"]
direction LR
A1["Whisper"]:::cyan
A2["TTS"]:::cyan
A3["Music Gen"]:::cyan
end
classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a
classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a
classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a
classDef cyan fill:#d1ecf1,stroke:#0c5460,color:#1a1a1a
classDef dim fill:#f0f0f0,stroke:#999,color:#66602. Diffusion Models — Nghệ Thuật Từ Nhiễu
Cơ Chế: Ngược Chiều Với LLM
LLM dự đoán token tiếp theo (trái → phải). Diffusion models làm ngược lại: bắt đầu từ noise hoàn toàn ngẫu nhiên, dần dần khử nhiễu (denoise) thành output có ý nghĩa.
Paper nền tảng: "Denoising Diffusion Probabilistic Models" (Ho et al., 2020)1
---
config:
theme: neutral
look: classic
---
flowchart LR
subgraph FORWARD["Forward Process (training)"]
direction LR
F1["🖼 Ảnh gốc"]:::green
F2["🔵 Thêm noise"]:::blue
F3["⚪ Pure noise"]:::dim
F1 --> F2 --> F3
end
subgraph REVERSE["Reverse Process (generation)"]
direction LR
R1["⚪ Random noise"]:::dim
R2["🔵 Khử noise"]:::blue
R3["🖼 Ảnh mới"]:::green
R1 --> R2 --> R3
end
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a
classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
classDef dim fill:#f0f0f0,stroke:#999,color:#666Toán học cốt lõi:
Forward process thêm Gaussian noise dần dần:
q(xₜ | xₜ₋₁) = N(xₜ; √(1-βₜ)·xₜ₋₁, βₜI)Reverse process học dự đoán noise đã thêm:
pθ(xₜ₋₁ | xₜ) = N(xₜ₋₁; μθ(xₜ, t), σₜ²I)Model được train để dự đoán noise ε tại mỗi timestep, sau đó trừ đi để khôi phục signal.
Latent Diffusion — Bước Đột Phá Thực Dụng
Paper: "High-Resolution Image Synthesis with Latent Diffusion Models" (Rombach et al., 2022)2
Thay vì diffuse trên pixel space (rất tốn compute), Latent Diffusion nén ảnh xuống latent space nhỏ hơn nhiều lần rồi mới chạy diffusion. Đây là nền tảng của Stable Diffusion.
---
config:
theme: neutral
look: classic
---
flowchart LR
A["📝 Text prompt"]:::orange --> B["Text Encoder
(CLIP)"]:::blue --> C["Diffusion
in Latent Space"]:::purple --> D["Decoder
(VAE)"]:::green --> E["🖼 Output"]:::green
classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a
classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1aLandscape Hiện Tại
| Model | Hãng | Loại | Đặc điểm |
|---|---|---|---|
| DALL-E 3 | OpenAI | Image | Tích hợp ChatGPT, hiểu prompt tốt |
| Midjourney v6 | Midjourney | Image | Chất lượng nghệ thuật cao |
| Stable Diffusion 3 | Stability AI | Image | Open-source, chạy local |
| Flux | Black Forest Labs | Image | Open-source, đối thủ Midjourney |
| Sora | OpenAI | Video | Text-to-video, chưa public rộng |
| Runway Gen-3 | Runway | Video | Video editing + generation |
03. State Space Models — Đối Thủ Của Transformer
Vấn Đề Của Transformer
Self-attention có chi phí O(n²) với sequence length n. Context window 1M tokens = ma trận attention 1M × 1M. Đây là bottleneck cơ bản.
Mamba: Linear-Time Alternative
Paper: "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" (Gu & Dao, 2023)3
Mamba đạt O(n) complexity — tuyến tính với sequence length — bằng cách dùng selective state space thay vì attention.
---
config:
theme: neutral
look: classic
---
flowchart LR
subgraph TRANS["Transformer"]
direction TB
TA["O(n²) attention"]:::red
TB["Parallel training ✅"]:::green
TC["Parallel inference ❌"]:::red
end
subgraph SSM["Mamba (SSM)"]
direction TB
SA["O(n) selective scan"]:::green
SB["Parallel training ✅"]:::green
SC["Parallel inference ✅"]:::green
end
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a
classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1aÝ tưởng cốt lõi: SSM truyền thống dùng parameters cố định (time-invariant). Mamba làm parameters phụ thuộc vào input (selective) — cho phép model "chọn" thông tin nào cần nhớ, thông tin nào cần quên. Đây là cơ chế tương đương chức năng với attention nhưng chi phí thấp hơn.
RWKV: RNN Reborn
Paper: "RWKV: Reinventing RNNs for the Transformer Era" (Peng et al., 2023)4
RWKV kết hợp ưu điểm của RNN (inference O(1) per token) với Transformer (train song song được). Tên viết tắt từ 4 thành phần: Receptance, Weight, Key, Value.
So Sánh Hiệu Suất
| Khía cạnh | Transformer | Mamba | RWKV |
|---|---|---|---|
| Training complexity | O(n²) | O(n) | O(n) |
| Inference per token | O(n) | O(1) | O(1) |
| Long context | Tốt (nhưng đắt) | Rất tốt | Tốt |
| Chất lượng ở scale lớn | Proven | Promising | Đang phát triển |
| Ecosystem | Khổng lồ | Đang xây dựng | Cộng đồng nhỏ |
Thực tế: Tính đến 2025, chưa có SSM nào vượt Transformer ở scale lớn trên các benchmark tổng hợp. Nhưng hybrid architectures (Jamba = Mamba + Transformer) đang cho kết quả rất promising — gợi ý rằng tương lai có thể là kết hợp, không phải thay thế.
04. Multimodal Models — Hội Tụ Các Modality
Xu Hướng: Từ Specialist Đến Generalist
Thay vì model riêng cho text, image, audio — xu hướng hiện tại là một model xử lý tất cả.
---
config:
theme: neutral
look: classic
---
flowchart LR
subgraph PAST["2020-2022: Specialist"]
direction TB
P1["GPT-3
(text only)"]:::dim
P2["DALL-E
(image only)"]:::dim
P3["Whisper
(audio only)"]:::dim
end
subgraph NOW["2023-2025: Generalist"]
direction TB
N1["GPT-4o
(text+image+audio)"]:::green
N2["Gemini 2.5
(text+image+video+audio)"]:::green
end
PAST -->|"convergence"| NOW
classDef dim fill:#f0f0f0,stroke:#999,color:#666
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a,stroke-width:2pxVision Transformer (ViT)
Paper: "An Image is Worth 16x16 Words" (Dosovitskiy et al., 2021)5
ViT chứng minh rằng Transformer — vốn thiết kế cho text — hoạt động tốt tương đương hoặc hơn CNN cho computer vision khi có đủ data. Ý tưởng: chia ảnh thành patches 16×16, mỗi patch = 1 "token", rồi dùng standard Transformer.
Đây là bước quan trọng dẫn đến multimodal models: cùng kiến trúc cho cả text lẫn image.
Landscape Multimodal 2025
| Model | Text | Image | Audio | Video | Native Multimodal |
|---|---|---|---|---|---|
| GPT-4o | ✅ | ✅ | ✅ | ✅ | ✅ |
| Gemini 2.5 | ✅ | ✅ | ✅ | ✅ | ✅ |
| Claude 4.6 | ✅ | ✅ | ❌ | ❌ | ❌ |
| LLaMA 3.2 | ✅ | ✅ | ❌ | ❌ | ✅ |
"Native multimodal" = model được train từ đầu trên nhiều modalities cùng lúc, không phải ghép module sau. Gemini là ví dụ rõ nhất — Google train nó trên text, image, audio, video đồng thời.
05. Specialized AI — Nơi LLM Không Thể Đến
Bài Toán Nào LLM Không Giải Tốt?
LLM giỏi pattern matching và generation. Nhưng LLM không giỏi:
- Dự đoán cấu trúc 3D — cần geometric reasoning, không chỉ text
- Tương tác vật lý — robot cần trial-and-error (RL)
- Tối ưu hóa — tìm solution tốt nhất, không chỉ plausible
AlphaFold — Supervised Learning Cho Khoa Học
Paper: "Highly accurate protein structure prediction with AlphaFold" (Jumper et al., 2021)6
AlphaFold dự đoán cấu trúc 3D của protein từ chuỗi amino acid — bài toán mà nhân loại mất 50 năm chưa giải được. AlphaFold 2 giải nó với độ chính xác ngang thực nghiệm.
Đây không phải LLM, cũng không phải RL — nó dùng kiến trúc riêng (Evoformer + Structure Module) kết hợp attention với geometric reasoning, được train bằng supervised learning trên các cấu trúc protein đã biết.
Impact: AlphaFold đã dự đoán cấu trúc của ~200 triệu protein — gần như toàn bộ protein đã biết. Đây là một trong những đóng góp lớn nhất của AI cho khoa học.
RLHF — Reinforcement Learning ↔ LLM
Paper: "Training language models to follow instructions with human feedback" (Ouyang et al., 2022)7
RLHF (Reinforcement Learning from Human Feedback) là kỹ thuật then chốt biến LLM từ "autocomplete engine" thành "helpful assistant". Quy trình:
---
config:
theme: neutral
look: classic
---
flowchart LR
A["Pre-trained
LLM"]:::dim --> B["SFT
(supervised
fine-tuning)"]:::blue --> C["Reward
Model
(human prefs)"]:::orange --> D["PPO
(RL training)"]:::purple --> E["Aligned
LLM"]:::green
classDef dim fill:#f0f0f0,stroke:#999,color:#666
classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a
classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1aKhông có RLHF, GPT-3 chỉ là autocomplete. Có RLHF, nó trở thành ChatGPT.
06. Speech & Audio Models
Whisper — Universal Speech Recognition
Paper: "Robust Speech Recognition via Large-Scale Weak Supervision" (Radford et al., 2023)8
Whisper được train trên 680,000 giờ audio đa ngôn ngữ. Điểm đặc biệt: nó dùng kiến trúc Transformer encoder-decoder — cùng họ với LLM, nhưng input là mel spectrogram thay vì text tokens.
Text-to-Speech & Music
| Model | Hãng | Năng lực |
|---|---|---|
| ElevenLabs | ElevenLabs | Voice cloning, TTS chất lượng cao |
| Bark | Suno | Open-source TTS |
| Suno v4 | Suno | Full song generation từ text prompt |
| Udio | Udio | Music generation, cạnh tranh Suno |
07. So Sánh: Hiệu Quả Và Ai Dẫn Đầu
Theo Domain
| Domain | Kiến trúc dominant | Dẫn đầu | Open-source? |
|---|---|---|---|
| Text/Code | Transformer (LLM) | OpenAI, Anthropic, Google | Meta (LLaMA) |
| Image gen | Diffusion | Midjourney, Black Forest Labs | Flux, SD |
| Video gen | Diffusion + Transformer | OpenAI (Sora), Runway | Đang phát triển |
| Speech | Transformer (enc-dec) | OpenAI (Whisper), ElevenLabs | Whisper |
| Music | Diffusion + LM | Suno, Udio | Bark |
| Science | Custom (supervised + attention) | DeepMind (AlphaFold) | AlphaFold |
| Robotics | RL + Vision | Google, Tesla | Hạn chế |
| Efficient seq | SSM (Mamba) | Research stage | Mamba, RWKV |
Theo Mô Hình Học (Learning Paradigm)
---
config:
theme: neutral
look: classic
---
flowchart TB
subgraph SELF["Self-Supervised"]
direction LR
S1["LLM
(next-token)"]:::purple
S2["Diffusion
(denoising)"]:::green
S3["BERT
(masked LM)"]:::blue
end
subgraph SUPER["Supervised"]
direction LR
SU1["ViT
(classification)"]:::orange
SU2["Whisper
(transcription)"]:::orange
SU3["AlphaFold
(structure)"]:::orange
end
subgraph REINFORCE["Reinforcement"]
direction LR
R1["RLHF"]:::red
R2["Robotics"]:::red
R3["AlphaGo"]:::red
end
classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a
classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a
classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a08. Kiến Trúc Mới Nổi — Thay Thế Nền Tảng
Kolmogorov-Arnold Networks (KAN)
Paper: "KAN: Kolmogorov-Arnold Networks" (Liu et al., 2024)9
MLP (Multi-Layer Perceptron) là nền tảng của mọi neural network từ 1986 — weights cố định trên edges, activation functions trên nodes. KAN đảo ngược: đặt learnable functions trên edges thay vì weights cố định.
---
config:
theme: neutral
look: classic
---
flowchart LR
subgraph MLP["MLP (truyền thống)"]
direction TB
M1["Fixed weights
on edges"]:::dim
M2["Activation functions
on nodes"]:::dim
end
subgraph KAN["KAN (mới)"]
direction TB
K1["Learnable functions
on edges"]:::green
K2["Summation
on nodes"]:::green
end
classDef dim fill:#f0f0f0,stroke:#999,color:#666
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1aTại sao quan trọng: KAN interpretable hơn MLP — có thể nhìn vào learned functions để hiểu model "nghĩ" gì. Đặc biệt hiệu quả cho scientific tasks (fitting equations, symbolic regression). Nhưng chưa chứng minh được ở LLM-scale.
Liquid Neural Networks
Paper: "Liquid Time-constant Networks" (Hasani et al., 2021)10
Networks thông thường có cấu trúc cố định sau khi train. Liquid networks thay đổi behavior theo thời gian — neurons điều chỉnh time constants dựa trên input hiện tại. Lấy cảm hứng từ hệ thần kinh của giun tròn C. elegans (302 neurons).
Kết quả đáng chú ý: MIT demo autonomous driving với chỉ 19 neurons — trong khi các hệ thống khác cần hàng triệu parameters10.
Flow Matching — Thế Hệ Sau Của Diffusion
Paper: "Flow Matching for Generative Modeling" (Lipman et al., 2023)11
Diffusion models denoise qua nhiều steps (chậm). Flow matching học đường đi trực tiếp từ noise distribution → data distribution — nhanh hơn và dễ train hơn.
Stable Diffusion 3 và Flux đã chuyển sang flow matching. Đây có thể là replacement cho DDPM trong tương lai gần.
09. Paradigm Học Mới
Test-Time Compute — Scaling Lúc Inference
Thay vì "train model lớn hơn" (scaling pretrain), cho model nghĩ lâu hơn lúc inference. OpenAI o1/o3 và DeepSeek R1 là ví dụ — dùng RL-trained reasoning để model tự explore nhiều reasoning paths.
---
config:
theme: neutral
look: classic
---
flowchart LR
subgraph OLD["Scaling truyền thống"]
direction TB
O1["Bigger model
= Better"]:::dim
end
subgraph NEW["Inference-time scaling"]
direction TB
N1["Same model
+ More thinking
= Better"]:::green
end
OLD -->|"paradigm shift"| NEW
classDef dim fill:#f0f0f0,stroke:#999,color:#666
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a,stroke-width:2pxÝ nghĩa: Có thể dùng model nhỏ + nhiều inference compute thay cho model khổng lồ. Đảo ngược scaling paradigm từ "train-time" sang "test-time".
Direct Preference Optimization (DPO)
Paper: "Direct Preference Optimization: Your Language Model is Secretly a Reward Model" (Rafailov et al., 2023)12
RLHF cần 3 bước phức tạp: SFT → Reward Model → PPO training. DPO rút gọn thành 1 bước duy nhất — optimize trực tiếp trên human preferences mà không cần reward model riêng.
| RLHF | DPO | |
|---|---|---|
| Bước | 3 (SFT → RM → PPO) | 1 |
| Cần reward model | Có | Không |
| Stability | Khó tune | Ổn định |
| Kết quả | Tốt | Tương đương |
| Code complexity | Cao | Thấp ~10x |
Ý nghĩa: Democratize alignment — team nhỏ cũng có thể align model mà không cần infrastructure RLHF phức tạp.
Mixture of Experts (MoE)
Paper: "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer" (Shazeer et al., 2017)13
Model khổng lồ nhưng chỉ activate một phần nhỏ cho mỗi input. Router network quyết định input nào đi đến expert nào.
---
config:
theme: neutral
look: classic
---
flowchart LR
I["Input"]:::orange --> R["Router"]:::purple
R --> E1["Expert 1"]:::green
R --> E2["Expert 2"]:::dim
R --> E3["Expert 3"]:::dim
R --> E4["Expert 4"]:::green
E1 --> O["Output"]:::orange
E4 --> O
classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a
classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a,stroke-width:2px
classDef dim fill:#f0f0f0,stroke:#999,color:#666Ví dụ thực tế: Mixtral 8x7B có tổng 46.7B parameters nhưng chỉ dùng 12.9B per token (2/8 experts active). GPT-4 được cho là kiến trúc MoE. Đây là cách scale lên trillions of parameters mà inference cost vẫn chấp nhận được.
10. Hướng Đi Sâu — Những Gì Ít Được Nói Đến
Causal AI — Từ Correlation Đến Causation
Mọi AI hiện tại (kể cả LLM) học correlation: A xuất hiện cùng B. Causal AI học causation: A gây ra B.
Judea Pearl — cha đẻ lý thuyết nhân quả trong AI — đề xuất "Ladder of Causation"14:
| Bậc | Câu hỏi | AI hiện tại | Causal AI |
|---|---|---|---|
| 1. Association | A và B có liên quan? | ✅ | ✅ |
| 2. Intervention | Nếu tôi làm X, Y sẽ thay đổi? | ❌ | ✅ |
| 3. Counterfactual | Nếu X đã không xảy ra, Y có xảy ra? | ❌ | ✅ |
LLM không phân biệt được "mưa gây đường ướt" vs "đường ướt gây mưa". Causal AI có thể. Đây là missing piece cho AI thật sự "hiểu" thế giới — nhưng vẫn chủ yếu ở giai đoạn lý thuyết.
World Models — Mô Hình Thế Giới
Yann LeCun (Chief AI Scientist, Meta) cho rằng approach hiện tại — train LLM trên text — là dead end cho AGI15. Lý do: text chỉ chứa một phần nhỏ kiến thức về thế giới. Trẻ em học về vật lý, không gian, nhân quả trước khi biết nói.
JEPA (Joint Embedding Predictive Architecture)15 là vision của LeCun: AI xây dựng internal simulation của thế giới vật lý — có thể "tưởng tượng" kết quả của hành động trước khi thực hiện.
---
config:
theme: neutral
look: classic
---
flowchart TB
subgraph LLM_WAY["Approach hiện tại"]
L1["Text corpus"]:::dim --> L2["Pattern matching"]:::dim --> L3["Plausible output"]:::dim
end
subgraph WORLD["World Model approach"]
W1["Sensory data"]:::green --> W2["Internal world model"]:::green --> W3["Predict + Plan + Act"]:::green
end
classDef dim fill:#f0f0f0,stroke:#999,color:#666
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1aNeuromorphic Computing — Hardware Sinh Học
Não người chạy ~20 watts. Training GPT-4 tốn ~50 megawatts. Neuromorphic chips (Intel Loihi 2, IBM NorthPole) mô phỏng não thật — dùng spiking neural networks (SNNs) truyền tín hiệu dạng xung thay vì floating point.
| GPU (hiện tại) | Neuromorphic | |
|---|---|---|
| Tín hiệu | Continuous (float32) | Spikes (binary events) |
| Năng lượng | Megawatts | Milliwatts |
| Tính toán | Synchronous | Event-driven |
| Trạng thái | Early research | Early research |
Tiềm năng: Giảm energy consumption 100-1000x cho inference. Nhưng software ecosystem gần như zero — đây là 10+ year bet.
11. Meta-Trends — Xu Hướng Vĩ Mô
| Trend | Ý nghĩa | Ai dẫn đầu |
|---|---|---|
| Synthetic data | Train AI bằng data do AI tạo — giảm phụ thuộc data thật | Nvidia, mọi lab lớn |
| Distillation | Model nhỏ học từ model lớn — quality cao trong kích thước nhỏ | Google (Gemma), Microsoft (Phi) |
| Edge AI | AI chạy on-device, không cần cloud | Apple, Qualcomm |
| AI Agents | Từ chatbot → agent tự hành động | Anthropic, OpenAI |
| Post-training | RLHF, DPO — cải thiện sau pretrain quan trọng không kém | Anthropic, OpenAI |
12. Hybrid Architectures — Tương Lai Là Kết Hợp
Xu hướng lớn nhất không phải "model nào thắng" mà là kết hợp:
| Hybrid | Thành phần | Ví dụ |
|---|---|---|
| LLM + Diffusion | Text understanding + Image generation | DALL-E 3 dùng GPT-4 viết lại prompt |
| LLM + RL | Language reasoning + Search/Planning | OpenAI o1/o3 dùng RL-trained reasoning |
| Transformer + SSM | Attention quality + Linear efficiency | Jamba (AI21) = Mamba + Transformer layers |
| LLM + World Model | Language + Physical understanding | Yann LeCun's JEPA vision15 |
| Dense + MoE | Full model + Sparse routing | GPT-4 (rumored), Mixtral13 |
| Diffusion + Flow | Denoising + Direct transport | Stable Diffusion 311 |
---
config:
theme: neutral
look: classic
---
flowchart LR
A["Transformer
(quality)"]:::purple
B["SSM
(efficiency)"]:::blue
C["Diffusion/Flow
(generation)"]:::green
D["RL
(optimization)"]:::red
E["MoE
(scaling)"]:::cyan
A --- H(["🔗 Hybrid
Architectures"]):::orange
B --- H
C --- H
D --- H
E --- H
classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a
classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a
classDef cyan fill:#d1ecf1,stroke:#0c5460,color:#1a1a1a
classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a,stroke-width:2px13. Kết Luận — 5 Cuộc Chiến Thực Sự
Cuộc chiến không phải "LLM nào tốt hơn". Mà là 5 câu hỏi lớn hơn:
- Scaling pretrain vs Scaling inference — Model lớn hơn hay nghĩ lâu hơn? o1/o3 gợi ý hướng 2 có thể hiệu quả hơn
- Transformer vs Alternatives — Mamba, KAN, Liquid đều promising. Transformer tốt nhất hiện tại nhưng không nhất thiết mãi mãi3910
- Correlation vs Causation — LLM chỉ biết correlation. Causal AI là missing piece cho true reasoning14
- Software vs Hardware — Neuromorphic computing có thể khiến GPU-based AI trở nên lỗi thời
- Text-first vs World-first — LeCun cho rằng train trên text là dead end. World models mới là con đường đúng15
Không có "one model to rule them all." Mỗi kiến trúc giải quyết một class of problems khác nhau. AI engineer giỏi cần hiểu landscape — giống như software engineer biết khi nào dùng SQL vs NoSQL, REST vs gRPC. Tương lai thuộc về người biết kết hợp đúng công cụ.
References
-
Ho, J. et al. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020. arXiv:2006.11239 ↩
-
Rombach, R. et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022. arXiv:2112.10752 ↩
-
Gu, A. & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752 ↩ ↩2
-
Peng, B. et al. (2023). RWKV: Reinventing RNNs for the Transformer Era. EMNLP 2023 Findings. arXiv:2305.13048 ↩
-
Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021. arXiv:2010.11929 ↩
-
Jumper, J. et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596, 583–589. DOI:10.1038/s41586-021-03819-2 ↩
-
Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. NeurIPS 2022. arXiv:2203.02155 ↩
-
Radford, A. et al. (2023). Robust Speech Recognition via Large-Scale Weak Supervision. ICML 2023. arXiv:2212.04356 ↩
-
Liu, Z. et al. (2024). KAN: Kolmogorov-Arnold Networks. arXiv:2404.19756 ↩ ↩2
-
Hasani, R. et al. (2021). Liquid Time-constant Networks. AAAI 2021. arXiv:2006.04439 ↩ ↩2 ↩3
-
Lipman, Y. et al. (2023). Flow Matching for Generative Modeling. ICLR 2023. arXiv:2210.02747 ↩ ↩2
-
Rafailov, R. et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023. arXiv:2305.18290 ↩
-
Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. ICLR 2017. arXiv:1701.06538 ↩ ↩2
-
Pearl, J. & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books. ISBN:978-0465097609 ↩ ↩2
-
LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. openreview.net ↩ ↩2 ↩3 ↩4
AI Blog — Cập nhật 04/2026