AI Models Beyond LLM

LLM thống trị, nhưng không phải mô hình AI duy nhất. Landscape AI 2025 rộng hơn nhiều.


01. Bức Tranh Tổng Thể

LLM (Large Language Model) đang chiếm spotlight, nhưng thế giới AI không chỉ có Transformer và next-token prediction. Nhiều kiến trúc khác đang giải quyết những bài toán mà LLM không thể — hoặc giải tốt hơn.

---
config:
  theme: neutral
  look: classic
---
flowchart TB
    subgraph TEXT["📝 Text & Code"]
        direction LR
        T1["Transformer
(LLM)"]:::purple T2["SSM
(Mamba)"]:::blue T3["RWKV"]:::blue end subgraph VISION["🎨 Image & Video"] direction LR V1["Diffusion
Models"]:::green V2["Vision
Transformer"]:::purple V3["GAN"]:::dim end subgraph MULTI["🌐 Multimodal"] direction LR M1["GPT-4o"]:::orange M2["Gemini"]:::orange M3["Claude"]:::orange end subgraph SPECIAL["🔬 Specialized"] direction LR SP1["AlphaFold
(supervised)"]:::red SP2["Deep RL
(robotics)"]:::red SP3["RLHF
(alignment)"]:::red end subgraph AUDIO["🎵 Speech & Audio"] direction LR A1["Whisper"]:::cyan A2["TTS"]:::cyan A3["Music Gen"]:::cyan end classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a classDef cyan fill:#d1ecf1,stroke:#0c5460,color:#1a1a1a classDef dim fill:#f0f0f0,stroke:#999,color:#666

02. Diffusion Models — Nghệ Thuật Từ Nhiễu

Cơ Chế: Ngược Chiều Với LLM

LLM dự đoán token tiếp theo (trái → phải). Diffusion models làm ngược lại: bắt đầu từ noise hoàn toàn ngẫu nhiên, dần dần khử nhiễu (denoise) thành output có ý nghĩa.

Paper nền tảng: "Denoising Diffusion Probabilistic Models" (Ho et al., 2020)1

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    subgraph FORWARD["Forward Process (training)"]
        direction LR
        F1["🖼 Ảnh gốc"]:::green
        F2["🔵 Thêm noise"]:::blue
        F3["⚪ Pure noise"]:::dim
        F1 --> F2 --> F3
    end

    subgraph REVERSE["Reverse Process (generation)"]
        direction LR
        R1["⚪ Random noise"]:::dim
        R2["🔵 Khử noise"]:::blue
        R3["🖼 Ảnh mới"]:::green
        R1 --> R2 --> R3
    end

    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a
    classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
    classDef dim fill:#f0f0f0,stroke:#999,color:#666

Toán học cốt lõi:

Forward process thêm Gaussian noise dần dần:

q(xₜ | xₜ₋₁) = N(xₜ; √(1-βₜ)·xₜ₋₁, βₜI)

Reverse process học dự đoán noise đã thêm:

pθ(xₜ₋₁ | xₜ) = N(xₜ₋₁; μθ(xₜ, t), σₜ²I)

Model được train để dự đoán noise ε tại mỗi timestep, sau đó trừ đi để khôi phục signal.

Latent Diffusion — Bước Đột Phá Thực Dụng

Paper: "High-Resolution Image Synthesis with Latent Diffusion Models" (Rombach et al., 2022)2

Thay vì diffuse trên pixel space (rất tốn compute), Latent Diffusion nén ảnh xuống latent space nhỏ hơn nhiều lần rồi mới chạy diffusion. Đây là nền tảng của Stable Diffusion.

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    A["📝 Text prompt"]:::orange --> B["Text Encoder
(CLIP)"]:::blue --> C["Diffusion
in Latent Space"]:::purple --> D["Decoder
(VAE)"]:::green --> E["🖼 Output"]:::green classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a

Landscape Hiện Tại

Model Hãng Loại Đặc điểm
DALL-E 3 OpenAI Image Tích hợp ChatGPT, hiểu prompt tốt
Midjourney v6 Midjourney Image Chất lượng nghệ thuật cao
Stable Diffusion 3 Stability AI Image Open-source, chạy local
Flux Black Forest Labs Image Open-source, đối thủ Midjourney
Sora OpenAI Video Text-to-video, chưa public rộng
Runway Gen-3 Runway Video Video editing + generation

03. State Space Models — Đối Thủ Của Transformer

Vấn Đề Của Transformer

Self-attention có chi phí O(n²) với sequence length n. Context window 1M tokens = ma trận attention 1M × 1M. Đây là bottleneck cơ bản.

Mamba: Linear-Time Alternative

Paper: "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" (Gu & Dao, 2023)3

Mamba đạt O(n) complexity — tuyến tính với sequence length — bằng cách dùng selective state space thay vì attention.

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    subgraph TRANS["Transformer"]
        direction TB
        TA["O(n²) attention"]:::red
        TB["Parallel training ✅"]:::green
        TC["Parallel inference ❌"]:::red
    end

    subgraph SSM["Mamba (SSM)"]
        direction TB
        SA["O(n) selective scan"]:::green
        SB["Parallel training ✅"]:::green
        SC["Parallel inference ✅"]:::green
    end

    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a
    classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a

Ý tưởng cốt lõi: SSM truyền thống dùng parameters cố định (time-invariant). Mamba làm parameters phụ thuộc vào input (selective) — cho phép model "chọn" thông tin nào cần nhớ, thông tin nào cần quên. Đây là cơ chế tương đương chức năng với attention nhưng chi phí thấp hơn.

RWKV: RNN Reborn

Paper: "RWKV: Reinventing RNNs for the Transformer Era" (Peng et al., 2023)4

RWKV kết hợp ưu điểm của RNN (inference O(1) per token) với Transformer (train song song được). Tên viết tắt từ 4 thành phần: Receptance, Weight, Key, Value.

So Sánh Hiệu Suất

Khía cạnh Transformer Mamba RWKV
Training complexity O(n²) O(n) O(n)
Inference per token O(n) O(1) O(1)
Long context Tốt (nhưng đắt) Rất tốt Tốt
Chất lượng ở scale lớn Proven Promising Đang phát triển
Ecosystem Khổng lồ Đang xây dựng Cộng đồng nhỏ

Thực tế: Tính đến 2025, chưa có SSM nào vượt Transformer ở scale lớn trên các benchmark tổng hợp. Nhưng hybrid architectures (Jamba = Mamba + Transformer) đang cho kết quả rất promising — gợi ý rằng tương lai có thể là kết hợp, không phải thay thế.


04. Multimodal Models — Hội Tụ Các Modality

Xu Hướng: Từ Specialist Đến Generalist

Thay vì model riêng cho text, image, audio — xu hướng hiện tại là một model xử lý tất cả.

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    subgraph PAST["2020-2022: Specialist"]
        direction TB
        P1["GPT-3
(text only)"]:::dim P2["DALL-E
(image only)"]:::dim P3["Whisper
(audio only)"]:::dim end subgraph NOW["2023-2025: Generalist"] direction TB N1["GPT-4o
(text+image+audio)"]:::green N2["Gemini 2.5
(text+image+video+audio)"]:::green end PAST -->|"convergence"| NOW classDef dim fill:#f0f0f0,stroke:#999,color:#666 classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a,stroke-width:2px

Vision Transformer (ViT)

Paper: "An Image is Worth 16x16 Words" (Dosovitskiy et al., 2021)5

ViT chứng minh rằng Transformer — vốn thiết kế cho text — hoạt động tốt tương đương hoặc hơn CNN cho computer vision khi có đủ data. Ý tưởng: chia ảnh thành patches 16×16, mỗi patch = 1 "token", rồi dùng standard Transformer.

Đây là bước quan trọng dẫn đến multimodal models: cùng kiến trúc cho cả text lẫn image.

Landscape Multimodal 2025

Model Text Image Audio Video Native Multimodal
GPT-4o
Gemini 2.5
Claude 4.6
LLaMA 3.2

"Native multimodal" = model được train từ đầu trên nhiều modalities cùng lúc, không phải ghép module sau. Gemini là ví dụ rõ nhất — Google train nó trên text, image, audio, video đồng thời.


05. Specialized AI — Nơi LLM Không Thể Đến

Bài Toán Nào LLM Không Giải Tốt?

LLM giỏi pattern matching và generation. Nhưng LLM không giỏi:

AlphaFold — Supervised Learning Cho Khoa Học

Paper: "Highly accurate protein structure prediction with AlphaFold" (Jumper et al., 2021)6

AlphaFold dự đoán cấu trúc 3D của protein từ chuỗi amino acid — bài toán mà nhân loại mất 50 năm chưa giải được. AlphaFold 2 giải nó với độ chính xác ngang thực nghiệm.

Đây không phải LLM, cũng không phải RL — nó dùng kiến trúc riêng (Evoformer + Structure Module) kết hợp attention với geometric reasoning, được train bằng supervised learning trên các cấu trúc protein đã biết.

Impact: AlphaFold đã dự đoán cấu trúc của ~200 triệu protein — gần như toàn bộ protein đã biết. Đây là một trong những đóng góp lớn nhất của AI cho khoa học.

RLHF — Reinforcement Learning ↔ LLM

Paper: "Training language models to follow instructions with human feedback" (Ouyang et al., 2022)7

RLHF (Reinforcement Learning from Human Feedback) là kỹ thuật then chốt biến LLM từ "autocomplete engine" thành "helpful assistant". Quy trình:

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    A["Pre-trained
LLM"]:::dim --> B["SFT
(supervised
fine-tuning)"]:::blue --> C["Reward
Model
(human prefs)"]:::orange --> D["PPO
(RL training)"]:::purple --> E["Aligned
LLM"]:::green classDef dim fill:#f0f0f0,stroke:#999,color:#666 classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a

Không có RLHF, GPT-3 chỉ là autocomplete. Có RLHF, nó trở thành ChatGPT.


06. Speech & Audio Models

Whisper — Universal Speech Recognition

Paper: "Robust Speech Recognition via Large-Scale Weak Supervision" (Radford et al., 2023)8

Whisper được train trên 680,000 giờ audio đa ngôn ngữ. Điểm đặc biệt: nó dùng kiến trúc Transformer encoder-decoder — cùng họ với LLM, nhưng input là mel spectrogram thay vì text tokens.

Text-to-Speech & Music

Model Hãng Năng lực
ElevenLabs ElevenLabs Voice cloning, TTS chất lượng cao
Bark Suno Open-source TTS
Suno v4 Suno Full song generation từ text prompt
Udio Udio Music generation, cạnh tranh Suno

07. So Sánh: Hiệu Quả Và Ai Dẫn Đầu

Theo Domain

Domain Kiến trúc dominant Dẫn đầu Open-source?
Text/Code Transformer (LLM) OpenAI, Anthropic, Google Meta (LLaMA)
Image gen Diffusion Midjourney, Black Forest Labs Flux, SD
Video gen Diffusion + Transformer OpenAI (Sora), Runway Đang phát triển
Speech Transformer (enc-dec) OpenAI (Whisper), ElevenLabs Whisper
Music Diffusion + LM Suno, Udio Bark
Science Custom (supervised + attention) DeepMind (AlphaFold) AlphaFold
Robotics RL + Vision Google, Tesla Hạn chế
Efficient seq SSM (Mamba) Research stage Mamba, RWKV

Theo Mô Hình Học (Learning Paradigm)

---
config:
  theme: neutral
  look: classic
---
flowchart TB
    subgraph SELF["Self-Supervised"]
        direction LR
        S1["LLM
(next-token)"]:::purple S2["Diffusion
(denoising)"]:::green S3["BERT
(masked LM)"]:::blue end subgraph SUPER["Supervised"] direction LR SU1["ViT
(classification)"]:::orange SU2["Whisper
(transcription)"]:::orange SU3["AlphaFold
(structure)"]:::orange end subgraph REINFORCE["Reinforcement"] direction LR R1["RLHF"]:::red R2["Robotics"]:::red R3["AlphaGo"]:::red end classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a

08. Kiến Trúc Mới Nổi — Thay Thế Nền Tảng

Kolmogorov-Arnold Networks (KAN)

Paper: "KAN: Kolmogorov-Arnold Networks" (Liu et al., 2024)9

MLP (Multi-Layer Perceptron) là nền tảng của mọi neural network từ 1986 — weights cố định trên edges, activation functions trên nodes. KAN đảo ngược: đặt learnable functions trên edges thay vì weights cố định.

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    subgraph MLP["MLP (truyền thống)"]
        direction TB
        M1["Fixed weights
on edges"]:::dim M2["Activation functions
on nodes"]:::dim end subgraph KAN["KAN (mới)"] direction TB K1["Learnable functions
on edges"]:::green K2["Summation
on nodes"]:::green end classDef dim fill:#f0f0f0,stroke:#999,color:#666 classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a

Tại sao quan trọng: KAN interpretable hơn MLP — có thể nhìn vào learned functions để hiểu model "nghĩ" gì. Đặc biệt hiệu quả cho scientific tasks (fitting equations, symbolic regression). Nhưng chưa chứng minh được ở LLM-scale.

Liquid Neural Networks

Paper: "Liquid Time-constant Networks" (Hasani et al., 2021)10

Networks thông thường có cấu trúc cố định sau khi train. Liquid networks thay đổi behavior theo thời gian — neurons điều chỉnh time constants dựa trên input hiện tại. Lấy cảm hứng từ hệ thần kinh của giun tròn C. elegans (302 neurons).

Kết quả đáng chú ý: MIT demo autonomous driving với chỉ 19 neurons — trong khi các hệ thống khác cần hàng triệu parameters10.

Flow Matching — Thế Hệ Sau Của Diffusion

Paper: "Flow Matching for Generative Modeling" (Lipman et al., 2023)11

Diffusion models denoise qua nhiều steps (chậm). Flow matching học đường đi trực tiếp từ noise distribution → data distribution — nhanh hơn và dễ train hơn.

Stable Diffusion 3 và Flux đã chuyển sang flow matching. Đây có thể là replacement cho DDPM trong tương lai gần.


09. Paradigm Học Mới

Test-Time Compute — Scaling Lúc Inference

Thay vì "train model lớn hơn" (scaling pretrain), cho model nghĩ lâu hơn lúc inference. OpenAI o1/o3 và DeepSeek R1 là ví dụ — dùng RL-trained reasoning để model tự explore nhiều reasoning paths.

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    subgraph OLD["Scaling truyền thống"]
        direction TB
        O1["Bigger model
= Better"]:::dim end subgraph NEW["Inference-time scaling"] direction TB N1["Same model
+ More thinking
= Better"]:::green end OLD -->|"paradigm shift"| NEW classDef dim fill:#f0f0f0,stroke:#999,color:#666 classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a,stroke-width:2px

Ý nghĩa: Có thể dùng model nhỏ + nhiều inference compute thay cho model khổng lồ. Đảo ngược scaling paradigm từ "train-time" sang "test-time".

Direct Preference Optimization (DPO)

Paper: "Direct Preference Optimization: Your Language Model is Secretly a Reward Model" (Rafailov et al., 2023)12

RLHF cần 3 bước phức tạp: SFT → Reward Model → PPO training. DPO rút gọn thành 1 bước duy nhất — optimize trực tiếp trên human preferences mà không cần reward model riêng.

RLHF DPO
Bước 3 (SFT → RM → PPO) 1
Cần reward model Không
Stability Khó tune Ổn định
Kết quả Tốt Tương đương
Code complexity Cao Thấp ~10x

Ý nghĩa: Democratize alignment — team nhỏ cũng có thể align model mà không cần infrastructure RLHF phức tạp.

Mixture of Experts (MoE)

Paper: "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer" (Shazeer et al., 2017)13

Model khổng lồ nhưng chỉ activate một phần nhỏ cho mỗi input. Router network quyết định input nào đi đến expert nào.

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    I["Input"]:::orange --> R["Router"]:::purple

    R --> E1["Expert 1"]:::green
    R --> E2["Expert 2"]:::dim
    R --> E3["Expert 3"]:::dim
    R --> E4["Expert 4"]:::green

    E1 --> O["Output"]:::orange
    E4 --> O

    classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a
    classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a,stroke-width:2px
    classDef dim fill:#f0f0f0,stroke:#999,color:#666

Ví dụ thực tế: Mixtral 8x7B có tổng 46.7B parameters nhưng chỉ dùng 12.9B per token (2/8 experts active). GPT-4 được cho là kiến trúc MoE. Đây là cách scale lên trillions of parameters mà inference cost vẫn chấp nhận được.


10. Hướng Đi Sâu — Những Gì Ít Được Nói Đến

Causal AI — Từ Correlation Đến Causation

Mọi AI hiện tại (kể cả LLM) học correlation: A xuất hiện cùng B. Causal AI học causation: A gây ra B.

Judea Pearl — cha đẻ lý thuyết nhân quả trong AI — đề xuất "Ladder of Causation"14:

Bậc Câu hỏi AI hiện tại Causal AI
1. Association A và B có liên quan?
2. Intervention Nếu tôi làm X, Y sẽ thay đổi?
3. Counterfactual Nếu X đã không xảy ra, Y có xảy ra?

LLM không phân biệt được "mưa gây đường ướt" vs "đường ướt gây mưa". Causal AI có thể. Đây là missing piece cho AI thật sự "hiểu" thế giới — nhưng vẫn chủ yếu ở giai đoạn lý thuyết.

World Models — Mô Hình Thế Giới

Yann LeCun (Chief AI Scientist, Meta) cho rằng approach hiện tại — train LLM trên text — là dead end cho AGI15. Lý do: text chỉ chứa một phần nhỏ kiến thức về thế giới. Trẻ em học về vật lý, không gian, nhân quả trước khi biết nói.

JEPA (Joint Embedding Predictive Architecture)15 là vision của LeCun: AI xây dựng internal simulation của thế giới vật lý — có thể "tưởng tượng" kết quả của hành động trước khi thực hiện.

---
config:
  theme: neutral
  look: classic
---
flowchart TB
    subgraph LLM_WAY["Approach hiện tại"]
        L1["Text corpus"]:::dim --> L2["Pattern matching"]:::dim --> L3["Plausible output"]:::dim
    end

    subgraph WORLD["World Model approach"]
        W1["Sensory data"]:::green --> W2["Internal world model"]:::green --> W3["Predict + Plan + Act"]:::green
    end

    classDef dim fill:#f0f0f0,stroke:#999,color:#666
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a

Neuromorphic Computing — Hardware Sinh Học

Não người chạy ~20 watts. Training GPT-4 tốn ~50 megawatts. Neuromorphic chips (Intel Loihi 2, IBM NorthPole) mô phỏng não thật — dùng spiking neural networks (SNNs) truyền tín hiệu dạng xung thay vì floating point.

GPU (hiện tại) Neuromorphic
Tín hiệu Continuous (float32) Spikes (binary events)
Năng lượng Megawatts Milliwatts
Tính toán Synchronous Event-driven
Trạng thái Early research Early research

Tiềm năng: Giảm energy consumption 100-1000x cho inference. Nhưng software ecosystem gần như zero — đây là 10+ year bet.


Trend Ý nghĩa Ai dẫn đầu
Synthetic data Train AI bằng data do AI tạo — giảm phụ thuộc data thật Nvidia, mọi lab lớn
Distillation Model nhỏ học từ model lớn — quality cao trong kích thước nhỏ Google (Gemma), Microsoft (Phi)
Edge AI AI chạy on-device, không cần cloud Apple, Qualcomm
AI Agents Từ chatbot → agent tự hành động Anthropic, OpenAI
Post-training RLHF, DPO — cải thiện sau pretrain quan trọng không kém Anthropic, OpenAI

12. Hybrid Architectures — Tương Lai Là Kết Hợp

Xu hướng lớn nhất không phải "model nào thắng" mà là kết hợp:

Hybrid Thành phần Ví dụ
LLM + Diffusion Text understanding + Image generation DALL-E 3 dùng GPT-4 viết lại prompt
LLM + RL Language reasoning + Search/Planning OpenAI o1/o3 dùng RL-trained reasoning
Transformer + SSM Attention quality + Linear efficiency Jamba (AI21) = Mamba + Transformer layers
LLM + World Model Language + Physical understanding Yann LeCun's JEPA vision15
Dense + MoE Full model + Sparse routing GPT-4 (rumored), Mixtral13
Diffusion + Flow Denoising + Direct transport Stable Diffusion 311
---
config:
  theme: neutral
  look: classic
---
flowchart LR
    A["Transformer
(quality)"]:::purple B["SSM
(efficiency)"]:::blue C["Diffusion/Flow
(generation)"]:::green D["RL
(optimization)"]:::red E["MoE
(scaling)"]:::cyan A --- H(["🔗 Hybrid
Architectures"]):::orange B --- H C --- H D --- H E --- H classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a classDef cyan fill:#d1ecf1,stroke:#0c5460,color:#1a1a1a classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a,stroke-width:2px

13. Kết Luận — 5 Cuộc Chiến Thực Sự

Cuộc chiến không phải "LLM nào tốt hơn". Mà là 5 câu hỏi lớn hơn:

  1. Scaling pretrain vs Scaling inference — Model lớn hơn hay nghĩ lâu hơn? o1/o3 gợi ý hướng 2 có thể hiệu quả hơn
  2. Transformer vs Alternatives — Mamba, KAN, Liquid đều promising. Transformer tốt nhất hiện tại nhưng không nhất thiết mãi mãi3910
  3. Correlation vs Causation — LLM chỉ biết correlation. Causal AI là missing piece cho true reasoning14
  4. Software vs Hardware — Neuromorphic computing có thể khiến GPU-based AI trở nên lỗi thời
  5. Text-first vs World-first — LeCun cho rằng train trên text là dead end. World models mới là con đường đúng15

Không có "one model to rule them all." Mỗi kiến trúc giải quyết một class of problems khác nhau. AI engineer giỏi cần hiểu landscape — giống như software engineer biết khi nào dùng SQL vs NoSQL, REST vs gRPC. Tương lai thuộc về người biết kết hợp đúng công cụ.


References

  1. Ho, J. et al. (2020). Denoising Diffusion Probabilistic Models. NeurIPS 2020. arXiv:2006.11239

  2. Rombach, R. et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022. arXiv:2112.10752

  3. Gu, A. & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752 2

  4. Peng, B. et al. (2023). RWKV: Reinventing RNNs for the Transformer Era. EMNLP 2023 Findings. arXiv:2305.13048

  5. Dosovitskiy, A. et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021. arXiv:2010.11929

  6. Jumper, J. et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature, 596, 583–589. DOI:10.1038/s41586-021-03819-2

  7. Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback. NeurIPS 2022. arXiv:2203.02155

  8. Radford, A. et al. (2023). Robust Speech Recognition via Large-Scale Weak Supervision. ICML 2023. arXiv:2212.04356

  9. Liu, Z. et al. (2024). KAN: Kolmogorov-Arnold Networks. arXiv:2404.19756 2

  10. Hasani, R. et al. (2021). Liquid Time-constant Networks. AAAI 2021. arXiv:2006.04439 2 3

  11. Lipman, Y. et al. (2023). Flow Matching for Generative Modeling. ICLR 2023. arXiv:2210.02747 2

  12. Rafailov, R. et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023. arXiv:2305.18290

  13. Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. ICLR 2017. arXiv:1701.06538 2

  14. Pearl, J. & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books. ISBN:978-0465097609 2

  15. LeCun, Y. (2022). A Path Towards Autonomous Machine Intelligence. openreview.net 2 3 4


AI Blog — Cập nhật 04/2026

Bài viết liên quan