LLM — Bộ Não Của AI Agent
Tại sao một mô hình "đoán từ tiếp theo" lại có thể lập luận, viết code, và điều phối hệ thống phức tạp?
01. Câu Hỏi Nền Tảng
Mọi AI agent hiện đại — từ Claude Code, Cursor, GitHub Copilot đến Devin — đều dùng LLM (Large Language Model) làm "bộ não" trung tâm. Nhưng tại sao?
LLM về bản chất chỉ là mô hình dự đoán token tiếp theo. Nghe đơn giản đến mức khó tin rằng nó có thể lập luận logic, sinh code đúng, hay ra quyết định phức tạp. Bài viết này phân tích cơ chế khoa học đằng sau khả năng đó — và những giới hạn thật sự của nó.
02. Transformer — Kiến Trúc Nền Tảng
Mọi LLM hiện đại đều dựa trên kiến trúc Transformer, được giới thiệu trong paper "Attention Is All You Need" (Vaswani et al., 2017)[^1].
Cơ Chế Attention
Ý tưởng cốt lõi: thay vì xử lý tuần tự (RNN) hay cục bộ (CNN), Transformer cho phép mỗi token attend trực tiếp đến mọi token khác trong chuỗi.
---
config:
theme: neutral
look: classic
---
flowchart LR
subgraph INPUT["Chuỗi đầu vào"]
T1["The"] ~~~ T2["cat"] ~~~ T3["sat"] ~~~ T4["on"] ~~~ T5["the"] ~~~ T6["mat"]
end
subgraph ATT["Self-Attention"]
direction TB
A1["Q · Kᵀ → trọng số attention"]:::purple
A2["Attention × V → biểu diễn mới"]:::purple
end
INPUT --> ATT --> OUT(["Output: biểu diễn
giàu ngữ cảnh"]):::green
classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1aTại sao điều này quan trọng?
Attention tạo ra information routing linh hoạt — mô hình tự quyết định từ nào quan trọng với từ nào trong context hiện tại. Đây là khác biệt kiến trúc then chốt cho phép Transformer mở rộng lên hàng tỷ tham số mà vẫn duy trì khả năng nắm bắt quan hệ xa (long-range dependencies)[^1].
Multi-Head Attention
Transformer không chỉ có 1 attention mà có nhiều "heads" song song, mỗi head học một loại quan hệ khác nhau: head này theo dõi cú pháp, head kia theo dõi ngữ nghĩa, head khác theo dõi vị trí. Kết quả được tổng hợp lại.
Multi-Head Attention = Concat(head₁, head₂, ..., headₕ) × Wᴼ
trong đó headᵢ = Attention(Q·Wᵢᑫ, K·Wᵢᴷ, V·Wᵢⱽ)03. Next-Token Prediction — Đơn Giản Nhưng Sâu Sắc
Mục Tiêu Huấn Luyện
LLM được train với một mục tiêu duy nhất: cho chuỗi tokens [t₁, t₂, ..., tₙ], dự đoán tₙ₊₁ với xác suất cao nhất.
Minimize: L = -∑ log P(tₙ₊₁ | t₁, t₂, ..., tₙ)Tại Sao Điều Này Dẫn Đến "Hiểu Biết"?
Đây là insight cốt lõi, được đúc kết bởi Ilya Sutskever:
"Compression is prediction and prediction is understanding. To predict well, you need to understand the underlying process that generated the data."
— Ilya Sutskever, paraphrase từ nhiều bài nói chuyện (Simons Institute, 08/2023; NVIDIA GTC, 03/2023)
Lập luận này đã được hình thức hóa trong paper "Language Modeling Is Compression" (Delétang et al., 2023)[^2], chứng minh rằng:
- Một language model tốt đồng thời là một bộ nén dữ liệu tốt (và ngược lại)
- Để nén hiệu quả, mô hình phải xây dựng internal representations phản ánh cấu trúc của dữ liệu nguồn
Ví dụ cụ thể: Để dự đoán token tiếp theo trong đoạn code Python:
def fibonacci(n):
if n <= 1:
return n
return fibonacci(n-1) + fibonacci(n- # predict: "2)"Mô hình phải "hiểu":
- Cú pháp Python (syntax)
- Đệ quy (recursion concept)
- Chuỗi Fibonacci (domain knowledge)
- Pattern
n-1→ tiếp theo hợp lý làn-2(mathematical reasoning)
Không phải mô hình "biết" Fibonacci theo nghĩa con người. Nhưng trong weights của nó, tồn tại representations cho phép nó hành xử như thể nó hiểu.
04. Ba Khả Năng Then Chốt
4.1. In-Context Learning
Paper: "Language Models are Few-Shot Learners" (Brown et al., 2020)[^3]
Phát hiện: LLM có thể học pattern mới từ context tại inference time, không cần cập nhật weights.
---
config:
theme: neutral
look: classic
---
flowchart LR
subgraph CTX["Context Window"]
direction TB
EX1["✏️ Ví dụ 1: happy → vui"]:::blue
EX2["✏️ Ví dụ 2: sad → buồn"]:::blue
Q["❓ angry → ???"]:::orange
end
CTX --> LLM["🧠 LLM
Forward pass"]:::purple --> OUT(["giận"]):::green
classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a
classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1aTại sao đây là breakthrough?
Trước GPT-3, mỗi task mới cần fine-tune riêng — tốn thời gian và data. In-context learning cho phép 1 model xử lý hàng ngàn tasks khác nhau chỉ bằng cách thay đổi prompt. Đây chính là nền tảng để LLM trở thành general-purpose brain trong AI agent.
Cơ chế hoạt động: Nghiên cứu gần đây (Olsson et al., 2022)[^4] phát hiện induction heads — các attention head chuyên biệt hình thành trong quá trình training. Chúng thực hiện pattern matching: nhận ra [A][B]...[A] → dự đoán [B]. Đây là cơ chế cấp thấp cho phép in-context learning cấp cao.
4.2. Chain-of-Thought (CoT)
Paper: "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" (Wei et al., 2022)[^5]
Phát hiện: Khi LLM được yêu cầu "suy nghĩ từng bước", hiệu suất trên các bài toán lập luận tăng đáng kể.
| Task | Standard Prompting | Chain-of-Thought |
|---|---|---|
| GSM8K (toán lớp 5-8) | 17.9% | 56.9% |
| SVAMP (toán word problems) | 69.4% | 79.0% |
| AQUA (toán đại số) | 25.2% | 35.8% |
Kết quả trên PaLM 540B — trích từ Wei et al., 2022[^5]
Tại sao CoT hoạt động?
Mỗi token LLM sinh ra = 1 forward pass qua toàn bộ mạng. Khi sinh intermediate steps, mô hình thực chất đang:
- Dùng output tokens làm working memory — lưu kết quả trung gian bên ngoài weights
- Tăng tổng lượng compute dành cho bài toán — nhiều bước = nhiều forward passes
- Decompose bài toán phức tạp thành các sub-problems đơn giản hơn
---
config:
theme: neutral
look: classic
---
flowchart TB
subgraph STD["Standard: 1 forward pass"]
S1["Q: 23 × 47 = ?"]:::orange --> S2["1081"]:::red
end
subgraph COT["CoT: nhiều forward passes"]
C1["Q: 23 × 47 = ?"]:::orange
C2["23 × 40 = 920"]:::blue
C3["23 × 7 = 161"]:::blue
C4["920 + 161 = 1081"]:::green
C1 --> C2 --> C3 --> C4
end
classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a
classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a
classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1aAnalogy: LLM không có CoT giống như làm phép nhân 3 chữ số trong đầu. LLM với CoT giống như được cho giấy nháp.
4.3. Scaling Laws
Paper: "Scaling Laws for Neural Language Models" (Kaplan et al., 2020)[^6]
Phát hiện: Hiệu suất LLM cải thiện đều đặn và dự đoán được theo power law khi tăng 3 yếu tố:
L(N) ∝ N⁻⁰·⁰⁷⁶, L(D) ∝ D⁻⁰·⁰⁹⁵, L(C) ∝ C⁻⁰·⁰⁵⁰
N = số parameters
D = kích thước dataset
C = compute budgetĐiều này có nghĩa: không có "trần cứng" rõ ràng cho hiệu suất LLM — model lớn hơn, data nhiều hơn, train lâu hơn → tốt hơn (trong phạm vi đo lường hiện tại).
Emergent abilities (Wei et al., 2022)[^7] — một số khả năng chỉ xuất hiện khi model đạt đến ngưỡng kích thước nhất định:
---
config:
theme: neutral
look: classic
---
flowchart LR
subgraph SCALE["Model Scale →"]
direction LR
S1["1B params"]:::dim
S2["10B params"]:::dim
S3["100B+ params"]:::green
end
S1 -.->|"basic text"| A1["Autocomplete"]:::dim
S2 -.->|"few-shot"| A2["Translation
Summarization"]:::blue
S3 -.->|"reasoning"| A3["Math
Code
Logic"]:::green
classDef dim fill:#f0f0f0,stroke:#999,color:#666
classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a,stroke-width:2pxLưu ý khoa học: Concept "emergent abilities" đang bị tranh luận. Schaeffer et al. (2023)[^8] cho rằng hiện tượng này có thể là artifact của metric đo lường (nonlinear/discontinuous metrics) chứ không phải phase transition thật. Khi dùng linear/continuous metrics, hiệu suất tăng mượt theo scale.
05. Giới Hạn Thực Sự Của LLM
LLM mạnh, nhưng có những giới hạn cấu trúc không thể vượt qua chỉ bằng scaling:
5.1. Không Có Persistent State
---
config:
theme: neutral
look: classic
---
flowchart LR
C1["Conversation 1
🧠 Context đầy đủ"]:::green
GAP["❌ Session kết thúc
Mọi context bị xoá"]:::red
C2["Conversation 2
🧠 Bắt đầu từ 0"]:::orange
C1 --> GAP --> C2
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a
classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a
classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1aLLM không có bộ nhớ vĩnh viễn. Weights là cố định sau training — mọi "learning" xảy ra trong context window và biến mất khi session kết thúc.
5.2. Fixed Computation Per Token
Mỗi output token tốn đúng 1 forward pass, bất kể bài toán đơn giản hay phức tạp. Không có cơ chế "nghĩ lâu hơn cho bài khó" (trừ khi dùng CoT để tăng số tokens).
5.3. Hallucination
LLM được tối ưu cho plausibility (nghe hợp lý), không phải correctness (đúng thực tế). Khi không có đủ thông tin, nó sinh ra câu trả lời nghe đúng nhưng sai — vì hàm loss không phân biệt "đúng nhưng nghe lạ" với "sai nhưng nghe hợp lý".
5.4. Không Tương Tác Với Thế Giới
LLM chỉ xử lý text. Không thể đọc file, chạy code, gọi API, hay kiểm tra kết quả. Giống như bộ não không có tay chân hay giác quan.
| Giới hạn | Nguyên nhân cấu trúc | Hệ quả |
|---|---|---|
| Không persistent state | Weights cố định sau training | Quên hết mỗi session |
| Fixed compute/token | 1 forward pass / token | Không "nghĩ sâu" tự nhiên được |
| Hallucination | Optimize plausibility, không truth | Tự tin khi sai |
| Không tương tác | Text-in, text-out | Không verify, không hành động |
06. Agentic System — Bù Đắp Mọi Giới Hạn
Đây là insight quan trọng nhất: LLM một mình không đủ làm brain. Nhưng LLM + agentic system thì có thể.
ReAct: Kết Hợp Reasoning và Acting
Paper: "ReAct: Synergizing Reasoning and Acting in Language Models" (Yao et al., 2023)[^9]
---
config:
theme: neutral
look: classic
---
flowchart TB
subgraph REASON["Reasoning Only"]
R1["Think → Think → Think → Answer"]:::purple
end
subgraph ACT["Acting Only"]
A1["Search → Search → Search → Answer"]:::blue
end
subgraph REACT["ReAct (Reason + Act)"]
RE1["Think"]:::purple
RE2["Search"]:::blue
RE3["Think"]:::purple
RE4["Lookup"]:::blue
RE5["Think"]:::purple
RE6["Answer"]:::green
RE1 --> RE2 --> RE3 --> RE4 --> RE5 --> RE6
end
classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1aKết quả: ReAct vượt trội cả reasoning-only lẫn acting-only trên các benchmark HotpotQA và FEVER[^9]. Quan trọng hơn, nó giảm hallucination vì model có thể kiểm chứng suy luận của mình bằng tool.
Mỗi Giới Hạn Có Một Giải Pháp
---
config:
theme: neutral
look: classic
---
flowchart LR
subgraph LIMITS["⛔ Giới hạn LLM"]
direction TB
L1["Không persistent state"]:::red
L2["Fixed compute/token"]:::red
L3["Hallucination"]:::red
L4["Không tương tác"]:::red
end
subgraph SOLUTIONS["✅ Giải pháp Agentic"]
direction TB
S1["External memory
(files, DB, CLAUDE.md)"]:::green
S2["Chain-of-Thought
+ agentic loop"]:::green
S3["Tool verification
(run, test, grep)"]:::green
S4["Tool use
(Read, Edit, Bash)"]:::green
end
L1 --> S1
L2 --> S2
L3 --> S3
L4 --> S4
classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1aTool Use: LLM Học Dùng Công Cụ
Paper: "Toolformer: Language Models Can Teach Themselves to Use Tools" (Schick et al., 2023)[^10]
Toolformer chứng minh LLM có thể tự học khi nào và cách nào dùng tools (calculator, search, calendar...) để cải thiện dự đoán. Mô hình không cần human annotation — nó tự phát hiện chỗ nào trong text mà tool call sẽ cải thiện kết quả.
Đây là nền tảng lý thuyết cho function calling trong các hệ thống như Claude Code.
07. So Sánh: LLM Alone vs. Agentic System
| Khía cạnh | LLM Alone | LLM + Agentic System |
|---|---|---|
| Bộ nhớ | Chỉ context window | + External memory (files, DB) |
| Hành động | Chỉ sinh text | + Tools (file I/O, shell, API) |
| Kiểm chứng | Không tự verify được | + Chạy test, grep, diff |
| Đa bước | 1 lần I→O | + ReAct loop, nhiều iteration |
| Học liên tục | Không (weights cố định) | + Ghi nhớ ra file, CLAUDE.md |
| Song song | Không | + Sub-agents, teams |
---
config:
theme: neutral
look: classic
---
flowchart LR
B1["🧠 LLM
alone"]:::dim -->|"tools"| B2["🧠 + 🛠
can act"]:::blue
B2 -->|"loop"| B3["🧠 + 🛠 + 🔄
can iterate"]:::purple
B3 -->|"memory"| B4["🧠 + 🛠 + 🔄 + 💾
complete agent"]:::green
classDef dim fill:#f0f0f0,stroke:#999,color:#666
classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a,stroke-width:2pxAnalogy hoàn chỉnh:
- LLM alone = Bộ não trong lọ — nghĩ được nhưng không làm được gì
- LLM + Tools = Não + Tay chân — nghĩ và hành động
- LLM + Tools + Loop = Não + Tay chân + Phản xạ — nghĩ, làm, quan sát, điều chỉnh
- LLM + Tools + Loop + Memory = Sinh vật hoàn chỉnh — có kinh nghiệm tích lũy
08. Cuộc Tranh Luận Mở: LLM Có Thực Sự "Hiểu"?
Đây là câu hỏi triết học và khoa học chưa có đáp án dứt khoát. Hai trường phái chính:
Bên A: Stochastic Parrot
Paper: "On the Dangers of Stochastic Parrots" (Bender et al., 2021)[^11]
Lập luận: LLM chỉ là "con vẹt thống kê" — nó tái tạo pattern từ training data mà không có "hiểu biết" thực sự. Mối quan hệ giữa form (ngôn ngữ) và meaning (ý nghĩa) không tồn tại trong model.
Bên B: Emergent World Models
Paper: "Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task" (Li et al., 2023)[^12]
Lập luận: Khi train GPT trên chuỗi nước đi cờ Othello (chỉ text, không hình ảnh bàn cờ), mô hình tự xây dựng internal representation của bàn cờ bên trong hidden states. Bằng probing techniques, nghiên cứu tìm thấy linear representations phản ánh chính xác trạng thái bàn cờ.
Mô hình không chỉ memorize sequences — nó xây dựng world model để predict tốt hơn.
Tổng Hợp
---
config:
theme: neutral
look: classic
---
flowchart TB
Q(["LLM có thực sự 'hiểu' không?"]):::orange
subgraph NO["🦜 Stochastic Parrot"]
N1["Pattern matching phức tạp"]:::red
N2["Không có grounding"]:::red
N3["Form ≠ Meaning"]:::red
end
subgraph YES["🌐 World Model"]
Y1["Internal representations"]:::green
Y2["Emergent structure"]:::green
Y3["Compression = Understanding"]:::green
end
subgraph PRAGMATIC["🔧 Pragmatic View"]
P1["Functional understanding:
có thể không 'hiểu' như người,
nhưng hành xử hữu ích
trong đủ nhiều tình huống"]:::blue
end
Q --> NO
Q --> YES
Q --> PRAGMATIC
classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a
classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a
classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a
classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a,stroke-width:2pxQuan điểm thực dụng: Câu hỏi "LLM có hiểu không?" có thể không cần câu trả lời dứt khoát để xây dựng hệ thống hữu ích. Giống như chúng ta dùng máy bay mà không cần chim đồng ý rằng máy bay "biết bay" — điều quan trọng là nó hoạt động đủ tốt trong phạm vi ứng dụng, và chúng ta hiểu rõ giới hạn của nó.
09. Kết Luận
LLM làm "brain" của AI agent được nhờ 3 khả năng cốt lõi:
- Compression → Internal world models — next-token prediction buộc model xây dựng representations phản ánh cấu trúc thế giới[^2]
- In-context learning — thích nghi với task mới tại runtime không cần retrain[^3]
- Chain-of-thought — mở rộng computation bằng cách dùng output tokens làm working memory[^5]
Nhưng LLM một mình không đủ. Agentic system bù đắp mọi giới hạn:
- Tools bù cho việc không tương tác được[^10]
- ReAct loop bù cho fixed computation và hallucination[^9]
- External memory bù cho không có persistent state
Brain thật sự của AI agent không phải LLM — mà là toàn bộ hệ thống xoay quanh nó. LLM là bộ xử lý trung tâm, nhưng cần cảm giác (tools), phản xạ (loop), ký ức (memory) mới thành sinh vật hoàn chỉnh.
10. References
[^1]: Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017. arXiv:1706.03762
[^2]: Delétang, G. et al. (2024). Language Modeling Is Compression. ICLR 2024. arXiv:2309.10668
[^3]: Brown, T. et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020. arXiv:2005.14165
[^4]: Olsson, C. et al. (2022). In-context Learning and Induction Heads. Transformer Circuits Thread. arXiv:2209.11895
[^5]: Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022. arXiv:2201.11903
[^6]: Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361
[^7]: Wei, J. et al. (2022). Emergent Abilities of Large Language Models. TMLR 2022. arXiv:2206.07682
[^8]: Schaeffer, R. et al. (2023). Are Emergent Abilities of Large Language Models a Mirage? NeurIPS 2023. arXiv:2304.15004
[^9]: Yao, S. et al. (2023). ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023. arXiv:2210.03629
[^10]: Schick, T. et al. (2023). Toolformer: Language Models Can Teach Themselves to Use Tools. NeurIPS 2023. arXiv:2302.04761
[^11]: Bender, E. M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? FAccT 2021. DOI:10.1145/3442188.3445922
[^12]: Li, K. et al. (2023). Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task. ICLR 2023. arXiv:2210.13382
CT AI Blog — Cập nhật 04/2026