LLM — Bộ Não Của AI Agent

Tại sao một mô hình "đoán từ tiếp theo" lại có thể lập luận, viết code, và điều phối hệ thống phức tạp?

01. Câu Hỏi Nền Tảng

Mọi AI agent hiện đại — từ Claude Code, Cursor, GitHub Copilot đến Devin — đều dùng LLM (Large Language Model) làm "bộ não" trung tâm. Nhưng tại sao?

LLM về bản chất chỉ là mô hình dự đoán token tiếp theo. Nghe đơn giản đến mức khó tin rằng nó có thể lập luận logic, sinh code đúng, hay ra quyết định phức tạp. Bài viết này phân tích cơ chế khoa học đằng sau khả năng đó — và những giới hạn thật sự của nó.

02. Transformer — Kiến Trúc Nền Tảng

Mọi LLM hiện đại đều dựa trên kiến trúc Transformer, được giới thiệu trong paper "Attention Is All You Need" (Vaswani et al., 2017)[^1].

Cơ Chế Attention

Ý tưởng cốt lõi: thay vì xử lý tuần tự (RNN) hay cục bộ (CNN), Transformer cho phép mỗi token attend trực tiếp đến mọi token khác trong chuỗi.

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    subgraph INPUT["Chuỗi đầu vào"]
        T1["The"] ~~~ T2["cat"] ~~~ T3["sat"] ~~~ T4["on"] ~~~ T5["the"] ~~~ T6["mat"]
    end

    subgraph ATT["Self-Attention"]
        direction TB
        A1["Q · Kᵀ → trọng số attention"]:::purple
        A2["Attention × V → biểu diễn mới"]:::purple
    end

    INPUT --> ATT --> OUT(["Output: biểu diễn
giàu ngữ cảnh"]):::green

    classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a

Tại sao điều này quan trọng?

Attention tạo ra information routing linh hoạt — mô hình tự quyết định từ nào quan trọng với từ nào trong context hiện tại. Đây là khác biệt kiến trúc then chốt cho phép Transformer mở rộng lên hàng tỷ tham số mà vẫn duy trì khả năng nắm bắt quan hệ xa (long-range dependencies)[^1].

Multi-Head Attention

Transformer không chỉ có 1 attention mà có nhiều "heads" song song, mỗi head học một loại quan hệ khác nhau: head này theo dõi cú pháp, head kia theo dõi ngữ nghĩa, head khác theo dõi vị trí. Kết quả được tổng hợp lại.

Multi-Head Attention = Concat(head₁, head₂, ..., headₕ) × Wᴼ
    trong đó headᵢ = Attention(Q·Wᵢᑫ, K·Wᵢᴷ, V·Wᵢⱽ)

03. Next-Token Prediction — Đơn Giản Nhưng Sâu Sắc

Mục Tiêu Huấn Luyện

LLM được train với một mục tiêu duy nhất: cho chuỗi tokens [t₁, t₂, ..., tₙ], dự đoán tₙ₊₁ với xác suất cao nhất.

Minimize:  L = -∑ log P(tₙ₊₁ | t₁, t₂, ..., tₙ)

Tại Sao Điều Này Dẫn Đến "Hiểu Biết"?

Đây là insight cốt lõi, được đúc kết bởi Ilya Sutskever:

"Compression is prediction and prediction is understanding. To predict well, you need to understand the underlying process that generated the data."

— Ilya Sutskever, paraphrase từ nhiều bài nói chuyện (Simons Institute, 08/2023; NVIDIA GTC, 03/2023)

Lập luận này đã được hình thức hóa trong paper "Language Modeling Is Compression" (Delétang et al., 2023)[^2], chứng minh rằng:

Một language model tốt đồng thời là một bộ nén dữ liệu tốt (và ngược lại)
Để nén hiệu quả, mô hình phải xây dựng internal representations phản ánh cấu trúc của dữ liệu nguồn

Ví dụ cụ thể: Để dự đoán token tiếp theo trong đoạn code Python:

def fibonacci(n):
    if n <= 1:
        return n
    return fibonacci(n-1) + fibonacci(n-  # predict: "2)"

Mô hình phải "hiểu":

Cú pháp Python (syntax)
Đệ quy (recursion concept)
Chuỗi Fibonacci (domain knowledge)
Pattern n-1 → tiếp theo hợp lý là n-2 (mathematical reasoning)

Không phải mô hình "biết" Fibonacci theo nghĩa con người. Nhưng trong weights của nó, tồn tại representations cho phép nó hành xử như thể nó hiểu.

04. Ba Khả Năng Then Chốt

4.1. In-Context Learning

Paper: "Language Models are Few-Shot Learners" (Brown et al., 2020)[^3]

Phát hiện: LLM có thể học pattern mới từ context tại inference time, không cần cập nhật weights.

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    subgraph CTX["Context Window"]
        direction TB
        EX1["✏️ Ví dụ 1: happy → vui"]:::blue
        EX2["✏️ Ví dụ 2: sad → buồn"]:::blue
        Q["❓ angry → ???"]:::orange
    end

    CTX --> LLM["🧠 LLM
Forward pass"]:::purple --> OUT(["giận"]):::green

    classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
    classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a
    classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a

Tại sao đây là breakthrough?

Trước GPT-3, mỗi task mới cần fine-tune riêng — tốn thời gian và data. In-context learning cho phép 1 model xử lý hàng ngàn tasks khác nhau chỉ bằng cách thay đổi prompt. Đây chính là nền tảng để LLM trở thành general-purpose brain trong AI agent.

Cơ chế hoạt động: Nghiên cứu gần đây (Olsson et al., 2022)[^4] phát hiện induction heads — các attention head chuyên biệt hình thành trong quá trình training. Chúng thực hiện pattern matching: nhận ra [A][B]...[A] → dự đoán [B]. Đây là cơ chế cấp thấp cho phép in-context learning cấp cao.

4.2. Chain-of-Thought (CoT)

Paper: "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" (Wei et al., 2022)[^5]

Phát hiện: Khi LLM được yêu cầu "suy nghĩ từng bước", hiệu suất trên các bài toán lập luận tăng đáng kể.

Task	Standard Prompting	Chain-of-Thought
GSM8K (toán lớp 5-8)	17.9%	56.9%
SVAMP (toán word problems)	69.4%	79.0%
AQUA (toán đại số)	25.2%	35.8%

Kết quả trên PaLM 540B — trích từ Wei et al., 2022[^5]

Tại sao CoT hoạt động?

Mỗi token LLM sinh ra = 1 forward pass qua toàn bộ mạng. Khi sinh intermediate steps, mô hình thực chất đang:

Dùng output tokens làm working memory — lưu kết quả trung gian bên ngoài weights
Tăng tổng lượng compute dành cho bài toán — nhiều bước = nhiều forward passes
Decompose bài toán phức tạp thành các sub-problems đơn giản hơn

---
config:
  theme: neutral
  look: classic
---
flowchart TB
    subgraph STD["Standard: 1 forward pass"]
        S1["Q: 23 × 47 = ?"]:::orange --> S2["1081"]:::red
    end

    subgraph COT["CoT: nhiều forward passes"]
        C1["Q: 23 × 47 = ?"]:::orange
        C2["23 × 40 = 920"]:::blue
        C3["23 × 7 = 161"]:::blue
        C4["920 + 161 = 1081"]:::green

        C1 --> C2 --> C3 --> C4
    end

    classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a
    classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a
    classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a

Analogy: LLM không có CoT giống như làm phép nhân 3 chữ số trong đầu. LLM với CoT giống như được cho giấy nháp.

4.3. Scaling Laws

Paper: "Scaling Laws for Neural Language Models" (Kaplan et al., 2020)[^6]

Phát hiện: Hiệu suất LLM cải thiện đều đặn và dự đoán được theo power law khi tăng 3 yếu tố:

L(N) ∝ N⁻⁰·⁰⁷⁶,  L(D) ∝ D⁻⁰·⁰⁹⁵,  L(C) ∝ C⁻⁰·⁰⁵⁰

N = số parameters
D = kích thước dataset
C = compute budget

Điều này có nghĩa: không có "trần cứng" rõ ràng cho hiệu suất LLM — model lớn hơn, data nhiều hơn, train lâu hơn → tốt hơn (trong phạm vi đo lường hiện tại).

Emergent abilities (Wei et al., 2022)[^7] — một số khả năng chỉ xuất hiện khi model đạt đến ngưỡng kích thước nhất định:

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    subgraph SCALE["Model Scale →"]
        direction LR
        S1["1B params"]:::dim
        S2["10B params"]:::dim
        S3["100B+ params"]:::green
    end

    S1 -.->|"basic text"| A1["Autocomplete"]:::dim
    S2 -.->|"few-shot"| A2["Translation
Summarization"]:::blue
    S3 -.->|"reasoning"| A3["Math
Code
Logic"]:::green

    classDef dim fill:#f0f0f0,stroke:#999,color:#666
    classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a,stroke-width:2px

Lưu ý khoa học: Concept "emergent abilities" đang bị tranh luận. Schaeffer et al. (2023)[^8] cho rằng hiện tượng này có thể là artifact của metric đo lường (nonlinear/discontinuous metrics) chứ không phải phase transition thật. Khi dùng linear/continuous metrics, hiệu suất tăng mượt theo scale.

05. Giới Hạn Thực Sự Của LLM

LLM mạnh, nhưng có những giới hạn cấu trúc không thể vượt qua chỉ bằng scaling:

5.1. Không Có Persistent State

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    C1["Conversation 1
🧠 Context đầy đủ"]:::green
    GAP["❌ Session kết thúc
Mọi context bị xoá"]:::red
    C2["Conversation 2
🧠 Bắt đầu từ 0"]:::orange

    C1 --> GAP --> C2

    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a
    classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a
    classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a

LLM không có bộ nhớ vĩnh viễn. Weights là cố định sau training — mọi "learning" xảy ra trong context window và biến mất khi session kết thúc.

5.2. Fixed Computation Per Token

Mỗi output token tốn đúng 1 forward pass, bất kể bài toán đơn giản hay phức tạp. Không có cơ chế "nghĩ lâu hơn cho bài khó" (trừ khi dùng CoT để tăng số tokens).

5.3. Hallucination

LLM được tối ưu cho plausibility (nghe hợp lý), không phải correctness (đúng thực tế). Khi không có đủ thông tin, nó sinh ra câu trả lời nghe đúng nhưng sai — vì hàm loss không phân biệt "đúng nhưng nghe lạ" với "sai nhưng nghe hợp lý".

5.4. Không Tương Tác Với Thế Giới

LLM chỉ xử lý text. Không thể đọc file, chạy code, gọi API, hay kiểm tra kết quả. Giống như bộ não không có tay chân hay giác quan.

Giới hạn	Nguyên nhân cấu trúc	Hệ quả
Không persistent state	Weights cố định sau training	Quên hết mỗi session
Fixed compute/token	1 forward pass / token	Không "nghĩ sâu" tự nhiên được
Hallucination	Optimize plausibility, không truth	Tự tin khi sai
Không tương tác	Text-in, text-out	Không verify, không hành động

06. Agentic System — Bù Đắp Mọi Giới Hạn

Đây là insight quan trọng nhất: LLM một mình không đủ làm brain. Nhưng LLM + agentic system thì có thể.

ReAct: Kết Hợp Reasoning và Acting

Paper: "ReAct: Synergizing Reasoning and Acting in Language Models" (Yao et al., 2023)[^9]

---
config:
  theme: neutral
  look: classic
---
flowchart TB
    subgraph REASON["Reasoning Only"]
        R1["Think → Think → Think → Answer"]:::purple
    end

    subgraph ACT["Acting Only"]
        A1["Search → Search → Search → Answer"]:::blue
    end

    subgraph REACT["ReAct (Reason + Act)"]
        RE1["Think"]:::purple
        RE2["Search"]:::blue
        RE3["Think"]:::purple
        RE4["Lookup"]:::blue
        RE5["Think"]:::purple
        RE6["Answer"]:::green
        RE1 --> RE2 --> RE3 --> RE4 --> RE5 --> RE6
    end

    classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
    classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a

Kết quả: ReAct vượt trội cả reasoning-only lẫn acting-only trên các benchmark HotpotQA và FEVER[^9]. Quan trọng hơn, nó giảm hallucination vì model có thể kiểm chứng suy luận của mình bằng tool.

Mỗi Giới Hạn Có Một Giải Pháp

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    subgraph LIMITS["⛔ Giới hạn LLM"]
        direction TB
        L1["Không persistent state"]:::red
        L2["Fixed compute/token"]:::red
        L3["Hallucination"]:::red
        L4["Không tương tác"]:::red
    end

    subgraph SOLUTIONS["✅ Giải pháp Agentic"]
        direction TB
        S1["External memory
(files, DB, CLAUDE.md)"]:::green
        S2["Chain-of-Thought
+ agentic loop"]:::green
        S3["Tool verification
(run, test, grep)"]:::green
        S4["Tool use
(Read, Edit, Bash)"]:::green
    end

    L1 --> S1
    L2 --> S2
    L3 --> S3
    L4 --> S4

    classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a

Tool Use: LLM Học Dùng Công Cụ

Paper: "Toolformer: Language Models Can Teach Themselves to Use Tools" (Schick et al., 2023)[^10]

Toolformer chứng minh LLM có thể tự học khi nào và cách nào dùng tools (calculator, search, calendar...) để cải thiện dự đoán. Mô hình không cần human annotation — nó tự phát hiện chỗ nào trong text mà tool call sẽ cải thiện kết quả.

Đây là nền tảng lý thuyết cho function calling trong các hệ thống như Claude Code.

07. So Sánh: LLM Alone vs. Agentic System

Khía cạnh	LLM Alone	LLM + Agentic System
Bộ nhớ	Chỉ context window	+ External memory (files, DB)
Hành động	Chỉ sinh text	+ Tools (file I/O, shell, API)
Kiểm chứng	Không tự verify được	+ Chạy test, grep, diff
Đa bước	1 lần I→O	+ ReAct loop, nhiều iteration
Học liên tục	Không (weights cố định)	+ Ghi nhớ ra file, CLAUDE.md
Song song	Không	+ Sub-agents, teams

---
config:
  theme: neutral
  look: classic
---
flowchart LR
    B1["🧠 LLM
alone"]:::dim -->|"tools"| B2["🧠 + 🛠
can act"]:::blue
    B2 -->|"loop"| B3["🧠 + 🛠 + 🔄
can iterate"]:::purple
    B3 -->|"memory"| B4["🧠 + 🛠 + 🔄 + 💾
complete agent"]:::green

    classDef dim fill:#f0f0f0,stroke:#999,color:#666
    classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a
    classDef purple fill:#e8daef,stroke:#8e44ad,color:#1a1a1a
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a,stroke-width:2px

Analogy hoàn chỉnh:

LLM alone = Bộ não trong lọ — nghĩ được nhưng không làm được gì

LLM + Tools = Não + Tay chân — nghĩ và hành động

LLM + Tools + Loop = Não + Tay chân + Phản xạ — nghĩ, làm, quan sát, điều chỉnh

LLM + Tools + Loop + Memory = Sinh vật hoàn chỉnh — có kinh nghiệm tích lũy

08. Cuộc Tranh Luận Mở: LLM Có Thực Sự "Hiểu"?

Đây là câu hỏi triết học và khoa học chưa có đáp án dứt khoát. Hai trường phái chính:

Bên A: Stochastic Parrot

Paper: "On the Dangers of Stochastic Parrots" (Bender et al., 2021)[^11]

Lập luận: LLM chỉ là "con vẹt thống kê" — nó tái tạo pattern từ training data mà không có "hiểu biết" thực sự. Mối quan hệ giữa form (ngôn ngữ) và meaning (ý nghĩa) không tồn tại trong model.

Bên B: Emergent World Models

Paper: "Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task" (Li et al., 2023)[^12]

Lập luận: Khi train GPT trên chuỗi nước đi cờ Othello (chỉ text, không hình ảnh bàn cờ), mô hình tự xây dựng internal representation của bàn cờ bên trong hidden states. Bằng probing techniques, nghiên cứu tìm thấy linear representations phản ánh chính xác trạng thái bàn cờ.

Mô hình không chỉ memorize sequences — nó xây dựng world model để predict tốt hơn.

Tổng Hợp

---
config:
  theme: neutral
  look: classic
---
flowchart TB
    Q(["LLM có thực sự 'hiểu' không?"]):::orange

    subgraph NO["🦜 Stochastic Parrot"]
        N1["Pattern matching phức tạp"]:::red
        N2["Không có grounding"]:::red
        N3["Form ≠ Meaning"]:::red
    end

    subgraph YES["🌐 World Model"]
        Y1["Internal representations"]:::green
        Y2["Emergent structure"]:::green
        Y3["Compression = Understanding"]:::green
    end

    subgraph PRAGMATIC["🔧 Pragmatic View"]
        P1["Functional understanding:
có thể không 'hiểu' như người,
nhưng hành xử hữu ích
trong đủ nhiều tình huống"]:::blue
    end

    Q --> NO
    Q --> YES
    Q --> PRAGMATIC

    classDef orange fill:#ffeeba,stroke:#856404,color:#1a1a1a
    classDef red fill:#f8d7da,stroke:#721c24,color:#1a1a1a
    classDef green fill:#d4edda,stroke:#28a745,color:#1a1a1a
    classDef blue fill:#cce5ff,stroke:#004085,color:#1a1a1a,stroke-width:2px

Quan điểm thực dụng: Câu hỏi "LLM có hiểu không?" có thể không cần câu trả lời dứt khoát để xây dựng hệ thống hữu ích. Giống như chúng ta dùng máy bay mà không cần chim đồng ý rằng máy bay "biết bay" — điều quan trọng là nó hoạt động đủ tốt trong phạm vi ứng dụng, và chúng ta hiểu rõ giới hạn của nó.

09. Kết Luận

LLM làm "brain" của AI agent được nhờ 3 khả năng cốt lõi:

Compression → Internal world models — next-token prediction buộc model xây dựng representations phản ánh cấu trúc thế giới[^2]
In-context learning — thích nghi với task mới tại runtime không cần retrain[^3]
Chain-of-thought — mở rộng computation bằng cách dùng output tokens làm working memory[^5]

Nhưng LLM một mình không đủ. Agentic system bù đắp mọi giới hạn:

Tools bù cho việc không tương tác được[^10]
ReAct loop bù cho fixed computation và hallucination[^9]
External memory bù cho không có persistent state

Brain thật sự của AI agent không phải LLM — mà là toàn bộ hệ thống xoay quanh nó. LLM là bộ xử lý trung tâm, nhưng cần cảm giác (tools), phản xạ (loop), ký ức (memory) mới thành sinh vật hoàn chỉnh.

10. References

[^1]: Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017. arXiv:1706.03762

[^2]: Delétang, G. et al. (2024). Language Modeling Is Compression. ICLR 2024. arXiv:2309.10668

[^3]: Brown, T. et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020. arXiv:2005.14165

[^4]: Olsson, C. et al. (2022). In-context Learning and Induction Heads. Transformer Circuits Thread. arXiv:2209.11895

[^5]: Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022. arXiv:2201.11903

[^6]: Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361

[^7]: Wei, J. et al. (2022). Emergent Abilities of Large Language Models. TMLR 2022. arXiv:2206.07682

[^8]: Schaeffer, R. et al. (2023). Are Emergent Abilities of Large Language Models a Mirage? NeurIPS 2023. arXiv:2304.15004

[^9]: Yao, S. et al. (2023). ReAct: Synergizing Reasoning and Acting in Language Models. ICLR 2023. arXiv:2210.03629

[^10]: Schick, T. et al. (2023). Toolformer: Language Models Can Teach Themselves to Use Tools. NeurIPS 2023. arXiv:2302.04761

[^11]: Bender, E. M. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? FAccT 2021. DOI:10.1145/3442188.3445922

[^12]: Li, K. et al. (2023). Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task. ICLR 2023. arXiv:2210.13382

CT AI Blog — Cập nhật 04/2026

Bài viết liên quan

Claude Code Architecture AI Agent from IPO Model to Extension Mechanisms