#4 - Thiết kế schema tối ưu cho hiệu năng cao

Trong ba bài đầu tiên của series, chúng ta đã tìm hiểu về nền tảng tối ưu hóa cơ sở dữ liệu, phân tích và tối ưu câu truy vấn SQL, cũng như chiến lược indexing chuyên sâu. Bài viết này sẽ đi sâu vào một yếu tố nền tảng khác ảnh hưởng trực tiếp đến hiệu năng: thiết kế schema.

Thiết kế schema tốt là nền móng cho một hệ thống cơ sở dữ liệu hiệu quả. Ngay cả với indexing hoàn hảo và câu truy vấn được tối ưu, một schema được thiết kế kém vẫn có thể dẫn đến vấn đề hiệu năng nghiêm trọng. Trong bài viết này, chúng ta sẽ khám phá các nguyên tắc, kỹ thuật và chiến lược để thiết kế schema tối ưu cho hiệu năng cao.

Normalization vs Denormalization

Một trong những quyết định quan trọng nhất trong thiết kế schema là mức độ normalization phù hợp.

Normalization và các dạng chuẩn

Normalization là quá trình tổ chức dữ liệu để giảm thiểu dư thừa và phụ thuộc, thông qua việc chia nhỏ bảng lớn thành các bảng nhỏ hơn có mối quan hệ với nhau.

Các dạng chuẩn (normal forms) phổ biến:

First Normal Form (1NF): Mỗi cột chứa giá trị nguyên tử (không phải danh sách), không có các nhóm lặp lại
Second Normal Form (2NF): Đạt 1NF và tất cả các cột non-key phụ thuộc đầy đủ vào primary key
Third Normal Form (3NF): Đạt 2NF và không có phụ thuộc bắc cầu (transitive dependencies)
Boyce-Codd Normal Form (BCNF): Phiên bản mạnh hơn của 3NF
Fourth Normal Form (4NF): Xử lý phụ thuộc đa trị
Fifth Normal Form (5NF): Xử lý phụ thuộc join

Ví dụ về quá trình normalization:

Bảng ban đầu (chưa normalized):

OrderID	CustomerName	CustomerEmail	ProductName	ProductPrice	Quantity	OrderDate
1	John Doe	[email protected]	Laptop	1200	1	2023-01-15
1	John Doe	[email protected]	Mouse	25	2	2023-01-15
2	Jane Smith	[email protected]	Monitor	300	1	2023-01-16

Sau khi normalized (3NF):

Bảng Customers:

CustomerID	Name	Email
1	John Doe	[email protected]
2	Jane Smith	[email protected]

Bảng Products:

ProductID	Name	Price
1	Laptop	1200
2	Mouse	25
3	Monitor	300

Bảng Orders:

OrderID	CustomerID	OrderDate
1	1	2023-01-15
2	2	2023-01-16

Bảng OrderItems:

OrderItemID	OrderID	ProductID	Quantity
1	1	1	1
2	1	2	2
3	2	3	1

Denormalization và khi nào nên áp dụng

Denormalization là quá trình ngược lại, trong đó chúng ta cố ý đưa dữ liệu dư thừa vào schema để cải thiện hiệu năng đọc.


  flowchart LR
    %% Hai schema ngang hàng
    NormalizedSchemaX["**Normalized Schema**"] -- Cải thiện hiệu năng đọc --> DenormalizedSchemaX["**Denormalized Schema**"]
    DenormalizedSchemaX -- Cải thiện tính toàn vẹn dữ liệu --> NormalizedSchemaX

    %% Nhánh Normalized Schema
    NormalizedSchema -->|✅ Ưu điểm| NorUu["✔ Giảm dư thừa dữ liệu<br>✔ Dễ cập nhật<br>✔ Tính nhất quán cao"]
    NormalizedSchema -->|⚠️ Nhược điểm| NorNhuoc["❌ Nhiều JOIN<br>❌ Truy vấn phức tạp<br>❌ Hiệu năng đọc thấp hơn"]

    %% Nhánh Denormalized Schema
    DenormalizedSchema -->|✅ Ưu điểm| DeUu["✔ Ít JOIN hơn<br>✔ Truy vấn đơn giản<br>✔ Hiệu năng đọc cao hơn"]
    DenormalizedSchema -->|⚠️ Nhược điểm| DeNhuoc["❌ Dư thừa dữ liệu<br>❌ Khó cập nhật<br>❌ Rủi ro không nhất quán"]

Khi nào nên denormalize:

Read-heavy workloads: Khi số lượng đọc vượt trội so với ghi
Reporting và analytics: Truy vấn phức tạp trên dữ liệu lớn
Hiệu năng là ưu tiên hàng đầu: Khi latency quan trọng hơn tính nhất quán
Tránh JOIN phức tạp: Đặc biệt khi JOIN nhiều bảng lớn

Ví dụ về denormalization:

-- Bảng normalized
CREATE TABLE orders (
    id INT PRIMARY KEY,
    customer_id INT,
    order_date DATE,
    FOREIGN KEY (customer_id) REFERENCES customers(id)
);

CREATE TABLE order_items (
    id INT PRIMARY KEY,
    order_id INT,
    product_id INT,
    quantity INT,
    price DECIMAL(10,2),
    FOREIGN KEY (order_id) REFERENCES orders(id),
    FOREIGN KEY (product_id) REFERENCES products(id)
);

-- Truy vấn yêu cầu JOIN
SELECT o.id, o.order_date, c.name as customer_name,
       SUM(oi.price * oi.quantity) as total_amount
FROM orders o
JOIN customers c ON o.customer_id = c.id
JOIN order_items oi ON o.id = oi.order_id
GROUP BY o.id, o.order_date, c.name;

-- Bảng denormalized
CREATE TABLE orders_denormalized (
    id INT PRIMARY KEY,
    customer_id INT,
    customer_name VARCHAR(100),  -- Denormalized từ customers
    order_date DATE,
    total_amount DECIMAL(10,2),  -- Pre-calculated
    FOREIGN KEY (customer_id) REFERENCES customers(id)
);

-- Truy vấn đơn giản hơn
SELECT id, order_date, customer_name, total_amount
FROM orders_denormalized;

Chiến lược cân bằng

Thay vì chọn hoàn toàn normalized hoặc denormalized, một chiến lược cân bằng thường hiệu quả hơn:

Bắt đầu với schema normalized: Đảm bảo tính toàn vẹn dữ liệu
Xác định bottlenecks: Sử dụng profiling để tìm các truy vấn chậm
Denormalize có chọn lọc: Chỉ denormalize những phần cần thiết
Sử dụng materialized views: Thay vì denormalize trực tiếp
Cân nhắc caching layer: Đôi khi caching hiệu quả hơn denormalization

Data partitioning, sharding và scaling strategies

Khi dữ liệu tăng trưởng, việc chia nhỏ dữ liệu thành các phần quản lý được trở nên cần thiết.

Horizontal vs Vertical Partitioning


  flowchart LR
    DbPartitioning["**Database Partitioning**"]
    HorizontalP["**Horizontal Partitioning / Sharding**"]
    VerticalP["**Vertical Partitioning**"]

    subgraph "**Horizontal Partitioning**"
        direction TB
        HPartition1["Partition 1<br>Rows 1-1M"]
        HPartition2["Partition 2<br>Rows 1M-2M"]
        HPartitionN["Partition N<br>..."]
    end

    subgraph "**Vertical Partitioning**"
        direction TB
        VPartition1["Partition 1<br>Columns A,B,C"]
        VPartition2["Partition 2<br>Columns D,E,F"]
        VPartitionN["Partition N<br>..."]
    end

    DbPartitioning -->|🔹 Chia theo rows **cùng schema** | HorizontalP
    DbPartitioning -->|🔹 Chia theo columns **khác schema** | VerticalP

    HorizontalP --> HPartition1
    HorizontalP --> HPartition2
    HorizontalP --> HPartitionN

    VerticalP --> VPartition1
    VerticalP --> VPartition2
    VerticalP --> VPartitionN

Horizontal Partitioning (Sharding):

Chia dữ liệu theo rows, mỗi partition có cùng schema nhưng chứa tập dữ liệu khác nhau.

-- MySQL: Partitioning theo range
CREATE TABLE orders (
    id INT NOT NULL,
    customer_id INT,
    order_date DATE,
    total_amount DECIMAL(10,2),
    PRIMARY KEY (id, order_date)
) PARTITION BY RANGE (YEAR(order_date)) (
    PARTITION p2021 VALUES LESS THAN (2022),
    PARTITION p2022 VALUES LESS THAN (2023),
    PARTITION p2023 VALUES LESS THAN (2024),
    PARTITION future VALUES LESS THAN MAXVALUE
);

-- PostgreSQL: Partitioning theo range
CREATE TABLE orders (
    id INT NOT NULL,
    customer_id INT,
    order_date DATE,
    total_amount DECIMAL(10,2),
    PRIMARY KEY (id, order_date)
) PARTITION BY RANGE (order_date);

CREATE TABLE orders_2021 PARTITION OF orders
    FOR VALUES FROM ('2021-01-01') TO ('2022-01-01');

CREATE TABLE orders_2022 PARTITION OF orders
    FOR VALUES FROM ('2022-01-01') TO ('2023-01-01');

CREATE TABLE orders_2023 PARTITION OF orders
    FOR VALUES FROM ('2023-01-01') TO ('2024-01-01');

Vertical Partitioning:

Chia dữ liệu theo columns, tách các cột ít sử dụng hoặc cột lớn ra bảng riêng.

-- Thay vì một bảng lớn
CREATE TABLE products (
    id INT PRIMARY KEY,
    name VARCHAR(100),
    price DECIMAL(10,2),
    description TEXT,
    specifications TEXT,
    images TEXT,
    created_at TIMESTAMP,
    updated_at TIMESTAMP
);

-- Chia thành các bảng nhỏ hơn
CREATE TABLE products_core (
    id INT PRIMARY KEY,
    name VARCHAR(100),
    price DECIMAL(10,2),
    created_at TIMESTAMP,
    updated_at TIMESTAMP
);

CREATE TABLE products_details (
    product_id INT PRIMARY KEY,
    description TEXT,
    specifications TEXT,
    FOREIGN KEY (product_id) REFERENCES products_core(id)
);

CREATE TABLE products_media (
    product_id INT PRIMARY KEY,
    images TEXT,
    FOREIGN KEY (product_id) REFERENCES products_core(id)
);

Sharding Strategies

Có nhiều chiến lược sharding khác nhau, mỗi loại phù hợp với các use-case cụ thể:

Range-based sharding: Chia dữ liệu theo range của một key
- Ví dụ: Chia orders theo date range, users theo ID range
- Ưu điểm: Đơn giản, hiệu quả cho range queries
- Nhược điểm: Có thể dẫn đến hot spots
Hash-based sharding: Sử dụng hàm hash để phân phối dữ liệu
- Ví dụ: hash(user_id) % num_shards
- Ưu điểm: Phân phối đều, tránh hot spots
- Nhược điểm: Không hiệu quả cho range queries, khó mở rộng số lượng shards
Directory-based sharding: Sử dụng lookup service để xác định shard
- Ưu điểm: Linh hoạt, có thể thay đổi mapping
- Nhược điểm: Phức tạp hơn, lookup service có thể là bottleneck


  flowchart TD
    Client["Client"]
    Router["Shard Router/Lookup"]
    Shard1["Shard 1<br>user_id: 1-1M"]
    Shard2["Shard 2<br>user_id: 1M-2M"]
    Shard3["Shard 3<br>user_id: 2M-3M"]
    ShardN["Shard N<br>..."]

    Client --> Router
    Router --> Shard1
    Router --> Shard2
    Router --> Shard3
    Router --> ShardN

Scaling Strategies

Khi hệ thống phát triển, chúng ta cần chiến lược scaling phù hợp:

Vertical Scaling (Scale Up): Tăng tài nguyên của máy chủ hiện tại
- Ưu điểm: Đơn giản, không thay đổi ứng dụng
- Nhược điểm: Có giới hạn, chi phí tăng nhanh
Horizontal Scaling (Scale Out): Thêm nhiều máy chủ
- Ưu điểm: Khả năng mở rộng cao, chi phí tăng tuyến tính
- Nhược điểm: Phức tạp hơn, cần thay đổi ứng dụng
Read/Write Splitting: Tách read và write operations
- Primary node xử lý writes
- Multiple read replicas xử lý reads
- Ưu điểm: Cải thiện read performance, high availability
- Nhược điểm: Replication lag, eventual consistency


  flowchart TD
    App["**Application**"]
    Router["**Router**"]
    BlueDB["**Blue DB**<br>Schema V1"]
    GreenDB["**Green DB**<br>Schema V2"]

    App --> Router
    Router -->|Current Traffic| BlueDB
    Router -->|Preparing| GreenDB
    BlueDB -- Sync --> GreenDB
    GreenDB -- Switchover --> BlueDB

Functional Partitioning: Chia database theo chức năng
- Ví dụ: DB riêng cho users, products, orders
- Ưu điểm: Tách biệt workloads, dễ scale từng phần
- Nhược điểm: Joins phức tạp, distributed transactions

Tối ưu schema cho các mô hình dữ liệu phức tạp

Một số loại dữ liệu đòi hỏi thiết kế schema đặc biệt để đạt hiệu năng tối ưu.

Hierarchical Data (Tree Structures)

Dữ liệu phân cấp như danh mục sản phẩm, cấu trúc tổ chức có thể được mô hình hóa bằng nhiều cách:

Adjacency List Model: Đơn giản nhất, mỗi node lưu trữ parent_id

CREATE TABLE categories (
    id INT PRIMARY KEY,
    name VARCHAR(100),
    parent_id INT NULL,
    FOREIGN KEY (parent_id) REFERENCES categories(id)
);

-- Truy vấn con trực tiếp
SELECT * FROM categories WHERE parent_id = 5;

-- Truy vấn toàn bộ cây (recursive CTE)
WITH RECURSIVE category_tree AS (
    -- Base case: root categories
    SELECT id, name, parent_id, 0 AS level
    FROM categories
    WHERE parent_id IS NULL

    UNION ALL

    -- Recursive case: child categories
    SELECT c.id, c.name, c.parent_id, ct.level + 1
    FROM categories c
    JOIN category_tree ct ON c.parent_id = ct.id
)
SELECT * FROM category_tree ORDER BY level, name;

Nested Set Model: Tối ưu cho read operations, đặc biệt là truy vấn toàn bộ subtree

CREATE TABLE categories (
    id INT PRIMARY KEY,
    name VARCHAR(100),
    lft INT NOT NULL,
    rgt INT NOT NULL,
    INDEX (lft),
    INDEX (rgt)
);

-- Truy vấn toàn bộ subtree (rất hiệu quả)
SELECT * FROM categories
WHERE lft BETWEEN
    (SELECT lft FROM categories WHERE id = 5) AND
    (SELECT rgt FROM categories WHERE id = 5)
ORDER BY lft;

Materialized Path: Lưu trữ đường dẫn đầy đủ đến root

CREATE TABLE categories (
    id INT PRIMARY KEY,
    name VARCHAR(100),
    path VARCHAR(255),
    INDEX (path)
);

-- Truy vấn toàn bộ subtree
SELECT * FROM categories WHERE path LIKE '1/5/%' OR path = '1/5';

-- PostgreSQL: Sử dụng ltree extension
CREATE EXTENSION IF NOT EXISTS ltree;

CREATE TABLE categories (
    id INT PRIMARY KEY,
    name VARCHAR(100),
    path ltree,
    INDEX (path)
);

-- Truy vấn subtree
SELECT * FROM categories WHERE path <@ 'root.electronics';

Graph Data

Dữ liệu đồ thị như mạng xã hội, hệ thống gợi ý có thể được mô hình hóa bằng:

Adjacency List trong RDBMS:

CREATE TABLE users (
    id INT PRIMARY KEY,
    name VARCHAR(100)
);

CREATE TABLE friendships (
    user_id1 INT,
    user_id2 INT,
    created_at TIMESTAMP,
    PRIMARY KEY (user_id1, user_id2),
    FOREIGN KEY (user_id1) REFERENCES users(id),
    FOREIGN KEY (user_id2) REFERENCES users(id),
    CHECK (user_id1 < user_id2)  -- Đảm bảo không có duplicate
);

-- Tìm bạn bè của user
SELECT u.*
FROM users u
JOIN friendships f ON (u.id = f.user_id1 OR u.id = f.user_id2)
WHERE (f.user_id1 = 123 OR f.user_id2 = 123) AND u.id != 123;

-- Tìm bạn chung (PostgreSQL)
WITH user1_friends AS (
    SELECT CASE WHEN user_id1 = 123 THEN user_id2 ELSE user_id1 END AS friend_id
    FROM friendships
    WHERE user_id1 = 123 OR user_id2 = 123
),
user2_friends AS (
    SELECT CASE WHEN user_id1 = 456 THEN user_id2 ELSE user_id1 END AS friend_id
    FROM friendships
    WHERE user_id1 = 456 OR user_id2 = 456
)
SELECT u.*
FROM users u
JOIN user1_friends uf1 ON u.id = uf1.friend_id
JOIN user2_friends uf2 ON u.id = uf2.friend_id;

Specialized Graph Databases: Đối với ứng dụng graph-heavy, cân nhắc sử dụng Neo4j, Amazon Neptune, hoặc ArangoDB

Time-Series Data

Dữ liệu chuỗi thời gian như metrics, logs, IoT data cần thiết kế đặc biệt:

Partitioning theo thời gian:

-- PostgreSQL: Partitioning theo tháng
CREATE TABLE metrics (
    timestamp TIMESTAMP NOT NULL,
    device_id INT NOT NULL,
    temperature FLOAT,
    humidity FLOAT,
    PRIMARY KEY (timestamp, device_id)
) PARTITION BY RANGE (timestamp);

CREATE TABLE metrics_2023_01 PARTITION OF metrics
    FOR VALUES FROM ('2023-01-01') TO ('2023-02-01');

CREATE TABLE metrics_2023_02 PARTITION OF metrics
    FOR VALUES FROM ('2023-02-01') TO ('2023-03-01');

Hypertables (TimescaleDB):

-- TimescaleDB extension cho PostgreSQL
CREATE EXTENSION IF NOT EXISTS timescaledb;

CREATE TABLE metrics (
    timestamp TIMESTAMP NOT NULL,
    device_id INT NOT NULL,
    temperature FLOAT,
    humidity FLOAT
);

-- Chuyển đổi thành hypertable
SELECT create_hypertable('metrics', 'timestamp');

-- Truy vấn hiệu quả
SELECT time_bucket('1 hour', timestamp) AS hour,
       AVG(temperature) AS avg_temp
FROM metrics
WHERE device_id = 123
  AND timestamp BETWEEN '2023-01-01' AND '2023-01-31'
GROUP BY hour
ORDER BY hour;

Downsampling và pre-aggregation:

-- Bảng chi tiết
CREATE TABLE metrics_raw (
    timestamp TIMESTAMP NOT NULL,
    device_id INT NOT NULL,
    temperature FLOAT,
    humidity FLOAT,
    PRIMARY KEY (timestamp, device_id)
);

-- Bảng pre-aggregated theo giờ
CREATE TABLE metrics_hourly (
    hour TIMESTAMP NOT NULL,
    device_id INT NOT NULL,
    avg_temperature FLOAT,
    min_temperature FLOAT,
    max_temperature FLOAT,
    avg_humidity FLOAT,
    sample_count INT,
    PRIMARY KEY (hour, device_id)
);

-- Cập nhật định kỳ bằng job
INSERT INTO metrics_hourly (hour, device_id, avg_temperature, min_temperature, max_temperature, avg_humidity, sample_count)
SELECT
    DATE_TRUNC('hour', timestamp) AS hour,
    device_id,
    AVG(temperature) AS avg_temperature,
    MIN(temperature) AS min_temperature,
    MAX(temperature) AS max_temperature,
    AVG(humidity) AS avg_humidity,
    COUNT(*) AS sample_count
FROM metrics_raw
WHERE timestamp >= CURRENT_DATE - INTERVAL '1 day'
GROUP BY DATE_TRUNC('hour', timestamp), device_id
ON CONFLICT (hour, device_id) DO UPDATE
SET avg_temperature = EXCLUDED.avg_temperature,
    min_temperature = EXCLUDED.min_temperature,
    max_temperature = EXCLUDED.max_temperature,
    avg_humidity = EXCLUDED.avg_humidity,
    sample_count = EXCLUDED.sample_count;

JSON và Semi-structured Data

Dữ liệu bán cấu trúc như JSON ngày càng phổ biến:

JSON columns trong RDBMS hiện đại:

-- PostgreSQL
CREATE TABLE products (
    id INT PRIMARY KEY,
    name VARCHAR(100),
    price DECIMAL(10,2),
    attributes JSONB,
    INDEX idx_attributes USING GIN (attributes)
);

-- Truy vấn theo thuộc tính JSON
SELECT * FROM products
WHERE attributes @> '{"color": "red", "size": "large"}';

-- MySQL 8.0+
CREATE TABLE products (
    id INT PRIMARY KEY,
    name VARCHAR(100),
    price DECIMAL(10,2),
    attributes JSON,
    INDEX idx_color ((CAST(attributes->>'$.color' AS CHAR(50))))
);

-- Truy vấn theo thuộc tính JSON
SELECT * FROM products
WHERE JSON_EXTRACT(attributes, '$.color') = 'red'
  AND JSON_EXTRACT(attributes, '$.size') = 'large';

Hybrid approach: Kết hợp cột cấu trúc cho các thuộc tính thường xuyên truy vấn và JSON cho các thuộc tính linh hoạt

CREATE TABLE products (
    id INT PRIMARY KEY,
    name VARCHAR(100),
    price DECIMAL(10,2),
    category_id INT,
    color VARCHAR(50),      -- Extracted for frequent queries
    size VARCHAR(20),       -- Extracted for frequent queries
    other_attributes JSON,  -- Flexible attributes
    INDEX (category_id, color, size)
);

Quản lý schema migration và version không gây gián đoạn

Khi ứng dụng phát triển, schema cũng cần thay đổi. Việc quản lý migration hiệu quả là rất quan trọng để tránh downtime.

Nguyên tắc migration an toàn

Backward compatibility: Đảm bảo code cũ vẫn hoạt động với schema mới
Forward compatibility: Đảm bảo code mới vẫn hoạt động với schema cũ
Incremental changes: Thực hiện thay đổi nhỏ, từng bước
Rollback plan: Luôn có kế hoạch rollback nếu có vấn đề

Chiến lược migration không gây gián đoạn

Expand-Contract Pattern (hay Schema Evolution):


  flowchart TD
    SchemaHienTai["**Schema Hiện Tại**"]
    TaoBangMoi["**Tạo bảng mới song song**"]
    DongBoDuLieu["**Đồng bộ dữ liệu giữa schema cũ và mới**"]
    ChuyenDoiUngDung["**Ứng dụng đọc/ghi vào cả hai schema**"]
    XacNhanHoatDongTot["**Xác nhận schema mới hoạt động tốt**"]
    LoaiBoSchemaCu["**Loại bỏ schema cũ**"]

    SchemaHienTai -->|1️. Expand| TaoBangMoi
    TaoBangMoi -->|2️.Sync Data| DongBoDuLieu
    DongBoDuLieu -->|3️. Chuyển đổi ứng dụng| ChuyenDoiUngDung
    ChuyenDoiUngDung -->|4️. Kiểm tra| XacNhanHoatDongTot
    XacNhanHoatDongTot -->|5️. Contract| LoaiBoSchemaCu

Ví dụ: Đổi tên cột phone thành contact_number:

-- Bước 1: Expand - Thêm cột mới
ALTER TABLE customers ADD COLUMN contact_number VARCHAR(20);

-- Bước 2: Migrate - Chuyển dữ liệu
UPDATE customers SET contact_number = phone;
-- Cập nhật code để ghi vào cả hai cột

-- Bước 3: Contract - Loại bỏ cột cũ (sau khi đảm bảo mọi thứ hoạt động tốt)
ALTER TABLE customers DROP COLUMN phone;

Feature Flags: Kết hợp với code để kiểm soát thay đổi schema

// Laravel implementation với Feature Flags

class CustomerController extends Controller
{
    public function store(Request $request)
    {
        $customer = new Customer();
        $customer->name = $request->name;
        $customer->phone = $request->phone;

        // Sử dụng Laravel Feature Flags (ví dụ với package Laravel Feature Flags)
        if (Feature::active('NEW_CUSTOMER_SCHEMA')) {
            // Cách 1: Sử dụng Eloquent với schema mới
            $customer->contact_number = $request->phone;
            $customer->save();
        } else {
            // Cách 2: Sử dụng schema cũ
            $customer->save();
        }

        return response()->json(['message' => 'Customer created successfully']);
    }

    // Cách tiếp cận khác: Sử dụng Query Builder trực tiếp
    public function storeWithQueryBuilder(Request $request)
    {
        $data = [
            'name' => $request->name,
        ];

        if (config('features.new_customer_schema')) {
            // Sử dụng schema mới
            $data['contact_number'] = $request->phone;
        } else {
            // Sử dụng schema cũ
            $data['phone'] = $request->phone;
        }

        DB::table('customers')->insert($data);

        return response()->json(['message' => 'Customer created successfully']);
    }

    // Sử dụng Observer Pattern để xử lý cả hai schema
    public function storeWithObserver(Request $request)
    {
        $customer = new Customer();
        $customer->name = $request->name;
        $customer->phone = $request->phone; // Luôn lưu vào cột cũ

        // CustomerObserver sẽ tự động sao chép giá trị sang cột mới nếu feature flag được bật
        $customer->save();

        return response()->json(['message' => 'Customer created successfully']);
    }
}

// CustomerObserver.php
class CustomerObserver
{
    public function saving(Customer $customer)
    {
        if (Feature::active('NEW_CUSTOMER_SCHEMA') && isset($customer->phone)) {
            $customer->contact_number = $customer->phone;
        }
    }
}

Database Views: Sử dụng views để duy trì compatibility

-- Tạo view với schema cũ
CREATE OR REPLACE VIEW customers_v1 AS
SELECT id, name, contact_number AS phone
FROM customers;

-- Code cũ có thể tiếp tục sử dụng view này
SELECT * FROM customers_v1;

Blue-Green Deployments: Hai phiên bản database song song


  flowchart TD
    App["🖥️ **Application**"]
    Router["🌐 **Router**"]
    BlueDB["🟦 **Blue DB**<br>Schema V1"]
    GreenDB["🟩 **Green DB**<br>Schema V2"]

    App --> Router
    Router -- "📡 Current Traffic" --> BlueDB
    Router -- "🛠️ Preparing" --> GreenDB
    BlueDB -- "🔄 Sync" --> GreenDB
    GreenDB -- "🔀 Switchover" --> BlueDB

Tools và frameworks hỗ trợ migration

Liquibase: XML/YAML/JSON based, platform-agnostic
Flyway: SQL-based, simple and straightforward
Alembic: Python-based, tích hợp với SQLAlchemy
Rails Migrations: Ruby on Rails framework
Prisma Migrate: TypeScript/JavaScript ORM

-- Ví dụ Flyway migration
-- V1__Create_customers_table.sql
CREATE TABLE customers (
    id INT PRIMARY KEY,
    name VARCHAR(100),
    phone VARCHAR(20)
);

-- V2__Add_contact_number.sql
ALTER TABLE customers ADD COLUMN contact_number VARCHAR(20);

-- V3__Migrate_phone_data.sql
UPDATE customers SET contact_number = phone WHERE contact_number IS NULL;

-- V4__Remove_phone_column.sql
ALTER TABLE customers DROP COLUMN phone;

Case Study: Tối ưu schema cho ứng dụng e-commerce

Hãy xem xét một case study về tối ưu schema cho hệ thống e-commerce:

Vấn đề ban đầu

Một ứng dụng e-commerce đang gặp các vấn đề hiệu năng:

Trang sản phẩm tải chậm khi số lượng sản phẩm tăng lên
Giỏ hàng và checkout process thường xuyên gặp lỗi khi có nhiều người dùng đồng thời
Báo cáo bán hàng mất nhiều thời gian để tạo
Tìm kiếm sản phẩm không hiệu quả với các bộ lọc phức tạp

Schema hiện tại:

CREATE TABLE products (
    id INT PRIMARY KEY,
    name VARCHAR(255),
    description TEXT,
    price DECIMAL(10,2),
    stock INT,
    category_id INT,
    brand_id INT,
    attributes TEXT,  -- Lưu dưới dạng JSON string
    created_at TIMESTAMP,
    updated_at TIMESTAMP
);

CREATE TABLE orders (
    id INT PRIMARY KEY,
    user_id INT,
    status VARCHAR(50),
    shipping_address TEXT,
    billing_address TEXT,
    payment_method VARCHAR(50),
    shipping_method VARCHAR(50),
    subtotal DECIMAL(10,2),
    tax DECIMAL(10,2),
    shipping_cost DECIMAL(10,2),
    total DECIMAL(10,2),
    created_at TIMESTAMP,
    updated_at TIMESTAMP
);

CREATE TABLE order_items (
    id INT PRIMARY KEY,
    order_id INT,
    product_id INT,
    product_name VARCHAR(255),
    price DECIMAL(10,2),
    quantity INT,
    subtotal DECIMAL(10,2)
);

CREATE TABLE users (
    id INT PRIMARY KEY,
    email VARCHAR(255),
    password VARCHAR(255),
    name VARCHAR(100),
    address TEXT,
    phone VARCHAR(20),
    created_at TIMESTAMP,
    updated_at TIMESTAMP
);

CREATE TABLE reviews (
    id INT PRIMARY KEY,
    product_id INT,
    user_id INT,
    rating INT,
    comment TEXT,
    created_at TIMESTAMP
);

Phân tích vấn đề

Vấn đề với bảng products:
- Cột attributes lưu dưới dạng TEXT không hiệu quả cho tìm kiếm
- Không có partitioning cho số lượng sản phẩm lớn
- Không có cơ chế để xử lý sản phẩm có nhiều biến thể (variants)
Vấn đề với bảng orders:
- Lưu trữ cả shipping và billing address dưới dạng TEXT
- Không có partitioning theo thời gian
- Không tách biệt các trạng thái đơn hàng khác nhau
Vấn đề với báo cáo:
- Không có pre-aggregation hoặc materialized views
- Phải tính toán lại các metrics mỗi lần tạo báo cáo

Giải pháp tối ưu schema

1. Tối ưu bảng products với normalization và JSON native

-- Bảng core products
CREATE TABLE products (
    id INT PRIMARY KEY,
    name VARCHAR(255),
    description TEXT,
    brand_id INT,
    category_id INT,
    created_at TIMESTAMP,
    updated_at TIMESTAMP,
    INDEX (category_id),
    INDEX (brand_id)
);

-- Bảng product variants
CREATE TABLE product_variants (
    id INT PRIMARY KEY,
    product_id INT,
    sku VARCHAR(50),
    price DECIMAL(10,2),
    stock INT,
    attributes JSONB,  -- PostgreSQL JSONB type
    INDEX (product_id),
    INDEX idx_attributes USING GIN (attributes)  -- Index cho JSON search
);

-- Bảng product categories (hierarchical)
CREATE TABLE categories (
    id INT PRIMARY KEY,
    name VARCHAR(100),
    parent_id INT NULL,
    level INT,
    path VARCHAR(255),  -- Materialized path
    INDEX (parent_id),
    INDEX (path)
);

2. Tối ưu bảng orders với partitioning và normalization

-- Bảng addresses (normalized)
CREATE TABLE addresses (
    id INT PRIMARY KEY,
    user_id INT,
    type VARCHAR(20),  -- 'shipping' or 'billing'
    name VARCHAR(100),
    street VARCHAR(255),
    city VARCHAR(100),
    state VARCHAR(100),
    postal_code VARCHAR(20),
    country VARCHAR(50),
    phone VARCHAR(20),
    is_default BOOLEAN,
    INDEX (user_id, type)
);

-- Bảng orders với partitioning
CREATE TABLE orders (
    id INT PRIMARY KEY,
    user_id INT,
    status VARCHAR(50),
    shipping_address_id INT,
    billing_address_id INT,
    payment_method_id INT,
    shipping_method_id INT,
    subtotal DECIMAL(10,2),
    tax DECIMAL(10,2),
    shipping_cost DECIMAL(10,2),
    total DECIMAL(10,2),
    created_at TIMESTAMP,
    updated_at TIMESTAMP,
    INDEX (user_id),
    INDEX (status),
    INDEX (created_at)
) PARTITION BY RANGE (EXTRACT(YEAR_MONTH FROM created_at));

-- Tạo partition theo tháng
CREATE TABLE orders_202301 PARTITION OF orders
    FOR VALUES FROM (202301) TO (202302);

CREATE TABLE orders_202302 PARTITION OF orders
    FOR VALUES FROM (202302) TO (202303);

-- Và tiếp tục cho các tháng khác...

3. Tạo materialized views cho báo cáo

-- Materialized view cho báo cáo bán hàng theo ngày
CREATE MATERIALIZED VIEW daily_sales AS
SELECT
    DATE(o.created_at) AS sale_date,
    p.category_id,
    COUNT(DISTINCT o.id) AS order_count,
    SUM(oi.quantity) AS total_quantity,
    SUM(oi.subtotal) AS total_sales
FROM orders o
JOIN order_items oi ON o.id = oi.order_id
JOIN product_variants pv ON oi.product_variant_id = pv.id
JOIN products p ON pv.product_id = p.id
WHERE o.status = 'completed'
GROUP BY DATE(o.created_at), p.category_id;

-- Index cho materialized view
CREATE INDEX idx_daily_sales_date ON daily_sales(sale_date);
CREATE INDEX idx_daily_sales_category ON daily_sales(category_id);

-- Refresh materialized view
REFRESH MATERIALIZED VIEW daily_sales;

4. Sử dụng denormalization có chọn lọc cho các truy vấn phổ biến

-- Bảng denormalized cho trang danh sách sản phẩm
CREATE TABLE product_listings (
    id INT PRIMARY KEY,
    product_id INT,
    variant_id INT,
    name VARCHAR(255),
    price DECIMAL(10,2),
    discount_price DECIMAL(10,2),
    category_id INT,
    brand_id INT,
    average_rating DECIMAL(3,2),
    review_count INT,
    stock_status VARCHAR(20),  -- 'in_stock', 'low_stock', 'out_of_stock'
    thumbnail_url VARCHAR(255),
    is_featured BOOLEAN,
    INDEX (category_id, price),
    INDEX (brand_id, price),
    INDEX (is_featured)
);

-- Trigger hoặc background job để cập nhật bảng này
CREATE TRIGGER update_product_listings
AFTER UPDATE ON product_variants
FOR EACH ROW
BEGIN
    UPDATE product_listings
    SET price = NEW.price,
        stock_status = CASE
            WHEN NEW.stock > 10 THEN 'in_stock'
            WHEN NEW.stock > 0 THEN 'low_stock'
            ELSE 'out_of_stock'
        END
    WHERE variant_id = NEW.id;
END;

Áp dụng Expand-Contract pattern cho e-commerce

Để triển khai những thay đổi schema này mà không gây gián đoạn dịch vụ, chúng ta sẽ áp dụng pattern Expand-Contract đã đề cập ở phần trước vào case study e-commerce. Dưới đây là các bước cụ thể cho việc migration:

Expand: Tạo các bảng mới mà không xóa bảng cũ

-- Tạo bảng mới
CREATE TABLE new_products (...);
CREATE TABLE product_variants (...);

Sync Data: Đồng bộ dữ liệu từ bảng cũ sang bảng mới

-- Migrate dữ liệu
INSERT INTO new_products (...)
SELECT ... FROM products;

INSERT INTO product_variants (...)
SELECT ... FROM products;

Dual-write: Cập nhật ứng dụng để ghi vào cả hai schema

public function saveProduct(Product $product)
{
    // Ghi vào schema cũ
    DB::table('products')->insert([
        'name' => $product->name,
        'description' => $product->description,
        'price' => $product->price,
        'stock' => $product->stock,
        // Các trường khác...
    ]);

    // Ghi vào schema mới
    $productId = DB::table('new_products')->insertGetId([
        'name' => $product->name,
        'description' => $product->description,
        'brand_id' => $product->brand_id,
        'category_id' => $product->category_id,
        // Các trường khác...
    ]);

    DB::table('product_variants')->insert([
        'product_id' => $productId,
        'sku' => $product->sku,
        'price' => $product->price,
        'stock' => $product->stock,
        'attributes' => json_encode($product->attributes),
    ]);
}

Chuyển đổi đọc: Cập nhật ứng dụng để đọc từ schema mới

public function getProduct($productId)
{
    // Đọc từ schema mới
    $product = DB::table('new_products')
        ->where('id', $productId)
        ->first();

    if ($product) {
        // Lấy thêm thông tin variants
        $variants = DB::table('product_variants')
            ->where('product_id', $productId)
            ->get();

        $product->variants = $variants;
    }

    return $product;
}

Contract: Sau khi đảm bảo mọi thứ hoạt động tốt, loại bỏ schema cũ

-- Đổi tên bảng
ALTER TABLE new_products RENAME TO products;

-- Xóa bảng cũ
DROP TABLE old_products;

Kết quả

Sau khi áp dụng các tối ưu schema:

Hiệu năng trang sản phẩm: Tăng 300% (từ 2s xuống 0.5s)
Checkout process: Giảm lỗi 95%, tăng tỷ lệ hoàn thành 25%
Báo cáo bán hàng: Tạo báo cáo nhanh hơn 98% (từ 2 phút xuống 2 giây)
Tìm kiếm sản phẩm: Hỗ trợ tìm kiếm phức tạp với độ trễ dưới 200ms
Khả năng mở rộng: Hệ thống có thể xử lý 10x số lượng sản phẩm và đơn hàng

Kết luận và bước tiếp theo

Thiết kế schema tối ưu là nền tảng quan trọng cho hiệu năng cơ sở dữ liệu. Các nguyên tắc chính cần nhớ:

Cân bằng giữa normalization và denormalization dựa trên access patterns
Sử dụng partitioning và sharding khi dữ liệu tăng trưởng
Thiết kế schema phù hợp cho từng loại dữ liệu (hierarchical, graph, time-series)
Áp dụng migration không gây gián đoạn khi cần thay đổi schema
Kết hợp các kỹ thuật như materialized views, pre-aggregation, và JSON native

Không có một thiết kế schema “hoàn hảo” cho mọi trường hợp. Thiết kế tốt nhất là thiết kế phù hợp với yêu cầu cụ thể của ứng dụng, cân bằng giữa hiệu năng, tính linh hoạt và khả năng bảo trì.

Trong bài tiếp theo của series, chúng ta sẽ đi sâu vào “Quản lý transaction và concurrency hiệu quả” - một khía cạnh quan trọng khác của tối ưu hóa cơ sở dữ liệu, đặc biệt trong các hệ thống có nhiều người dùng đồng thời.

Bạn đã từng gặp vấn đề nào với thiết kế schema trong dự án của mình? Hãy chia sẻ kinh nghiệm hoặc thắc mắc của bạn trong phần bình luận bên dưới.