06/08/2025
Tóm tắt
Cháy rừng là một trong những thảm họa tự nhiên tàn khốc nhất, tàn phá hệ sinh thái, gây thiệt hại cho nền kinh tế và tính mạng con người. Thực trạng rừng cả nước (theo Bộ NN-PTNT, năm 2023) diện tích rừng cả nước có: 13.927.122 ha, tỷ lệ che phủ rừng toàn quốc đạt khoảng 42,02%. Kiểu rừng tiêu biểu là rừng rậm nhiệt đới ẩm lá rộng thường xanh. Ở Việt Nam, cháy rừng đang ngày càng phổ biến và nghiêm trọng hơn do ảnh hưởng của biến đổi khí hậu. Trong bối cảnh đó, phát hiện sớm và cảnh báo cháy rừng kịp thời đóng vai trò quan trọng để giảm thiểu thiệt hại tiềm ẩn và tăng cường công tác bảo vệ rừng. Tuy nhiên các phương pháp truyền thống như: Tuần tra thủ công, lắp đặt hệ thống camera cố định không bao phủ hết diện rộng, tốn kém nhân lực và không phát hiện sớm những dấu hiệu tiềm ẩn của cháy. Hiện nay, sự phát triển của công nghệ viễn thám (Unmanned Aerial Vehicle - UAV) và mô hình ngôn ngữ lớn (Large Language Models - LLMs) như Google Gemma, GPT đã mở ra hướng tiếp cận mới đầy triển vọng. Công nghệ viễn thám cung cấp ảnh UAV có độ phân giải cao, chu kỳ cập nhật nhanh cho phép giám sát hiện trạng rừng trên diện rộng. Các mô hình ngôn ngữ lớn có khả năng xử lý và tổng hợp dữ liệu, phân tích dấu hiệu bất thường để đưa ra đánh giá và cảnh báo thông minh theo thời gian thực. Việc tích hợp hai công nghệ này tạo ra một hệ thống cảnh báo cháy rừng tự động chính xác, thực hiện trên quy mô lớn và dễ mở rộng, đặc biệt áp dụng cho các khu vực khó tiếp cận. Kết hợp viễn thám và mô hình ngôn ngữ lớn là một hướng đi mới phù hợp với sự phát triển không ngừng của công nghệ LLM.
Từ khóa: Cháy rừng, mô hình ngôn ngữ lớn, ảnh UAV, viễn thám.
Ngày nhận bài: 14/6 /2025; Ngày sửa chữa: 9/7/2025; Ngày duyệt đăng: 20/7/2025.
Developing a wildfire warning system using remote sensing technology based on Large Language Model
Abstract
Wildfires are among the most devastating natural disasters that destroy ecosystems, damage the economy, and human lives.Current forest status nationwide (according to the Ministry of Agriculture and Rural Development, 2023): the total forest area in the country is 13,927,122 hectares, with a national forest coverage rate of approximately 42.02%. The typical forest type is tropical moist evergreen broadleaf forest. In Vietnam, forest fires are becoming increasingly common and severe due to the effects of climate change… Given this situation, the early detection and timely warning of forest fires are essential for reducing potential losses and enhancing forest protection efforts. However, traditional methods such as manual patrols and fixed camera systems cannot cover large areas, are labor-intensive, and fail to detect early signs of potential wildfires. Currently, the advancement of remote sensing technology (Unmanned Aerial Vehicles – UAVs) and large language models (LLMs) such as Google Gemma and GPT has opened up a promising new approach. Remote sensing technology provides high-resolution UAV imagery with rapid update cycles, enabling large-scale monitoring of forest conditions. Large language models have the ability to process and synthesize data, analyze abnormal signs, and generate intelligent assessments and real-time alerts. The integration of these two technologies creates an accurate, automated forest fire warning system that operates on a large scale and is easily scalable, especially for application in hard-to-reach areas. Combining remote sensing and large language models is a new approach that aligns with the continuous development of LLM technology.
Keyword: Wildfire, Large Language Model, UAV imagery, remote sensing.
JEL Classifications: Q54, Q55, Q56. Q57.
1. Giới thiệu tổng quan
Cháy rừng với tần suất và cường độ ngày càng tăng và trở nên nghiêm trọng hơn do biến đổi khí hậu, do đó cần có những tiếp cận sáng tạo để phát hiện kịp thời và chính xác. Nhu cầu cấp thiết về các hệ thống giám sát tiên tiến và theo thời gian thực để ngăn chặn và giảm thiểu các thảm họa về rủi ro cháy rừng. Các phương pháp phát hiện truyền thống như giám sát mặt đất, công nghệ IoT thường không cung cấp khả năng phát hiện nhanh chóng và chính xác cần thiết để can thiệp kịp thời [2].
Hình 1.1 Tổng quan về quy trình phát hiện khói cháy rừng bằng UAV
Việc giám sát thời gian thực trong giai đoạn đầu của khói cháy rừng trở nên khả thi, cho phép truyền đạt kịp thời thông tin có giá trị cho các cơ quan có liên quan. Hệ thống phát hiện khói cháy rừng hoàn toàn tự động dựa trên UAV mô tả như trong Hình 1.1 [3].
Một UAV cất cánh và hạ cánh thông qua sân bay di động UAV hoặc sân bay tự động UAV. Ban đầu, UAV tiến hành kiểm tra khu rừng theo các tuyến đường được xác định trước, thu thập dữ liệu hình ảnh và video về địa hình đồi núi khó tiếp cận. Sau đó, UAV truyền dữ liệu đến văn phòng phân tích cháy rừng, duy trì tương tác liên tục với trạm mặt đất hệ thống kiểm soát đám mây trong suốt toàn bộ quá trình. Nhân viên trạm mặt đất có thể theo dõi hình ảnh thời gian thực của núi và rừng thông qua camera trên máy bay và đưa ra hướng dẫn điều khiển cho UAV. Sau đó, văn phòng phân tích cháy rừng sẽ xử lý và phân tích các hình ảnh đã chụp. Nếu phát hiện khói, văn phòng phân tích cháy rừng sẽ gửi cảnh báo đến sở cứu hỏa. Ngoài ra, nhân viên trạm mặt đất có thể cung cấp thông tin liên quan đến cháy rừng kịp thời cho sở cứu hỏa khi cần.
2. Đối tượng và phương pháp nghiên cứu
2.1. Đối tượng nghiên cứu
2.1.1. Hiện tượng cháy rừng và các yếu tố liên quan
2.1.3. Các mô hình
2.1.3.1. Mô hình ngôn ngữ lớn:
2.1.3.2. Mô hình đa tác nhân (LLM-MA)
2.2.1. Phương pháp thu thập dữ liệu
2.2.2. Phương pháp ứng dụng mô hình ngôn ngữ lớn
Sử dụng mô hình ngôn ngữ lớn (LLM) Gemma 3 do Google phát triển:
2.2.3. Thiết kế hệ thống cảnh báo cháy rừng
Kiến trúc hệ thống đa tác nhân dựa trên mô hình ngôn ngữ lớn (Large Language Models – Multi-Agent). Trong đó mỗi tác nhân đảm nhiệm một vai trò: Như phân tích, đánh giá dấu hiệu cháy (lửa, khói) từ đó đưa ra cảnh báo.
2.2.4. Đánh giá và kiểm thử
Đánh giá hiệu quả mô hình bằng cách sử dụng tập dữ liệu với các chỉ số: Precision, Recall, F1-score [7].
3. Các công trình liên quan
3.1. Mô hình ngôn ngữ
Mô hình ngôn ngữ LLM(Large Language Model) có đặc điểm chính là khả năng xử lý khối lượng lớn dữ liệu bao gồm văn bản phi cấu trúc và nắm bắt mối quan hệ ngữ nghĩa giữa các cụm từ. Các mô hình này có thể xử lý dữ liệu trực quan (hình ảnh), âm thanh, cũng như dữ liệu đa phương thức (thông tin từ các nguồn khác nhau hoặc cảm biến khác nhau như văn bản, hình ảnh, âm thanh, video, dữ liệu cảm biến, dữ liệu không gian, GPS, bản đồ) và tìm hiểu quan hệ ngữ nghĩa giữa chúng. Các mô hình này được nâng cao và có khả năng tạo ra ngôn ngữ giống con người. Tóm lại và như có thể thấy từ Hình 3.1 nghiên cứu mô hình ngôn ngữ LM(Language Model) đã nhận được sự quan tâm rộng rãi và đã trải qua bốn giai đoạn phát triển quan trọng bao gồm: mô hình ngôn ngữ thống kê, mô hình học máy, mô hình học sâu và mô hình dựa trên kiến trúc Transformer.
Hình 3.1 Trình bày các mô hình ngôn ngữ lớn
Trong nghiên cứu này, chúng tôi chủ yếu tập trung vào mô hình LLM và mô hình AI (Artificial Intelligence) nền tảng cho các nhiệm vụ ngôn ngữ và thị giác [4].
3.2. Tác nhân Trí tuệ nhân tạo
Tác nhân (agent) giao tiếp với môi trường thông qua bộ cảm biến và bộ truyền động. Đối với một chuỗi nhận thức có thể, một tác nhân sẽ chọn một hành động mà tối đa hóa hiệu suất của nó dựa trên chứng cứ cung cấp bởi chuỗi nhận thức và kiến thức mà tác nhân có. Tác nhân có thể cải tiến hiệu suất thông qua việc học.
Một tác nhân học tập (Learning agent) có thể chia thành bốn thành phần như trong hình 3.2, yếu tố học tập (Learning element), yếu tố hiệu suất (Performance element), nhà phê bình (Critic) và trình tạo vấn đề (Problem generator). Việc học ở các tác nhân thông minh là một quá trình sửa đổi từng thành phần của các tác nhân để phù hợp với thông tin phản hồi có sẵn, do đó cải thiện hiệu suất chung của tác nhân [1].
Hình 3.2 Tác nhân có khả năng học
Tác nhân dựa vào mô hình ngôn ngữ lớn (LLM agent) là tác nhân thực hiện các yêu cầu của con người dựa vào kiến thức nội tại trong mô hình LLM và có khả năng cập nhật kiến thức từ bên ngoài, đồng thời có khả năng tự đánh giá. Tác nhân thực hiện cơ chế ERC (Execution Reflection Correction) là quá trình thực thi có phản hồi và tự điều chỉnh nếu có sai sót, để tạo ra câu trả lời cuối cùng hiệu quả nhất.
3.3. Tác nhân mô hình ngôn ngữ lớn
Hình 3.3 Tác nhân mô hình ngôn ngữ lớn
3.4. LLM Agent tích hợp với kiến trúc RAG
Kiến trúc RAG (Retrieval-Augmented Generation) kết hợp giữa mô hình ngôn ngữ lớn và hệ thống truy xuất thông tin để giúp tác nhân (AI agent) trả lời chính xác hơn. Trong mô hìnhphân tích cháy rừng WildfireGPT, tác nhân LLM được tích hợp với kiến trúc RAG. Tác nhân LLM đánh giá thông tin đầu vào của người dùng để xác định nhu cầu về thông tin bổ sung. Nếu cần, nó sẽ truy xuất các dự báo về khí hậu và các bài báo khoa học. Sau đó, tác nhân sẽ hợp nhất dữ liệu đã truy xuất với bộ nhớ của nó và lời nhắc tùy chỉnh để cung cấp phản hồi dựa trên thông tin được cập nhật [5].
3.5. Tích hợp mô hình ngôn ngữ lớn vào hệ thống phát hiện và dự đoán cháy rừng
Đặc biệt, các mô hình ngôn ngữ lớn (LLM) và các mô hình thị giác máy tính quy mô lớn (Large Vision Model) đã nổi lên như những công cụ mạnh mẽ có thể tiếp thu một lượng lớn kiến thức bao gồm logic của con người, các nguyên lý toán học và lý thuyết khoa học thông qua quá trình đào tạo trước trên các tập dữ liệu đa dạng. Các mô hình này phát triển những gì có thể được coi là một thế giới nội tại: một kho lưu trữ phong phú về kiến thức tiềm ẩn và khả năng lập luận được nhúng trong các lớp giữa của chúng. Học sâu với các lớp 'Thế giới nội tại' được đào tạo trước: Kiến trúc mô-đun dựa trên Gemma 3 để dự đoán cháy rừng. Google Gemma 3 có kiến thức tiềm ẩn phong phú từ quá trình đào tạo trước đa phương thức, là một mô-đun thế giới nội tại trong kiến trúc dự đoán cháy rừng [6].
4. Mô hình đề xuất
4.1. Mục tiêu của hệ thống
`4.2. Kiến trúc tổng quan
Hình 4.1 Kiến trúc tổng quan của hệ thống cảnh báo cháy rừng
Agent AI: là một tác nhân chuyên biệt được thiết kế để thực hiện một vai trò cụ thể, chuyên sâu và có khả năng cộng tác với những tác nhân khác. Chúng có khả năng lý luận bằng cách sử dụng kiến thức của LLM và thực hiện một tác vụ chuyên biệt dựa vào khả năng suy luận và sử dụng các công cụ đã được trang bị.
Để đảm bảo hiệu quả, các tác nhân cần hiểu được vai trò và mục tiêu của mình. Quá trình thiết kế các tác nhân cần tập trung vào việc đưa ra các chỉ dẫn về vai trò, mục tiêu và kết quả mà tác nhân cần đạt được cũng như các công cụ trang bị cho tác tiến hành công việc.
Cụ thể, với mỗi tác nhân cần xác định rõ:
Task: là một nhiệm vụ cụ thể được hoàn thành bởi tác nhân. Với mỗi task cần cung cấp những thông tin chi tiết cần thiết để thực hiện, chẳng hạn như mô tả cách thức(qui trình) thực hiện, tác nhân chịu trách nhiệm, công cụ cần thiết, dữ liệu cần thiết, kết quả công việc…, tạo điều kiện cho nhiều hành động phức tạp.
Cụ thể, với mỗi tác nhân cần xác định rõ:
4.3. Tổng quan phương pháp
Trong khuôn khổ bài báo này, chúng tôi xây dựng mô hình với 2 tác nhân thực hiện lần lượt 2 nhiệm vụ là tìm dấu hiệu cháy và đưa ra cảnh báo.
{
Fire: Boolean
Smoke: Boolean
}
4.4. Quy trình làm việc của hệ thống
Hình 4.2 Quy trình làm việc của hệ thống
4.5. Thí nghiệm và đánh giá
4.5.1. Tập dữ liệu
Tập dữ liệu (dataset) này được xây dựng bởi công trình nghiên cứu (El-Madafri I, Peña M, Olmedo-Torre, 2025) [7].
Bao gồm 2.700 hình ảnh trên không và trên mặt đất, bộ dữ liệu này được tuyển chọn từ nhiều nền tảng trực tuyến khác nhau như cơ sở dữ liệu của chính phủ, Flickr và Unsplash. Tập dữ liệu bao gồm một loạt các kịch bản môi trường, các biến thể rừng, vị trí địa lý, hệ sinh thái rừng và các sự kiện cháy, bộ dữ liệu này được xây dựng cho nghiên cứu về phát hiện cháy rừng. Thông tin chi tiết dataset
Nhãn |
Train |
Validate |
Test |
Fire |
730 |
157 |
159 |
No fire |
1.157 |
246 |
251 |
Về độ phân giải:
Hình 5.1. Mô tả dấu hiệu cháy, hình bên trái có khói và lửa, còn hình bên phải chỉ có khói
4.5.2. Phương pháp đánh giá
Để đánh giá hiệu quả của mô hình chúng tôi dùng phương pháp Confusion Matrix:
Độ chính xác (Accuracy)
4.5.3. Kết quả
Dự đoán/Thực tế |
Thực tế |
|
||
Cháy (Positive) |
Không cháy (Negative) |
|
||
Dự đoán |
Cháy (Positive) |
155 (True Positive) |
26 (False Positive) |
|
Không cháy (Negative) |
4 (False Negative) |
225 (True Negative) |
|
|
Tổng số |
159 |
251 |
|
4.6. Kết quả và thảo luận
4.6.1. Kết quả chính của hệ thống
Hệ thống cảnh báo cháy rừng theo mô hình dựa trên kiến trúc đa tác nhân dựa vào mô hình ngôn ngữ lớn Gemma 3. Trong đó mỗi tác nhân được sử dụng vào một nhiệm vụ chuyên biệt: Tác nhân thứ nhất để phân tích ảnh UAV phát hiện dấu hiệu cháy (lửa, khói), tác nhân thứ hai lấy kết quả đầu ra của tác nhân thứ nhất để đưa ra cảnh báo.
4.6.2. Độ chính xác mô hình phát hiện cháy:
Điều này chứng tỏ mô hình có hiệu suất cân bằng tốt giữa cảnh báo đúng và giảm cảnh báo sai.
4.6.3. Thảo luận
4.6.3.1. Ưu điểm của hệ thống:
4.6.3.2. Hạn chế của hệ thống:
4.6.3.3. Khuyến nghị và đề xuất:
Để triển khai mô hình cảnh báo cháy rừng trong điều kiện thực tiễn của nước ta, cần đáp ứng một số điều kiện và đề xuất cụ thể như sau:
5. Kết luận
Nghiên cứu này đã đề xuất và xây dựng thành công một hệ thống cảnh báo cháy rừng ứng dụng công nghệ viễn thám kết hợp với mô hình ngôn ngữ lớn (LLM), góp phần nâng cao hiệu quả giám sát và phát hiện cháy rừng trên diện rộng. Cụ thể, nghiên cứu đã đạt được các kết quả chính sau:
Hệ thống đề xuất có tính tự động, chính xác và dễ mở rộng, góp phần nâng cao năng lực phòng chống cháy rừng nước ta trong bối cảnh biến đổi khí hậu ngày càng phức tạp.
Lê Tuấn Thu1*, Trần Văn Định1
1Trường Đại học Tài nguyên và Môi trường thành phố Hồ Chí Minh
(Nguồn: Bài đăng trên Tạp chí Môi trường, số 7/2025)
Tài liệu tham khảo