Banner trang chủ
Thứ Ba, ngày 12/08/2025

Xây dựng hệ thống cảnh báo cháy rừng sử dụng công nghệ viễn thám dựa trên mô hình ngôn ngữ lớn

06/08/2025

    Tóm tắt

    Cháy rừng là một trong những thảm họa tự nhiên tàn khốc nhất, tàn phá hệ sinh thái, gây thiệt hại cho nền kinh tế và tính mạng con người. Thực trạng rừng cả nước (theo Bộ NN-PTNT, năm 2023) diện tích rừng cả nước có: 13.927.122 ha, tỷ lệ che phủ rừng toàn quốc đạt khoảng 42,02%. Kiểu rừng tiêu biểu là rừng rậm nhiệt đới ẩm lá rộng thường xanh. Ở Việt Nam, cháy rừng đang ngày càng phổ biến và nghiêm trọng hơn do ảnh hưởng của biến đổi khí hậu. Trong bối cảnh đó, phát hiện sớm và cảnh báo cháy rừng kịp thời đóng vai trò quan trọng để giảm thiểu thiệt hại tiềm ẩn và tăng cường công tác bảo vệ rừng. Tuy nhiên các phương pháp truyền thống như: Tuần tra thủ công, lắp đặt hệ thống camera cố định không bao phủ hết diện rộng, tốn kém nhân lực và không phát hiện sớm những dấu hiệu tiềm ẩn của cháy. Hiện nay, sự phát triển của công nghệ viễn thám (Unmanned Aerial Vehicle - UAV) và mô hình ngôn ngữ lớn (Large Language Models - LLMs) như Google Gemma, GPT đã mở ra hướng tiếp cận mới đầy triển vọng. Công nghệ viễn thám cung cấp ảnh UAV có độ phân giải cao, chu kỳ cập nhật nhanh cho phép giám sát hiện trạng rừng trên diện rộng. Các mô hình ngôn ngữ lớn có khả năng xử lý và tổng hợp dữ liệu, phân tích dấu hiệu bất thường để đưa ra đánh giá và cảnh báo thông minh theo thời gian thực. Việc tích hợp hai công nghệ này tạo ra một hệ thống cảnh báo cháy rừng tự động chính xác, thực hiện trên quy mô lớn và dễ mở rộng, đặc biệt áp dụng cho các khu vực khó tiếp cận. Kết hợp viễn thám và mô hình ngôn ngữ lớn là một hướng đi mới phù hợp với sự phát triển không ngừng của công nghệ LLM.

    Từ khóa: Cháy rừng, mô hình ngôn ngữ lớn, ảnh UAV, viễn thám.

    Ngày nhận bài: 14/6 /2025; Ngày sửa chữa: 9/7/2025; Ngày duyệt đăng: 20/7/2025.

Developing a wildfire warning system using remote sensing technology based on Large Language Model

    Abstract

    Wildfires are among the most devastating natural disasters that destroy ecosystems, damage the economy, and human lives.Current forest status nationwide (according to the Ministry of Agriculture and Rural Development, 2023): the total forest area in the country is 13,927,122 hectares, with a national forest coverage rate of approximately 42.02%. The typical forest type is tropical moist evergreen broadleaf forest. In Vietnam, forest fires are becoming increasingly common and severe due to the effects of climate change… Given this situation, the early detection and timely warning of forest fires are essential for reducing potential losses and enhancing forest protection efforts. However, traditional methods such as manual patrols and fixed camera systems cannot cover large areas, are labor-intensive, and fail to detect early signs of potential wildfires. Currently, the advancement of remote sensing technology (Unmanned Aerial Vehicles – UAVs) and large language models (LLMs) such as Google Gemma and GPT has opened up a promising new approach. Remote sensing technology provides high-resolution UAV imagery with rapid update cycles, enabling large-scale monitoring of forest conditions. Large language models have the ability to process and synthesize data, analyze abnormal signs, and generate intelligent assessments and real-time alerts. The integration of these two technologies creates an accurate, automated forest fire warning system that operates on a large scale and is easily scalable, especially for application in hard-to-reach areas. Combining remote sensing and large language models is a new approach that aligns with the continuous development of LLM technology.

    Keyword: Wildfire, Large Language Model, UAV imagery, remote sensing.

    JEL Classifications: Q54, Q55, Q56. Q57.

    1. Giới thiệu tổng quan

    Cháy rừng với tần suất và cường độ ngày càng tăng và trở nên nghiêm trọng hơn do biến đổi khí hậu, do đó cần có những tiếp cận sáng tạo để phát hiện kịp thời và chính xác. Nhu cầu cấp thiết về các hệ thống giám sát tiên tiến và theo thời gian thực để ngăn chặn và giảm thiểu các thảm họa về rủi ro cháy rừng. Các phương pháp phát hiện truyền thống như giám sát mặt đất, công nghệ IoT thường không cung cấp khả năng phát hiện nhanh chóng và chính xác cần thiết để can thiệp kịp thời [2].

Hình 1.1 Tổng quan về quy trình phát hiện khói cháy rừng bằng UAV

    Việc giám sát thời gian thực trong giai đoạn đầu của khói cháy rừng trở nên khả thi, cho phép truyền đạt kịp thời thông tin có giá trị cho các cơ quan có liên quan. Hệ thống phát hiện khói cháy rừng hoàn toàn tự động dựa trên UAV mô tả như trong Hình 1.1 [3].

  • UAV automated field airport: Sân bay tự động của UAV;
  • UAV mobile airport: Sân bay di động UAV;
  • Cloud control system ground station: Trạm mặt đất hệ thống điều khiển đám mây;
  • Forest fire analysis platform: Trạm phân tích cháy rừng;
  • Fire department: Cục cứu hỏa.

    Một UAV cất cánh và hạ cánh thông qua sân bay di động UAV hoặc sân bay tự động UAV. Ban đầu, UAV tiến hành kiểm tra khu rừng theo các tuyến đường được xác định trước, thu thập dữ liệu hình ảnh và video về địa hình đồi núi khó tiếp cận. Sau đó, UAV truyền dữ liệu đến văn phòng phân tích cháy rừng, duy trì tương tác liên tục với trạm mặt đất hệ thống kiểm soát đám mây trong suốt toàn bộ quá trình. Nhân viên trạm mặt đất có thể theo dõi hình ảnh thời gian thực của núi và rừng thông qua camera trên máy bay và đưa ra hướng dẫn điều khiển cho UAV. Sau đó, văn phòng phân tích cháy rừng sẽ xử lý và phân tích các hình ảnh đã chụp. Nếu phát hiện khói, văn phòng phân tích cháy rừng sẽ gửi cảnh báo đến sở cứu hỏa. Ngoài ra, nhân viên trạm mặt đất có thể cung cấp thông tin liên quan đến cháy rừng kịp thời cho sở cứu hỏa khi cần.

2. Đối tượng và phương pháp nghiên cứu

2.1. Đối tượng nghiên cứu 

    2.1.1. Hiện tượng cháy rừng và các yếu tố liên quan

  • Cháy rừng là hiện tượng xảy ra khi  ngọn lửa lan rộng và không thể kiểm soát trong khu vực có thảm thực vật dễ cháy như rừng, cỏ khô, lá mục.
  • Nguyên nhân cháy rừng:
  • Tự nhiên: Do thời tiết nắng nóng kéo dài, khô hạn, sét đánh, gió mạnh.
  • Con người: Đốt rẫy, phá rừng trái phép, bất cẩn khi sử dụng lửa trong rừng.
  • Yếu tố ảnh hưởng đến nguy cơ và mức độ cháy:
  • Thời tiết: Nhiệt độ cao, độ ẩm thấp, gió lớn là điều kiện thuận lợi gây cháy rừng lan nhanh.
  • Thảm thực vật: Khu vực có nhiều vật liệu dễ cháy (cỏ, lá khô, cây bụi).
  • Địa hình: Đồi núi dốc làm lửa lan nhanh hơn theo chiều gió.
  • Ứng dụng ảnh UAV trong phân tích cháy rừng.
  • Giám sát hiện trạng rừng trước và sau cháy.
  • Phát hiện sớm các dấu hiệu như khói, điểm nóng, khu vực nhiệt độ bất thường.
  • Xác định chính xác vị trí cháy để hỗ trợ lực lượng ứng cứu.
    1. Dữ liệu viễn thám bao gồm:
  • Ảnh màu RGB:
  • Thu thập bởi máy bay không người lái.
  • Phù hợp để nhận diện trực quan khói, vùng bị cháy, thay đổi thảm thực vật.
  • Độ phân giải cao, cập nhật nhanh, bao phủ linh hoạt.
  • Ảnh UAV cảm biến nhiệt (Thermal/Infrared Image).
  • Dùng để phát hiện điểm nhiệt bất thường, xác định nơi có cháy âm, cháy ngầm.
  • Phát hiện ngay cả trong điều kiện ánh sáng yếu hoặc khi chưa có lửa rõ ràng.

    2.1.3. Các mô hình

    2.1.3.1. Mô hình ngôn ngữ lớn:

  • Là mô hình học sâu có khả năng hiểu, tổng hợp và phân tích dữ liệu ngôn ngữ và phi cấu trúc.
  • Vai trò trong hệ thống cảnh báo cháy:
  • Phân tích mô tả từ báo cáo hiện trường.
  • Tự động sinh báo cáo bằng ngôn ngữ tự nhiên.
  • Sử dụng dữ liệu ảnh UAV để hỗ trợ ra quyết định.
  • Ví dụ: Google Gemma, GPT.

    2.1.3.2. Mô hình đa tác nhân (LLM-MA)

  • Là kiến trúc gồm nhiều tác nhân (agent) AI hợp tác, mỗi tác nhân đảm nhận một nhiệm vụ cụ thể, sử dụng hoặc tích hợp LLM.
  • Ví dụ về các tác nhân trong hệ thống cảnh báo cháy rừng
  • Tác nhân phát hiện cháy (Fire_finder_agent): Phát hiện hai dấu hiệu khói và lửa
  • Tác nhân cảnh báo cháy (Fire_warning_agent): Cảnh báo cháy nếu có ít nhất một trong hai dấu hiệu khói/lửa.
  • Mô hình LLM-MA cho phép:
  • Phối hợp linh hoạt giữa các nguồn dữ liệu và tác vụ.
  • Mở rộng quy mô hệ thống theo từng vùng rừng khác nhau
  • Giao tiếp bằng ngôn ngữ tự nhiên với con người (qua chatbot, dashboard).
    1. 2. Phương pháp nghiên cứu

    2.2.1. Phương pháp thu thập dữ liệu

  • Dữ liệu ảnh UAV: Dùng thiết bị bay không người lái có trang bị camera để thu thập  ảnh RGB và ảnh hồng ngoại (camera hồng ngoại) từ thực địa.

    2.2.2. Phương pháp ứng dụng mô hình ngôn ngữ lớn

    Sử dụng mô hình ngôn ngữ lớn (LLM)  Gemma 3 do Google phát triển:

  • Phân tích, tổng hợp mô tả dữ liệu ảnh.
  • Đưa ra đánh giá cháy bằng ngôn ngữ tự nhiên.
  • Tạo cảnh báo tự động.

    2.2.3. Thiết kế hệ thống cảnh báo cháy rừng

    Kiến trúc hệ thống đa tác nhân dựa trên mô hình ngôn ngữ lớn (Large Language Models – Multi-Agent). Trong đó mỗi tác nhân đảm nhiệm một vai trò: Như phân tích, đánh giá dấu hiệu cháy (lửa, khói) từ đó đưa ra cảnh báo.

    2.2.4. Đánh giá và kiểm thử

    Đánh giá hiệu quả mô hình bằng cách sử dụng tập dữ liệu với các chỉ số:  Precision, Recall, F1-score [7].

    3. Các công trình liên quan

    3.1. Mô hình ngôn ngữ

      Mô hình ngôn ngữ LLM(Large Language Model) có đặc điểm chính là khả năng xử lý khối lượng lớn dữ liệu bao gồm văn bản phi cấu trúc và nắm bắt mối quan hệ ngữ nghĩa giữa các cụm từ. Các mô hình này có thể xử lý dữ liệu trực quan (hình ảnh), âm thanh, cũng như dữ liệu đa phương thức (thông tin từ các nguồn khác nhau hoặc cảm biến khác nhau như văn bản, hình ảnh, âm thanh, video, dữ liệu cảm biến, dữ liệu không gian, GPS, bản đồ) và tìm hiểu quan hệ ngữ nghĩa giữa chúng. Các mô hình này được nâng cao và có khả năng tạo ra ngôn ngữ giống con người. Tóm lại và như có thể thấy từ Hình 3.1 nghiên cứu mô hình ngôn ngữ LM(Language Model) đã nhận được sự quan tâm rộng rãi và đã trải qua bốn giai đoạn phát triển quan trọng bao gồm: mô hình ngôn ngữ thống kê, mô hình học máy, mô hình học sâu và mô hình dựa trên kiến trúc Transformer.

Hình 3.1 Trình bày các mô hình ngôn ngữ lớn

  • Statistical Language Models: Mô hình ngôn ngữ thống kê
  • Machine Learning Models: Mô hình học máy
  • Deep Learning Models: Mô hình học sâu
  • Transformer Based Models: Mô hình dựa trên kiến trúc Transformer

     Trong nghiên cứu này, chúng tôi chủ yếu tập trung vào mô hình LLM và mô hình AI (Artificial Intelligence) nền tảng cho các nhiệm vụ ngôn ngữ và thị giác [4].

    3.2. Tác nhân Trí tuệ nhân tạo

    Tác nhân (agent) giao tiếp với môi trường thông qua bộ cảm biến và bộ truyền động. Đối với một chuỗi nhận thức có thể, một tác nhân sẽ chọn một hành động mà tối đa hóa hiệu suất của nó dựa trên chứng cứ cung cấp bởi chuỗi nhận thức và kiến thức mà tác nhân có. Tác nhân có thể cải tiến hiệu suất thông qua việc học.

    Một tác nhân học tập (Learning agent) có thể chia thành bốn thành phần như trong hình 3.2, yếu tố học tập (Learning element), yếu tố hiệu suất (Performance element), nhà phê bình (Critic) và trình tạo vấn đề (Problem generator). Việc học ở các tác nhân thông minh là một quá trình sửa đổi từng thành phần của các tác nhân để phù hợp với thông tin phản hồi có sẵn, do đó cải thiện hiệu suất chung của tác nhân [1].

    Hình 3.2 Tác nhân có khả năng học

  • Performance standard: Tiêu chuẩn hiệu suất, tiêu chí đánh giá tác nhân
  • Environment: Môi trường, Không gian nơi tác nhân hoạt động
  • Critic: Bộ tiêu chí đánh giá
  • Sensor: Cảm biến, để tác nhân thu thập thông tin từ môi trường
  • Learning element: Phần tử học, để tác nhân cải thiện hiệu suất
  • Performance element: Thành phần thực thi
  • Problem generator: Bộ tạo vấn đề, giúp tác nhân khám phá và học tốt hơn
  • Actuator: Bộ chấp hành, tác nhân thực hiện các hành động trong môi trường.

    Tác nhân dựa vào mô hình ngôn ngữ lớn (LLM agent) là tác nhân thực hiện các yêu cầu của con người dựa vào kiến thức nội tại trong mô hình LLM và có khả năng cập nhật kiến thức từ bên ngoài, đồng thời có khả năng tự đánh giá. Tác nhân thực hiện cơ chế ERC (Execution Reflection Correction) là quá trình thực thi có phản hồi và tự điều chỉnh nếu có sai sót, để tạo ra câu trả lời cuối cùng hiệu quả nhất.

    3.3. Tác nhân mô hình ngôn ngữ lớn 

    Hình 3.3 Tác nhân mô hình ngôn ngữ lớn

    3.4. LLM Agent tích hợp với kiến trúc RAG

    Kiến trúc RAG (Retrieval-Augmented Generation) kết hợp giữa mô hình ngôn ngữ lớn và hệ thống truy xuất thông tin để giúp tác nhân (AI agent) trả lời chính xác hơn. Trong mô hìnhphân tích cháy rừng WildfireGPT, tác nhân LLM được tích hợp với kiến trúc RAG. Tác nhân LLM đánh giá thông tin đầu vào của người dùng để xác định nhu cầu về thông tin bổ sung. Nếu cần, nó sẽ truy xuất các dự báo về khí hậu và các bài báo khoa học. Sau đó, tác nhân sẽ hợp nhất dữ liệu đã truy xuất với bộ nhớ của nó và lời nhắc tùy chỉnh để cung cấp phản hồi dựa trên thông tin được cập nhật [5].

    3.5. Tích hợp mô hình ngôn ngữ lớn vào hệ thống phát hiện và dự đoán cháy rừng

    Đặc biệt, các mô hình ngôn ngữ lớn (LLM) và các mô hình thị giác máy tính quy mô lớn (Large Vision Model) đã nổi lên như những công cụ mạnh mẽ có thể tiếp thu một lượng lớn kiến ​​thức bao gồm logic của con người, các nguyên lý toán học và lý thuyết khoa học thông qua quá trình đào tạo trước trên các tập dữ liệu đa dạng. Các mô hình này phát triển những gì có thể được coi là một thế giới nội tại: một kho lưu trữ phong phú về kiến ​​thức tiềm ẩn và khả năng lập luận được nhúng trong các lớp giữa của chúng. Học sâu với các lớp 'Thế giới nội tại' được đào tạo trước: Kiến trúc mô-đun dựa trên Gemma 3 để dự đoán cháy rừng. Google Gemma 3 có kiến thức tiềm ẩn phong phú từ quá trình đào tạo trước đa phương thức, là một mô-đun thế giới nội tại trong kiến trúc dự đoán cháy rừng [6].  

    4. Mô hình đề xuất

    4.1. Mục tiêu của hệ thống

  • Xây dựng hệ thống đa tác nhân AI sử dụng kiến thức nội tại của LLM để có được khả năng tiếp nhận, phân tích hình ảnh để tìm dấu hiệu của cháy rừng, có khả năng suy luận và đưa ra thông tin cảnh báo.
  • Hiện nay, việc triển khai một mô hình LLM yêu cầu tài nguyên rất lớn, đặc biệt là quá trình huấn luyện mô hình vì vậy đây là một thách thức trong việc triển khai ứng dụng AI. RAG giúp trang bị một công cụ mạnh mẽ cho phép tác nhân AI truy xuất thông tin từ nhiều nguồn khác nhau (ngoài những kiến thức mà mô hình LLM được huấn luyện) như: text, image, pdf, … để làm cơ sở suy luận và ra quyết định của các tác nhân AI. Việc cung cấp những tri thức bên ngoài LLM thông qua RAG cho tác nhân AI đã mở ra một triển vọng rất lớn trong việc khai thác khả năng của tác nhân AI sử dụng các mô hình LLM đã được huấn luyện sẵn.
  • Trong khuôn khổ bài báo này chúng tôi xây dựng mô hình sử dụng nhiều tác nhân AI với những vai trò chuyên biệt sử dụng RAG để truy xuất thông tin từ hình ảnh về các đám cháy rừng từ đó đưa ra cảnh báo cháy rừng.

`4.2. Kiến trúc tổng quan

  • LLM: Mô hình ngôn ngữ lớn
  • RAG (Retrieval-Augmented Generation) Tool: Công cụ tạo sinh có tăng cường truy xuất
  • Agent AI: Tác nhân trí tuệ nhân tạo
  • Fire_finder_task: Nhiệm vụ phát hiện cháy
  • Fire_warning_task: Nhiệm vụ cảnh báo cháy

Hình 4.1 Kiến trúc tổng quan của hệ thống cảnh báo cháy rừng

    Agent AI: là một tác nhân chuyên biệt được thiết kế để thực hiện một vai trò cụ thể, chuyên sâu và có khả năng cộng tác với những tác nhân khác. Chúng có khả năng lý luận bằng cách sử dụng kiến thức của LLM và thực hiện một tác vụ chuyên biệt dựa vào khả năng suy luận và sử dụng các công cụ đã được trang bị.

    Để đảm bảo hiệu quả, các tác nhân cần hiểu được vai trò và mục tiêu của mình. Quá trình thiết kế các tác nhân cần tập trung vào việc đưa ra các chỉ dẫn về vai trò, mục tiêu và kết quả mà tác nhân cần đạt được cũng như các công cụ trang bị cho tác tiến hành công việc.

    Cụ thể, với mỗi tác nhân cần xác định rõ:

  • Role: tác nhân đóng vai trò gì
  • Goal: mục tiêu công việc mà tác nhân cần đạt được
  • Backstory: những kỹ năng, kinh nghiệm chuyên môn liên quan

    Task: là một nhiệm vụ cụ thể được hoàn thành bởi tác nhân. Với mỗi task cần cung cấp những thông tin chi tiết cần thiết để thực hiện, chẳng hạn như mô tả cách thức(qui trình) thực hiện, tác nhân chịu trách nhiệm, công cụ cần thiết, dữ liệu cần thiết, kết quả công việc…, tạo điều kiện cho nhiều hành động phức tạp.

    Cụ thể, với mỗi tác nhân cần xác định rõ:

  • Description: mô tả quá trình thực hiện nhiệm vụ
  • Context: là kết quả của một agent khác, được sử dụng như dữ liệu đầu vào
  • Agent: tác nhân chịu trách nhiệm thực hiện
  • Expected output: kết quả của cuối cùng khi agent hoàn thành nhiệm vụ.

    4.3. Tổng quan phương pháp

     Trong khuôn khổ bài báo này, chúng tôi xây dựng mô hình với 2 tác nhân thực hiện lần lượt 2 nhiệm vụ là tìm dấu hiệu cháy và đưa ra cảnh báo.

  • Fire_finder_agent đóng vai trò là một chuyên gia phòng chống cháy rừng, sử dụng công cụ phân tích ảnh để tìm dấu hiệu cháy bao gồm dấu hiệu của lửa, dấu hiệu của khói. Fire_finder_agent suy luận dựa vào mô hình ngôn ngữ lớn Gemma 3 và thực hiện nhiệm vụ Fire_finder_task. Fire_finder_task được trang bị công cụ Vision Tool để có thể tiến hành phân tích và tìm dấu hiệu cháy. Kết quả của Fire_finder_agent là một bộ dữ liệu json bao gồm:

         {

                Fire: Boolean

                Smoke: Boolean

         }

  • Fire_warning_agent đóng vai trò là một chuyên gia phòng chống cháy rừng, sử dụng mô hình ngôn ngữ lớn Gemma 3 và thực hiện nhiệm vụ Fire_warning_task. Fire_warning_task nhận thông tin đầu vào là kết quả của Fire_finder_agent gồm 2 dấu hiệu lửa và khói. Nếu có ít nhất một trong hai dấu hiệu lửa hoặc khói thì sẽ đưa ra thông tin cảnh báo cháy, ngược lại thì không cháy. Mô hình ngôn ngữ lớn sử dụng là Gemma 3 4B, triển khai local. Cách triển khai này có ưu điểm là tiết kiệm chi phí và có thể triển khai trên các thiết bị có tài nguyên hạn chế.

    4.4. Quy trình làm việc của hệ thống

                                                                                              

                     Hình 4.2 Quy trình làm việc của hệ thống

  • Fire_finder_agent: Tác nhân phát hiện cháy
  • Fire_warning_agent: Tác nhân cảnh báo cháy
  • Image input: dữ liệu ảnh đầu vào
  • Json output: dữ liệu đầu ra định dạng Json

    4.5. Thí nghiệm và đánh giá

    4.5.1. Tập dữ liệu

    Tập dữ liệu (dataset) này được xây dựng bởi công trình nghiên cứu (El-Madafri I, Peña M, Olmedo-Torre, 2025) [7].

    Bao gồm 2.700 hình ảnh trên không và trên mặt đất, bộ dữ liệu này được tuyển chọn từ nhiều nền tảng trực tuyến khác nhau như cơ sở dữ liệu của chính phủ, Flickr và Unsplash. Tập dữ liệu bao gồm một loạt các kịch bản môi trường, các biến thể rừng, vị trí địa lý, hệ sinh thái rừng và các sự kiện cháy, bộ dữ liệu này được xây dựng  cho nghiên cứu về phát hiện cháy rừng. Thông tin chi tiết dataset

Nhãn

Train

Validate

Test

Fire

730

157

159

No fire

1.157

246

251

    Về độ phân giải:

  • Trung bình: 4057×3155 pixel
  • Tối thiểu: 153×206 pixel
  • Tối đa: 19699×8974 pixel

  

Hình 5.1. Mô tả dấu hiệu cháy, hình bên trái có khói và lửa, còn hình bên phải chỉ có khói

    4.5.2. Phương pháp đánh giá

    Để đánh giá hiệu quả của mô hình chúng tôi dùng phương pháp Confusion Matrix:

  • TP (True Positive): dự báo đúng ảnh Fire (Cháy).
  • TN (True Negative): dự báo dúng ảnh No Fire (Không cháy).
  • FP (False Positive): dự báo ảnh No Fire thành Fire.
  • FN (False Negative): dự báo ảnh Fire thành No Fire.

    Độ chính xác (Accuracy)

    4.5.3. Kết quả

Dự đoán/Thực tế

Thực tế

 

Cháy (Positive)

Không cháy (Negative)

 

 Dự đoán

Cháy (Positive)

155

(True Positive)

26

(False Positive)

 

Không cháy (Negative)

4

(False Negative)

225

(True Negative)

 

Tổng số

159

251

 

 4.6. Kết quả và thảo luận

    ​4.6.1. Kết quả chính của hệ thống

    Hệ thống cảnh báo cháy rừng theo mô hình dựa trên kiến trúc đa tác nhân dựa vào mô hình ngôn ngữ lớn Gemma 3. Trong đó mỗi tác nhân được sử dụng vào một nhiệm vụ chuyên biệt: Tác nhân thứ nhất để phân tích ảnh UAV phát hiện dấu hiệu cháy (lửa, khói), tác nhân thứ hai lấy kết quả đầu ra của tác nhân thứ nhất để đưa ra cảnh báo.

    4.6.2. Độ chính xác mô hình phát hiện cháy:

  • Độ chính xác tổng thể (Accuracy): 92.7%
  • Độ chính xác khi dự đoán có cháy (Precision): 85.6%
  • Khả năng tìm đúng tất cả các đám cháy (Recall): 97.5%
  • F1-score: 91.2%

    Điều này chứng tỏ mô hình có hiệu suất cân bằng tốt giữa cảnh báo đúng và giảm cảnh báo sai.

    4.6.3. Thảo luận

    4.6.3.1. Ưu điểm của hệ thống:

  • Phân chia nhiệm vụ rõ ràng, chuyên môn hóa từng tác nhân: Mỗi tác nhân đảm nhiệm một chức năng cụ thể như: phân tích ảnh, nhận diện khói/lửa, xử lý ngôn ngữ, đưa ra cảnh báo. Giúp tăng hiệu quả, giảm độ trễ và dễ quản lý logic hệ thống.
  • Khả năng mở rộng linh hoạt: Có thể thêm/bớt tác nhân (agent) dễ dàng theo yêu cầu thực tế: Thêm khu vực giám sát mới, loại cảm biến mới. 
  • Khai thác thế mạnh mô hình ngôn ngữ lớn (LLM) trong việc phân tích ảnh để phát hiện dấu hiệu cháy, hỗ trợ ra quyết định và đưa ra cảnh báo.

    4.6.3.2. Hạn chế của hệ thống:

  • Phụ thuộc vào chất lượng và tần suất thu thập dữ liệu: Hình ảnh UAV cần thu thập định kỳ, đủ rõ nét và bao phủ toàn bộ khu vực rừng. Trong một số rừng nhiều mây, sương mù, tán rừng che khuất cần bổ sung ảnh UAV cảm biến nhiệt (Thermal sensor).
  • Chi phí triển khai ban đầu cao: Đầu tư vào UAV, cảm biến nhiệt, trạm mặt đất, hạ tầng điện toán đám mây và xây dựng hệ thống phần mềm đa tác nhân có thể đòi hỏi ngân sách lớn.

    4.6.3.3. Khuyến nghị và đề xuất:

    Để triển khai mô hình cảnh báo cháy rừng trong điều kiện thực tiễn của nước ta, cần đáp ứng một số điều kiện và đề xuất cụ thể như sau:

  • Trang bị UAV hiện đại có tích hợp cảm biến nhiệt, đa phổ với khả năng bay xa, bay tự động, truyền dữ liệu theo thời gian thực.
  • Xây dựng hệ thống lưu trữ và xử lý dữ liệu trên nền tảng điện toán đám mây (Google Cloud, AWS, Azure...) nhằm đảm bảo khả năng mở rộng và truy cập linh hoạt.

    5. Kết luận  

    Nghiên cứu này đã đề xuất và xây dựng thành công một hệ thống cảnh báo cháy rừng ứng dụng công nghệ viễn thám kết hợp với mô hình ngôn ngữ lớn (LLM), góp phần nâng cao hiệu quả giám sát và phát hiện cháy rừng trên diện rộng. Cụ thể, nghiên cứu đã đạt được các kết quả chính sau:

  1. Sử dụng dữ liệu viễn thám (ảnh UAV) có khả năng cập nhật liên tục hiện trạng rừng nhằm theo dõi và phát hiện các dấu hiệu cháy.
  2. Ứng dụng mô hình ngôn ngữ lớn (LLM) để phân tích, tổng hợp và diễn giải dữ liệu (ảnh UAV) nhằm hỗ trợ ra quyết định và đưa ra cảnh báo.
  3. Phát triển hệ thống đa tác nhân (LLM-MA) gồm các agent (tác nhân thông minh) như: phát hiện khói/lửa từ ảnh, tổng hợp cảnh báo theo thời gian thực với độ chính xác cao.

    Hệ thống đề xuất có tính tự động, chính xác và dễ mở rộng, góp phần nâng cao năng lực phòng chống cháy rừng nước ta trong bối cảnh biến đổi khí hậu ngày càng phức tạp.

Lê Tuấn Thu1*, Trần Văn Định1

1Trường Đại học Tài nguyên và Môi trường thành phố Hồ Chí Minh

(Nguồn: Bài đăng trên Tạp chí Môi trường, số 7/2025)

    Tài liệu tham khảo

  1. Stuart J. Russell and Peter Norvig, Artificial Intelligent A Modern Approach, Fourth Edition, Pearson, 2021. 
  2. Muksimova, S.; Umirzakova, S.; Mardieva, S.; Abdullaev, M.; Cho, Y.I. Revolutionizing Wildfire Detection Through UAV-Driven Fire Monitoring with a Transformer-Based Approach. Fire 2024, 7, 443. https://doi.org/10.3390/fire7120443.
  3. Yang, H.; Wang, J.; Wang, J. Efficient Detection of Forest Fire Smoke in UAV Aerial Imagery Based on an Improved Yolov5 Model and Transfer Learning. Remote Sens. 2023, 15, 5527. https://doi.org/10.3390/rs15235527.
  4. Muhammad Usman Hadi, Qasem Al Tashi, Rizwan Qureshi, et al. Large Language Models: A Comprehensive Survey of its Applications, Challenges, Limitations, and Future Prospects. TechRxiv. November 16, 2023. DOI: 10.36227/techrxiv.23589741.v4
  5. Yangxinyu Xie, Bowen Jiang, Tanwi Mallick, Joshua David Bergerson, John K. Hutchison, Duane R. Verner, Jordan Branham, M. Ross Alexander, Robert B. Ross, Yan Feng, Leslie-Anne Levy, Weijie Su, Camillo J. Taylor: WildfireGPT: Tailored LLM for wildfire analysis, arXiv:2402.07877, 2024, https://doi.org/10.48550/arXiv.2402.07877
  6. Ayoub Jadouli, Chaker El Amrani, Deep Learning with Pretrained ‘Internal World’ Layer: A Gemma 3-Based Modular Architecture for Wildfire Prediction, arXiv:2504.18562 [cs.LG], 2025,  https://doi.org/10.48550/arXiv.2504.18562
  7. El-Madafri, I.; Peña, M.; Olmedo-Torre, N. The Wildfire Dataset: Enhancing Deep Learning-Based Forest Fire Detection with a Diverse Evolving Open-Source Dataset Focused on Data Representativeness and a Novel Multi-Task Learning Approach. Forests 2023, 14, 1697. https://doi.org/10.3390/f14091697.
Ý kiến của bạn