목적 : 조류(algae)의 직접 지표인 남조류의 발생 예측을 위해 낙동강의 경상북도 및 대구광역시 지역의 6개 지점을 대상으로 수질 데이터, 하천환경 데이터, 기상 데이터를 수집 분석하여 각 요인들의 상관관계를 확인하고 이를 통한 녹조 발생 예측 모델의 활용성에 대해 검증하였다. 방법 : 종속 변수는 남조류세포수로 설정하였으며 조류(algae)의 성장의 직접적인 수질 지표인 클로로필-a(Chl-a)와 수온, pH, 용존산소(DO), 총질소(TN), 총인(TP) 등의 수질 자료를 활용하였다. 또한 기온, 습도, 운량, 강수량, 일사량 등의 기상 데이터와 수체 안정도 지표 산출을 위한 기초자료로 유속, 유량 데이터 활용하였다. 수집된 데이터의 검증과 보정을 진행하였으며 종속변수인 남조류세포수와 독립변수와의 상관관계를 분석하였으며 또한 선형 회귀모델 기반의 랜덤 포레스트(Random Forest) 모형을 통해 녹조 발생에 대한 예측 모형을 평가하였다. 결과 및 토의 : 데이터간의 상관성 분석 결과, 전차의 남조류세포수가 현재의 남조류세포수에 큰 영향을 미치고 있는 것으로 나타났다. 수온은 양의 상관성을 보였으며 DO는 음의 상관관계를 보였다. 남조류세포수와 독립변수인 유량, 유속과의 상관성은 음의 상관성이 있는 것으로 나타났다. 기상데이터의 경우 기압과는 음의 상관관계, 기온과는 양의 상관관계를 보였다. 또한 강수량이 많은 경우에는 세포수가 크게 감소되었으나, 적은 강수량에서는 그러한 추세가 뚜렷하게 관찰되지 않았다. 선형회귀모델을 적용한 결과, R² 값은 0.734로 모델이 변수의 변동성에 비교적 높은 설명력으로, 남조류세포수를 예측하는데 유의미한 정보를 제공하는 것으로 나타났다. 결론 : 선형 회귀 모델 기반의 랜덤 포레스트 모형을 통해 남조류 발생을 예측한 결과, 실측값과 비교 시 예측값이 전반적인 추세를 잘 추종하는 것을 확인할 수 있었다. 복잡한 데이터 패턴을 잘 포착하여 예측 성능이 일관되게 유지되지 되는 것을 확인하였으며 수생 생태계에서 남조류의 발생 경향에 대한 신뢰성 있는 예측에 활용할 수 있을 것으로 판단된다.
Objectives : A study was conducted to implement a predictive for cyanobacteria occurrence, a direct indicator of algae presence. Water quality, river environment, and meteorological data were collected and analyzed at six locations along the Nakdong River in Gyeongsangbuk-do and Daegu City. The primary objective was to establish correlations between various environmental factors and validate the utility of predicting algae(cyanobacteria) occurrences. Methods : Cyanobacteria was designated as the dependent variable for correlation analysis. Water quality parameters associated with algal growth, including chlorophyll-a, water temperature, pH, dissolved oxygen(DO), total nitrogen(TN), and total phosphorus(TP), were utilized as key indicators. Additionally, meteorological data such as air temperature, humidity, cloud cover, precipitation, and solar radiation, as well as flow rate and flow quantity, which are indicators of water body stability, were utilized. The collected data were verified and corrected for accuracy before analyzing correlations between cyanobacteria occurrence and the independent variables. Furthermore, cyanobacteria occurrence was predicted using a random forest algorithm, with a linear regression model serving as a baseline for comparison. Results and Discussion : The data presented a normal distribution. Correlation analysis indicated that previous cyanobacteria occurrences had a significant influence on current occurrences. Water temperature showed a positive correlation with cyanobacteria, while DO exhibited a negative correlation. Flow quantity and flow rate were inversely correlated with cyanobacteria cell density. In terms of meteorological data, air pressure negatively correlated with cyanobacteria occurrence, while air temperature showed a positive relationship. Substantial precipitation significantly reduced cyanobacteria concentrations; however, this effect was less pronounced during periods of low rainfall. The linear regression model, with an R² value of 0.734, demonstrated considerable explanatory power, indicating its effectiveness in accounting for the variability of the dependent variable. Conclusion : The random forest, built on the linear regression model, successfully captured the overall trend of cyanobacteria occurrence when compared with field measurements. The model consistently maintained predictive performance by effectively recognizing complex data patterns, suggesting its potential for reliable prediction of cyanobacteria occurrence trends in aquatic ecosystems.