SlideShare a Scribd company logo
한우 수급 예측모형 경진대회 1
한우 경락가격 예측 고도화
도축두수와 경락가격의 특징별 모델 적용을 통한 예측 고도화
이해환, 정동훈, 민동은, 박지원*1
Key words
생존분석(survival analysis), LSTM(Long Short-Term Model), 경락가격 예측
ABSTRACT
This paper presents a model for predicting the auction price of Korean
beef(steer) for each week. The beef price prediction process consists of two
steps. First, we predict the supply by estimating the number of slaughtered
steer for each week. The supply is estimated by deriving the survival function
of calves by age and then applying it to the number of livestock counted
monthly. Then, the demand price prediction for the given supply is done by
using an LSTM model. The LSTM model is a machine learning model speci-
alized in predicting variables including time series data. Its prediction power
is improved by applying the selected main variables for each week to the
model. We use different algorithms in predicting the supply and demand price
for two reasons: first, we aim to best describe the specific characteristics of
the steer auction market, and therefore increase the model accuracy by suffi-
ciently reflecting the different features in each part. By presenting a price pre-
diction model composed of these two steps, we intend to help livestock farm-
ers accurately predict their household income.
차례
1. 서론
2. 공급 두수 예측
3. 경락 가격 예측
4. 결론
* 연세대학교 통계데이터사이언스학과 소속 대학원생.
한우 수급 예측모형 경진대회
2
1. 서 론
한우 지육이 거래되는 공판장은 큰 의미를 가진다. 공판장 거래대금이 대다수
축산농가의 주 수입원일 뿐 아니라, 이곳에서 결정된 경락가격이 곧 소비자 가격
으로 이어져, 한우 시장 전체에 지대한 영향을 끼치기 때문이다. 따라서 경락가격
을 예측하는 일은 축산농가뿐 아니라 한우 수급과 관련된 모든 의사결정권자들에
게 중요한 이슈일 수밖에 없다. 본 논문은 한우 거세우 경락가격 예측에 초점을
맞추어 진행하였다.
경락가격은 공판장에서 경매를 통해 결정된 가격이다. 경매시장의 경우, 공급에
해당하는 도축두수가 축산농가에 의해 선제적으로 결정이 되고, 가격은 그 이후
시장참여자들에 의해 결정된다는 점에서 수요와 공급이 동시에 청산되는 경쟁시
장과 큰 차이점을 가지고 있다. 이로 인해, 축산농가는 완전경쟁시장의 공급자에
비해 낙찰된 경락가격에 끼칠 수 있는 영향력이 적다. 대신, 축산농가는 공판장에
제공하는 도축두수를 제어함으로써 지육 시장에 영향력을 행사한다. 따라서, 올바
른 경락가격 예측모형은 축산농가가 출하하는 도축두수를 예측하고, 이를 주어진
공급으로 인식하여 최종 가격을 예측하는 일련의 과정을 포함하고 있어야 한다.
본 연구는 도축두수와 경락가격의 개별 특징을 우선 파악하고 각 변수별로 적합한
모델을 선정함으로써 경락가격이 결정되는 실제 과정을 최대한 유사하게 추적하
고 이를 통해 가격 예측력을 개선하고자 한다.
2장에서는 경매시장의 공급에 해당하는 도축두수 예측을 다룬다. 월별 도축두
수는 강한 주기성을 띄는데, 이는 송아지 출생두수의 계절성과 관련이 깊다. 본 연
구는 공급량이 출생두수의 절대적 크기를 감안하면 안정적인 시계열 자료 형태를
띄고 있다는 점과 월령별 사육두수 데이터에서 파악한 월별 도축비율이 매우 일정
하다는 점에 착안하여 공급량을 예측한다. 마지막으로, 주차별 가격예측을 위해서
월별 도축두수 예측량을 주차별로 분할하는 과정이 필요하다. 이 때에 요일별 도
축두수 가중치와 연휴로 인한 개장 유무를 반영함으로써, 주차별 도축두수 예측에
정확성을 기했다.
3장에서는 경락가격 예측에 대해 다룬다. 경락가격은 주어진 공급량에 대한 수
요를 의미하는 것으로, 월별 도축두수와 달리 분명한 주기성을 띄지 않을 뿐더러,
한우 수급 예측모형 경진대회 3
도축두수와의 관계도 일반적으로 기대하는 수요곡선 형태와 달리 무작위적인 모
습을 띄고 있다. 이는 기존 모델이 강조하는 선형적 관계성만으로 의미있는 가격
예측이 어려움을 의미하며 가격 예측력에 초점을 맞춘 새로운 모델 선택이 필요함
을 뜻한다. 본 연구는 주기성을 파악하기 힘든 시계열 자료의 예측에 탁월한
LSTM 모델을 활용, 예측 정확도를 높이고자 했다. 본 장에서는 이 때 활용한 모델
과 변수의 결과물을 요약하여 보여주고자 한다.
4장에서는 최종적으로 공급과 수요를 연결함으로써, 실제 9월 달 1++A 등급의
거세우 경락가격을 예측함과 동시에, 다른 등급의 경락가격에 대한 유추과정을 살
핀다. 이를 통해 본 연구의 모델을 활용할 경우, 실제 축산 농가가 어떻게 각 등급
별 경락가격을 파악하게 되는 지 요약하였다. 마지막으로 이를 추세선을 반영한
지표와 함께 제시함으로써, 축산 농가뿐 아니라 향후 예측가격이 한우 시장의 경
기변동에서 어디에 위치하는지 쉽게 이해할 수 있도록 하였다.
5장에서는 본 연구의 의의와 함께, 가지고 있는 한계점과 이를 극복할 수 있는
방법을 제안하고자 한다. 특히 현재 수집된 데이터가 가지는 오차를 제시함과 더
불어 가격 예측에 정확도를 높여줄 것으로 기대되는 추가적인 설명변수를 제안함
으로써, 한우 축산농가의 안정적 수급에 더 기여하고자 함이다.
2. 공급 두수 예측
본고의 구성은 다음과 같다. 제1절은 공급 측면의 도축두수 예측 과정에 대해
개괄적으로 설명한다. 제2절은 카플란-마이어 추정을 통한 생애주기 파악 방법에
대해 설명하며, 이어서 제3절에서는 파악된 생애 주기를 통해 계산되는 21~36개
월령 소의 예상 도축두수를 보인다. 제4절은 월별 가중치를 곱한 최종 예상 도축
두수를 보인다. 마지막 제5절은 월별 예상 도축두수를 주차별로 나누는 과정을 설
명한다.
2.1. 공급 측면 도축 두수 예측모델 구축
한우 수급 예측모형 경진대회
4
공급부문에서는 통계 방법론을 이용하여 소의 생애주기를 파악하고 공급측면 도
축두수를 예측하고자 한다. 소를 도축하기 위해서는 최소 21개월에서 36개월 이
상 사육하는 기간이 필요한데 소의 생애주기를 파악하면 공급의 대상이 되는 사육
두수를 예측할 수 있다. 또한 도축두수의 경우 설‧추석의 명절이 있는 1월과 8~9
월에 도축두수가 급격히 증가하는 등의 정형화된 패턴을 보이기 때문에 월별 특성
을 고려하여 공급을 예상하여야 한다.
주 1) 도축두수가 1월, 8월, 9월에 증가하는 패턴이 연도마다 반복되는 계절성을 확인할 수 있음
자료 : 소 도축; 축산물 이력제 시스템
따라서, 공급측면 도축두수를 예측을 위해서 먼저, 1) 생존분석 통계기법인 카
플란-마이어 추정량(Kaplan-Meier Estimator)을 계산하여 한우 생애 주기를 파
악하고, 2) 생존 분석을 통해 구한 생존 함수(Survival Function)로 공급의 대상이
되는 21~36개월령 소의 예상 도축두수를 구한 후, 3) 예측하고자 하는 월(month)
에 해당하는 월별 가중치를 곱하여 최종적인 도축두수를 예측하였다. 최종적으로
모델의 정확도를 판단하기 위해, 예측한 공급 두수 값을 이력제 시스템에서 제공
하는 실제 도축두수와 비교하였다.
그림 1. 5개년(2016~2020) 월별 도축두수
한우 수급 예측모형 경진대회 5
2.2. 카플란-마이어 추정을 통한 생애주기 파악
2.2.1. 카플란-마이어 추정
카플란-마이어 추정(Kaplan-Meier Estimation)은 시점 이후 생존할 확률인 생존
함수의 추정량을 구하는 방법으로, 각 시점에서의 생존율을 계산한다. 카플란-마이
어 추정량의 수식은 다음과 같다.

  
   ≦ 
  



   은 시점에 관찰 가능한 대상의 수, 은 시점에 사망한 대상의 수를
말한다. 예를 들어,    이후 살아 있을 확률은   에서 생존한 대상이    와
  에서 모두 생존할 확률을 구해야하기 때문에 각 시점에서의 생존율의 곱으로
나타내어야 한다. 즉, 카플란-마이어 추정은 생존함수의 추정량을 시점까지 각 시
점에서의 생존할 확률, 현존하는 대상 중에서 사망하지 않고 생존하는 대상이 차
지하는 비율의 곱으로 표현할 수 있다고 말한다.
본 연구에서는 월령별 사육두수 데이터를 이용하여 소의 월령별 생존율을 계산
하고자 한다. 카플란-마이어 추정에서 각 시점마다 관찰 가능한 대상의 수에 대한
생존 대상의 수의 비율 곱을 할 때, 이전 시점에서 생존 대상의 수와 현재 시점의
관찰 가능한 대상이 동일한 경우에는, 최종적으로 시점에서의 추정량은   일
때 관측한 전체 대상 중에서 시점에 생존한 대상이 차지하는 비율과 같아진다.
월령별 사육두수는 소가 출생한 시점부터 도축‧폐사되기까지 생존한 대상의 수를
가리키므로 소의 생존율 및 생애주기를 파악하기에 적합하다고 판단하였다.
2.2.2. 월령별 한우 사육두수 데이터
축산물 이력제 시스템에서 제공하는 월령별 사육두수 데이터는 3개월령 이하,
4개월령, …, 36개월령, 37개월령 이상인 소의 사육두수를 2017년 9월부터 2021
한우 수급 예측모형 경진대회
6
년 3월까지 기록한 데이터이다. 월령별 사육두수 데이터에서 정확한 사육두수를
파악할 수 있는 월령은 4개월부터 36개월까지이므로 본 절에서는 전체 도축두수
중 4~36개월령이 차지하는 비율이 97% 이상인 거세우의 생애주기를 추정하고자
한다.
4개월령의 소가 36개월령이 되기까지 사육두수를 관측 가능한 월은 2017년 9월
부터 2018년 6월까지, 총 10개월이다. 아래 표는 10개의 월에 대하여 4개월령 소
가 36개월령이 될 때까지 거세우 사육두수의 변화를 보여주는 데이터의 일부이다.
자료: 월령별 한우 거세우(수소) 사육두수; 축산물 이력제 시스템
2.2.3. 거세우(수소) 생애주기 파악
월령별 사육두수 데이터를 통해 개월이 지나면서 사육두수가 감소하는 것을 살
펴볼 수 있다. 카플란-마이어 추정량을 계산하기 위해서는 각 시점에서의 사육두
수를   일 때 전체 사육두수로 나누어야 하므로, 각 개월의 사육두수를 4개월
령부터 36개월령까지의 사육두수 중 최댓값으로 나누어 부터 까지의 수로 나타
내었다.
그림 2를 통해 10개월에 대해서 사육두수가 동일한 비율로 감소하고 있다는 것
을 알 수 있다. 또한, 각 월령에서 차지하는 비율을 소의 ‘생존율’로 정의하였다.
월 4개월령 사육두수 월 36개월령 사육두수
2017년 9월 46,309 … 2020년 5월 1,024
2017년 10월 35,323 … 2020년 6월 965
2017년 11월 30,765 … 2020년 7월 902
2017년 12월 23,764 … 2020년 8월 675
2018년 1월 22,945 … 2020년 9월 630
2018년 2월 20,464 … 2020년 10월 590
2018년 3월 21,256 … 2020년 11월 667
2018년 4월 24,289 … 2020년 12월 844
2018년 5월 29,631 … 2021년 1월 778
2018년 6월 53,995 … 2021년 2월 1,189
표 2. 월령별 한우 거세우(수소) 사육두수 데이터
한우 수급 예측모형 경진대회 7
10개월 모두 초기에는 큰 변화를 보이지 않다가 26개월령 전후부터 생존율이 급
격히 감소하는 형태를 보이고 있는데, 상대적으로 아래쪽에 위치한 2017년 11월
과 2018년 1월을 제외한 8개월의 평균값을 구하여 최종 월령별 생존율을 계산하
였다. 이때, 시작점인 4개월령 사육두수로부터 개월이 지나면서 비율 변화를 살피
기 위해 시작점인 4개월령일 때의 생존율 값이 1이 되도록 설정하였다.
그림 2. 거세우(수소) 월령별 생존율
그림 3. 거세우(수소) 평균 생존율
한우 수급 예측모형 경진대회
8
2.3. 21~36개월령 거세우 예상 도축두수 예측
2.3.1. 21~36개월령 거세우 예상 사육두수 계산
앞서 카플란-마이어 생존분석을 통해 구한 생존함수(Survival function)을 이
용하면 4개월령의 소가 개월령이 되었을 때의 예상 사육두수를 계산할 수 있다.
개월령 예상 사육두수 = 4개월령 사육두수 × 개월령 생존율
다음으로, 사육두수의 감소율로 도축량을 계산하여 목표 월의 공급 대상인
21~36개월령 사육두수를 계산할 수 있다. 사육두수의 감소에는 도축 외에 다른 요
인이 작용할 수 있지만, 폐사의 경우 21개월령부터 36개월령까지 각 월령에서의
폐사두수가 전체 폐사두수 중 차지하는 비율이 대부분 1% 이내이므로 월령의 사
육두수 감소의 주요 원인을 도축으로 판단하였다.
월령 폐사두수 비율(%)
21개월 1,848 1.0003
22개월 1,825 0.9908
23개월 1,834 0.9957
24개월 1,820 0.9881
25개월 1,807 0.9811
26개월 1,766 0.9588
27개월 1,792 0.9729
28개월 1,772 0.9621
29개월 1,767 0.9594
30개월 1,763 0.9572
31개월 1,425 0.7737
32개월 1,177 0.6390
33개월 848 0.4604
34개월 695 0.3773
35개월 647 0.3513
36개월 528 0.2867
전체 184,187 100
표 3. 21~36개월령 폐사두수 및 비율
한우 수급 예측모형 경진대회 9
주 1) 전체 폐사두수에서 21~36개월령이 차지하는 비율은 각각 1% 이내인 경우가 대부분임.
자료: 소 폐사; 축산물 이력제 시스템
2.3.2. 21~36개월령 거세우 도축률 및 예상 도축두수 계산
개월령의 소가   개월령이 될 때 감소하는 소의 생존율을 ‘도축률’로 정의
하고, 해당 월령의 예상 사육두수에 이를 곱하여 ‘예상 도축두수’를 계산한다.
개월령 도축률 = 개월령 생존율 -   개월령 생존율
개월령 예상 도축두수 = 개월령 예상 사육두수 × 개월령 도축률
그런데 이때, 월령별 사육두수 데이터에 37개월령 사육두수에 대한 정보가 존재
하지 않으므로, 이 후 개월령의 소들에 대한 생존율 구할 수 없다. 따라서 30개월
령 이상에 해당하는 생존율 값들을 로그 변환(log-transformation) 후, 선형회귀
(linear regression)식에 적합 시켜 예측 값을 구한 뒤 역변환한 함으로써 37개월
령의 생존율을 대체(impute)하였다.
그림 4. 로그생존율 선형회귀식 적합
주 1) 30개월 이상 월령의 생존율을 로그 변환하여 선형 회귀식에 적합하였음
한우 수급 예측모형 경진대회
10
주 1) 시작점인 4개월령에서 1의 값을 갖도록 각 월령별 생존율을 4개월령 생존율로 나누어주었음.
2) 도축률은 해당 월령의 생존율에서 다음 월령의 생존율 차로 정의하였음.
3) 36개월령 도축률은 30개월령 이상의 생존율을 로그변환하여 선형회귀식에 적합시킨 후 역변환하여 구한
값으로 대체하였음
2.4. 월별 가중치를 곱한 최종 예상 도축두수 계산
2.4.1. 월별 가중치 계산
소의 생애주기로 공급 대상이 될 수 있는 두수를 계산할 수 있지만 도축두수는
강한 계절성을 갖기 때문에 도축되는 월(month)에 따라 도축두수의 값이 크게 변
화한다. 따라서 목표 월에 도축되는 두수의 수를 정확히 예측하기 위해 도축의 월
별 특성을 반영하는 가중치를 계산하였다.
월별 가중치는 축산물 이력제 시스템에서 제공하는 2016년에서 2020년의 소 도
축 데이터를 이용하여 각 연도의 월별 도축두수를 정규화하여 계산하였다. 정규화
방법으로 사용한 ‘min-max scaling’은 최솟값과 최댓값()을 지정하여 실측값들
이 특정 범위 내에 들어오도록 조정하는 방법이다.

   
max  min
  min  
월령 생존율 도축률 (생존율의 차)
4개월령 1.0000 0.0028
5개월령 0.9972 -0.0044
6개월령 1.0016 0.0046
7개월령 0.9970 0.0140
… … …
33개월령 0.1177 0.0514
34개월령 0.0663 0.0238
35개월령 0.0425 0.0146
36개월령 0.0278 0.0119
표 4. 거세우(수소) 월령별 생존율 및 도축률
한우 수급 예측모형 경진대회 11
min-max scaling에서 통상적으로 [0,1]의 범위를 많이 사용하나, 앞서 구한
21~36개월령 소의 예상 도축 두수가 실제 도축 두수와 비교하였을 때 균일하게
작은 값을 보였기 때문에, 월별 가중치는 0.5 이상의 값으로 주고자 scaling의 범
위(range)를 [0.5, 2]로 사용하였다. 월별 가중치의 값은 아래 표와 같다.
2.4.2. 월별 거세우(수소) 도축두수 예측
월령별 사육두수 데이터를 이용하여 21~36개월령 소를 공급 대상으로 가질 수
있는 월을 구하면 2020년 5월부터 2022년 8월까지이다. 해당 월의 가중치를
21~36개월령 예상 공급 두수에 곱함으로써 월별 예상 도축두수를 계산할 수 있다.
목표 월의 예상 도축두수 = 월 가중치 × 
  

개월령 예상 도축두수
예측한 도축두수와 비교를 위해 축산물품질평가원에서 제공하는 거세우 경락두
수를 검정 데이터로 사용하였다. 비교 결과, 도축두수의 추세는 정확히 예측하고
있으나, 2020년 8, 9월에 예측한 두수보다 실제는 만(10,000)두 이상 적게 도축되
었다는 것을 확인할 수 있다.
월 가중치
1월 1.903
2월 0.558
3월 0.762
4월 0.952
5월 0.856
6월 0.803
7월 0.819
8월 1.263
9월 1.497
10월 0.844
11월 0.878
12월 1.172
표 5. 월별 가중치
한우 수급 예측모형 경진대회
12
예측력 검정에는 MAE(Mean absolute error), MAPE(Mean absolute
percentage error), MSE(Mean square error) 등을 사용할 수 있는데 본 절에서
는 측정 단위에 영향을 받지 않는 MAPE를 평가방식으로 선택하였다. MAPE는 실
제값에 대한 추정 오차의 상대적인 크기를 표현한다.
  



  



  

는 관측기간(표본)의 수, 와 
는 각각 실제값과 예측값을 말한다. 검정 결과,
MAPE 값이 22.34%로 도출되었다. 앞서 언급한 것처럼 2020년 8, 9월의 차이가
MAPE의 수치에 영향을 끼친 것으로 보인다. 하지만, 2020년 하반기 이후부터 예
측력이 높아지는 것을 확인하여, 월별 예상 도축두수 데이터를 사용하여 공급 두
수를 예상하기로 하였다.
2.5. 주차별 도축두수 계산
앞 절에서, 도축 두수는 월별로 예측하였다. 하지만 거세우 경락 가격 예측에서
는 도축두수를 주차별로 활용한다. 해당 주차는 월요일이 시작으로 토요일과 일요
일에는 도축이 거의 일어나지 않아 금요일을 끝으로 한다. 이처럼 도축 두수 자료
의 단위가 다르기 때문에 월별 자료를 주차별로 나누어주어 단위를 통일시킬 필요
가 있다. 이때 문제가 발생하는데, 아래 2021년 9월의 달력을 예시로 설명하겠다.
그림 5. 예상 및 실제 월별 도축두수
한우 수급 예측모형 경진대회 13
월 화 수 목 금 토 일
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
2021년 9월 1 주차는 수요일부터 시작하기 때문에 해당 주차의 도축 두수는 8월
마지막 주차에 해당하는 도축 두수 정보(월, 화)를 활용하여야 한다. 마찬가지로
9월의 5주차는 목요일에 끝나므로, 10월의 1 주차에 해당하는 도축 두수 정보가
필요하다. 따라서, 월별 도축 두수를 주차별 도축 두수로 변환하는 작업은 아래의
유사 순서도(pseudo algorithm)을 따른다. 변환하는 작업에 요일별 도축 두수 비
율 정보를 활용하고 각 값은 아래의 표와 같다.
1. 월에서 각 주차  별로 포함된 요일을 구하여,  별로 도축이 된 정도 
를 계산한다. 이때,  는 에서  까지이다.

 월
 화
 수
 목
 금
,
요일
  if 공휴일 혹은 미해당일
요일별 도축 두수 비율 
.
예를 들어, 2021년 9월의 1 주차의 
은 0.657(0.258+0.244+0.155)이다.
2. 월의 도축 두수 도축두수 를 각 주차  별로 앞서 계산한 도축된 정도 
에 따라 비례배분한다.
도축두수⋯도축두수
←도축두수
도축두수
 

  


도축두수 × 
3. 월의 1 주차와 마지막 주차가 월-금의 요일을 포함하고 있는지를 판단하고,
요일 월 화 수 목 금 계
도축 두수 비율 0.066 0.227 0.258 0.244 0.155 1.000
한우 수급 예측모형 경진대회
14
빠져있는 요일이 있다면, 그 전 월의 마지막 주차 혹은 그 다음 월의 1 주차의
값을 가져와 병합하면 매 주차별 도축 두수를 얻어낼 수 있다.
주차별 도축두수  도축두수  도축두수   
 if 월  
주차별 도축두수    도축두수      ⋯  
주차별 도축두수      도축두수
 도축두수   if 금
 
3. 거세우 경락 가격 예측
본 장에서는 거세우 경락가격이 가지는 특징을 살펴보고, 이러한 특징을 반영할
수 있는 모델을 적용한 경락가격 예측 모형과 그 결과값을 소개하고자 한다.
사용 데이터는 2015년 첫 주차(1월 5일 ~ 1월 11일)부터 2021년 9월 둘째 주(9
월 6일 ~ 9월 12일)까지 포함하는 총 349주차에 해당하는 주차별 전국 평균 경락
가격으로, 축산물품질평가원 축산유통정보를 통해 구한 자료이다. 이때 언급한 평
균 경락가격이란, 전체거래대금을 전체거래중량으로 나눈 값으로 단위는 원/kg이
며, 자세한 산출방식은 아래와 같다. 본 장에서는 1++A 등급의 거세우에 초점을
맞춤으로써 논의를 진행한다.
- 전체거래대금 = (낙찰된 도체의 도체중(kg) x 당해도체의 경락단가(원))의 합계
- 전체거래중량 = 낙찰된 도체의 도체중(kg)의 합계
3.1. 경락가격과 도축수량의 선형성 고찰
본 절에서는 경락가격의 유의점을 살펴보고자 한다. 관심 변수의 특징을 잘 반
영할 수 있는 모델을 선택하는 것이 모델 정확성을 높일 뿐 아니라, 사후적으로
모델을 해석할 때에 오해의 소지를 줄이기 때문에, 이를 잘 파악하는 일이 중요하
다. 해당 과정을 간단한 사례를 통해 제시함으로써, 고전적 시계열 분석 방식이 가
질 수 있는 한계점을 설명하고자 한다.
한우 수급 예측모형 경진대회 15
경락가격의 가장 큰 특징은, 해당 가격이 도축된 거세우의 낙찰가를 뜻하는 것
이 아니라 낙찰가를 해당 도체의 도체중으로 나눈 값이라는 점이다. 따라서 관측
하고자 하는 경락가격은 도체중이라는 잠재변수와 관계성을 띄고 있다. 일반적으
로 동일한 육질 등급의 거세우라고 할지라도, 도체중 증가에 따라 중도매인들의
낙찰희망가가 선형적으로 증가하는 것이 아니라, S자 형태로 증가한다. 즉, 중도
매인들은 동일한 조건의 지육에 대해서도 도체중에 따라 낙찰희망가를 다르게 평
가하며, 도체중과 희망낙찰가의 관계가 비선형 곡선에 가깝다라는 것이다. 예를
들어 300kg 도체중을 가지는 한우가 3백만원에 거래된다고 하더라도, 600kg 도체
중의 동일한 등급의 한우는 6백만원이 아니라 그 이상 가격 - 예컨데 7백만원 -
에 거래가 되는 것이 일반적이다.
이 경우, 중도매인들의 수요가 전혀 변하지 않음에도 연구자에게는 수요곡선 상
의 이동이 나타난 것으로 해석될 여지가 존재한다. 앞서 예시에 따르면, 전자의 경
우 경락가격은 10,000(원/kg)인데 반해 후자는 11,666(원/kg)이 된다. 모든 수요변수
를 고정했음에도 불구하고, 동일한 1마리의 도축두수에 대해서 경락가격이 상승한
것이다. 만약 연구자가 경락가격에 내재된 도체중이라는 변수를 고려하지 못 한
채, 선형적 수요곡선만을 찾고자 한다면, 이를 설명하기 위해 불필요한 변수를 추
가하거나 혹은 잘못된 해석을 내릴 여지가 존재한다.
요약하면, 도매시장에서는 육질, 등급 외에 도체중 등의 기타 변수도 항상 함께
고려되어 최종 경락가격이 결정됨을 인식해야하며, 이에 따라 도체중 정보를 취득
하여 모델에 설명변수로 활용해야한다. 만약 이를 구할 수 없을 경우, 모델의 입력
(Input)과 출력(Output)간의 관계가 비선형일 가능성을 염두한 모델을 선택을 해
야만 할 것이다.
3.2. LSTM(Long short-term memory)
순환 신경망 (Recurrent nueral network, RNN)은 내부 순환 구조가 포함된 신
경망으로 시계열이나 자연어와 같이 순차적 자료를 학습하는 데에 사용된다. RNN
의 신경망 구조는 이론적으로 장단기 기억(Long Short-term memory) 모두에서
완벽하게 작동한다. 하지만 역전파 알고리즘(backpropagation algorithm)을 통
해 RNN을 최적화하면 국소 최적값(local optimal)에 빠지는 것을 발견하였다
한우 수급 예측모형 경진대회
16
(Bengio, 1992; Mozer, 1992). 이는 역전파 알고리즘을 통해 기울기가 전달됨에
따라 점차 0에 가까워지는 기울기 소실 문제(vanishing gradient problem)로 인
한 것으로 밝혀졌다(Bengio, 1993). 이것이 바로 장기 의존성 문제(the problem
of Long-Term Dependencies)이다.
LSTM(Hochreiter, 1997)은 3개의 게이트(gate)를 도입함으로써 역전파 알고리
즘으로 학습하더라도 장기 의존성 문제를 극복하였다. 망각 게이트(forget gate)
를 통해 직전 정보를 잊을 지 말 지 결정하고, 입력 게이트(input gate)를 통해,
현재 정보를 저장할 지 말 지 결정한다. 결정된 두 정보를 활용하여 현재 정보를
갱신(update)하고 출력 게이트(output gate)를 통해 갱신된 정보를 얼마나 다음으
로 내보낼지 결정한다.
LSTM은 학습된 3개의 게이트를 통해 망각할 정보와 기억할 정보를 판별하여
다음 정보에 계속 반영이 함으로써, 단기 의존적인 순차적 자료와 장기 의존적인
순차적 자료 모두에서 잘 작동한다. 다시 말해, LSTM은 장기 의존성이 담보된 상
태에서 부분적으로 잊기 때문에, 모든 시차에 대해 선별적으로 고려하는 모형인
것이다. 덕분에, 주기성이나 계절성이 인지적으로 뚜렷하지 않은 자료에서도
LSTM은 적절히 학습될 수 있다. 또한, 반영해야할 시차(time lag)를 도메인 지식
이나 데이터로 확인하기 어려울 때에도 LSTM은 그 특징을 잘 잡아낼 거라 기대할
수 있다. 마지막으로 LSTM은 DNN과 마찬가지로 관심변수와 설명변수 사이의 비
선형 관계도 잘 탐색하기에 우수한 예측력을 가진 모형이다.
3.3 LSTM 모델 설계 및 예측값 도출 방법
LSTM 모형은 여타의 신경회로망(Neural Network) 구조와 마찬가지로 은닉층
(hidden layer)의 갯수와 각 은닉층에서의 노드(node) 개수를 결정하는 일반적인
방법이 존재하지 않는다. 은닉층과 노드의 갯수를 과도하게 늘림으로써 과적합
(overfitting) 문제가 발생할 경우, 실제 모델 예측의 성능이 저하될 여지가 있기
때문에 본 연구에서는 최대 5개의 은닉층만을 사용하였으며, 각 은닉층이 가지는
노드 갯수는 100개, 50개, 50개, 50개 그리고 1개로 설정하였다. 마지막 층에 한
개의 노드만을 설정한 것은 예측값을 구하기 위함이다. 모델을 학습할 때에는 절
댓값 평균오차(mean absolute error) 방식으로 학습을 하였으며, 오차의 최저점
한우 수급 예측모형 경진대회 17
을 찾아내는 최적화 방법(Optimizer)으로는 아담(Adaptive Moment Estimation,
Adam) 최적화 함수를 사용하였다. 이 외에 에포크(Epoch)와 배치(Batch) 크기는
각각 90번, 72번으로 정했다.
LSTM 모델은 최초 가중치를 임의로 부여한 뒤, 학습을 시작하기 때문에 최초
가중치를 어떻게 주냐에 따라 예측값이 달라진다. 이에 따라 보다 로버스트
(robust)한 모델 성능을 위해, 동일한 모델에 대해 100번 시뮬레이션을 반복한 뒤,
각 예측 시점별 결과값들의 평균으로 최종 예측값을 도출하였다.
최종 예측값은 사용하는 설명변수와 예측 시점의 이전 몇 단계까지의 시계열 자
료를 포함할 것(time lag)이지에 따라 달라지기 때문에, 여러 값이 존재한다. 여러
모델의 성능을 평가함에 있어서는, 최종 예측값과 실제값의 평균 제곱근 편차
(Root Mean Square Error, RMSE)를 사용하였다. 이 때 모든 시점의 가중치를
동등하게 부여하는 경우뿐 아니라, 가까운 예측시점의 중요도를 더 높게 반영하기
위해 서로 다른 가중치를 부여하여 결과를 비교하기도 하였다. 자세한 내용은 다
음 절에서 소개하도록 한다.
3.4 설명변수 및 모델 비교
구분 변수명 변수설명
1 Price 해당 주차1kg당 경락가격(한우,거세우)
2 Supply 해당 등급의 도축두수
3 S_Ratio 해당 등급이 전체 도축두수에서차지하는 비율
4 S_Ratio2 해당 등급이 상위 등급의도축두수에서차지하는 비율
5 Month 해당 주차가 속한 달
6 Relief_funds 해당 주차의 재난지원금 지급 금액
7 Num_holi 해당 주차 내 공휴일 수
8 Num_holi2 해당 주차 내 연휴(설, 추석) 수
9 Holi_bf 해당 주차가 연휴로부터 몇 주 전에 위치한 주인지.
10 (공판장이름)_open_days 해당 주차 동안 특정 공판장이 개장한 횟수
11 NationWide_open_days 해당 주차 동안 개장한 전체 지역별 공판장 횟수
12 Monthly_Import 월별 쇠고기 수입량
표 8. 모델 추정에 사용된 변수
한우 수급 예측모형 경진대회
18
본 연구에서는 지육 경매시장에서의 수요자가 중도매인이라는 점에 착안하여,
설명변수를 선택하였다. 중도매인들은 직접 거래처를 운영하거나, 거래처와 계약
을 맺은 중간 유통업자인 경우가 대다수이다. 따라서 이들이 낙찰가를 제시할 때
고려하는 요인을 관찰하고 이와 관련된 설명변수를 포함하도록 하였다. 표 6은 이
러한 목적으로 모은 사용변수들과 해당 변수에 대한 설명을 포함하고 있다.
먼저, 해당 주차에서 거래처와의 수급을 달성하기 위해 고려하는 대상에 관한
변수(2번 ~ 4번)들이 있다. 해당 변수들은 소매점 혹은 가공업체로부터 약속받은
수급 물량을 맞추기 위해서 가장 먼저 고려되는 요소로, 해당 육질 등급의 물량이
해당 주차에 얼마나 많이 공급되었는가에 관한 변수이다. 이는 경매참여자가 모두
가 정보를 공유한 상황에서 경쟁하는 경매시장 특성상, 공급물량에 따라 낙찰희망
가가 민감하게 반응하는 변수들에 해당한다.
다음으로 시장 수요와 관련된 변수들이 있다. 사치재에 속하는 한우(Ref: 쇠고
기이력제를 활용한 축산관측 고도화 연구)의 경우, 가격의 변화에 따라 시장 수요
가 민감하게 반응하는 재화이다. 따라서 해당 사실을 고려하여, 한우 특가 판매가
진행되는 특정 달에 대한 정보를 활용하거나(5번), 가계에 직접 지급되었던 재난
지원금 금액(6번)을 사용하였다. 뿐만 아니라, 전통적으로 한우 소비량이 많아지는
공휴일 및 연휴에 대한 정보를 포함하기 위한 변수(7번 ~ 9번)를 포함한다.
이외에도, 공판장 개장일 횟수(10번, 11번)과 월별 쇠고기 수입량(12번)도 고려
대상에 추가함으로써, 각각 수급물량을 얻기 위한 경쟁적 요소와 시장 수요를 반
영하고자 했으나, 해당 변수들은 최종 모델 비교 결과 선택되지 않았다.
구
분
사용변수
동등 평균 가중 평균
lag = 1 lag = 2 lag = 3 lag = 4 lag = 1 lag = 2 lag = 3 lag = 4
1 전체 변수 685.15 523.83 504.22 449.47 467.12 526.06 339.95 393.12
2 10번 제외 1022.33 563.29 381.37 545.52 713.15 363.66 265.23 355.04
3 10, 11, 12번 제외 934.51 605.71 107.03 625.68 647.06 490.07 108.06 403.81
4 10, 11, 6번 제외 894.07 563.54 863.15 677.95 625.55 364.09 567.02 431.82
5 6, 10, 11, 12번 제외 896.88 886.88 527.91 783.86 611.18 580.34 356.22 524.77
표 9. 모델 평가
한우 수급 예측모형 경진대회 19
최종 모델을 비교한 결과는 표 7과 같으며, 이 때 동등 평균이란 모든 시점의
가중치가 동일한 경우(0.25, 0.25, 0.25, 0.25)를, 가중 평균이란 가까운 주차의 예
측정확도에 더 큰 가중치를 부여한 경우(0.4, 0.3, 0.2, 0.1)를 의미한다. 두 가지
경우 모두, 2번에서 9번까지의 변수를 사용한 뒤, 앞선 3시점(주차)까지의 값을 활
용할 때에 가장 높은 정확도를 보임을 확인할 수 있었다. 이를 그림으로 확인하면
그림 6과 같다. 좌측의 그림은 100번 시뮬레이션한 결과값을, 우측의 그림은 최종
적으로 선택되는 예측값(평균)과 시뮬레이션 결과 시점별 분위값(1사분위, 4사분
위)을 활용해 그린 그림이다. 실제 1++A 등급의 한우 거세우 전국 평균 경락가격
의 추세와 동일하게 9월 중순에 들어 가격이 상승하는 것을 확인할 수 있으며, 오
차의 크기도 매우 작음(106.55원)을 확인할 수 있다.
4. 결론
본 연구의 의의는 공판장에서 경락가격이 결정되는 과정을 이해하고 도축두수와
낙찰가의 개별 특징에 맞추어, 서로 다른 방식으로 예측 모형을 적용한 뒤에 이를
통합함으로써 경락가격 예측력을 높였다는 데에 있다. 계절성이 뚜렷한 도축두수
는 송아지 생애주기곡선이라는 잠재적 변수가 존재함을 파악한 뒤 이를 도출하였
다. 도체중이라는 잠재변수가 포함되어 있는 경락가격에 대해서는 수요의 비선형
그림 6. 최종 예측값과 실제값 비교
한우 수급 예측모형 경진대회
20
성을 보다 더 잘 파악할 수 있는 머신러닝 기법인 LSTM을 적용하였다. 경락가격
은 중도매인들의 수요가 반영되어 있어, 보다 수요에 밀접한 변수를 포함함으로써
정확도를 더 높일 수 있을 것으로 기대한다. 예를 들어, 해당 주차의 공판장에 참
여한 중도매인 수를 파악할 수 있다면, 경매라는 상황을 고려할 때 더 좋은 예측력
을 보일 수 있을 것으로 기대한다. 또한, 이를 통해 예측된 공급 및 수요와 실제
경락가격 및 공급 두수를 비교하면, 공급 과잉이나 부족 등 한우 시장의 상황에
대한 보다 정확한 판단이 가능할 것으로 기대할 수 있다. 본 연구에서 시도한 공급
-수요 2단계 가격 예측 모형이 이후 다른 연구의 초석이 되어 더욱 발전하기를 기
대하는 바이다.
한우 수급 예측모형 경진대회 21
참고 문헌
조성인, 배영민. 1997. “신경회로망을 이용한 한우의 산지 가격 예측.” 「한국농업기계학회 1997
년도 동계 학술대회 논문집」 330-335
Bengio, Yoshua, et al. "Global optimization of a neural network-hidden Markov
model hybrid." IEEE transactions on Neural Networks 3.2 (1992): 252-259.
Bengio, Yoshua, Paolo Frasconi, and Patrice Simard. "The problem of learning
long-term dependencies in recurrent networks." IEEE international confer-
ence on neural networks. IEEE, 1993.
Hochreiter, Sepp, and Jurgen Schmidhuber. "Long short-term memory." Neural
computation 9.8 (1997): 1735-1780.
Mozer, Michael C. "Induction of multiscale temporal structure." Advances in neural
information processing systems. 1992.
Manish Kumar Goel, Pardeep Khanna, and Jugal Kishore. "Understanding survival
analysis: Kaplan-Meier estimate." 2010.

More Related Content

Featured

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Project for Public Spaces & National Center for Biking and Walking
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
Erica Santiago
 

Featured (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

한우 경락가격 예측 고도화

  • 1. 한우 수급 예측모형 경진대회 1 한우 경락가격 예측 고도화 도축두수와 경락가격의 특징별 모델 적용을 통한 예측 고도화 이해환, 정동훈, 민동은, 박지원*1 Key words 생존분석(survival analysis), LSTM(Long Short-Term Model), 경락가격 예측 ABSTRACT This paper presents a model for predicting the auction price of Korean beef(steer) for each week. The beef price prediction process consists of two steps. First, we predict the supply by estimating the number of slaughtered steer for each week. The supply is estimated by deriving the survival function of calves by age and then applying it to the number of livestock counted monthly. Then, the demand price prediction for the given supply is done by using an LSTM model. The LSTM model is a machine learning model speci- alized in predicting variables including time series data. Its prediction power is improved by applying the selected main variables for each week to the model. We use different algorithms in predicting the supply and demand price for two reasons: first, we aim to best describe the specific characteristics of the steer auction market, and therefore increase the model accuracy by suffi- ciently reflecting the different features in each part. By presenting a price pre- diction model composed of these two steps, we intend to help livestock farm- ers accurately predict their household income. 차례 1. 서론 2. 공급 두수 예측 3. 경락 가격 예측 4. 결론 * 연세대학교 통계데이터사이언스학과 소속 대학원생.
  • 2. 한우 수급 예측모형 경진대회 2 1. 서 론 한우 지육이 거래되는 공판장은 큰 의미를 가진다. 공판장 거래대금이 대다수 축산농가의 주 수입원일 뿐 아니라, 이곳에서 결정된 경락가격이 곧 소비자 가격 으로 이어져, 한우 시장 전체에 지대한 영향을 끼치기 때문이다. 따라서 경락가격 을 예측하는 일은 축산농가뿐 아니라 한우 수급과 관련된 모든 의사결정권자들에 게 중요한 이슈일 수밖에 없다. 본 논문은 한우 거세우 경락가격 예측에 초점을 맞추어 진행하였다. 경락가격은 공판장에서 경매를 통해 결정된 가격이다. 경매시장의 경우, 공급에 해당하는 도축두수가 축산농가에 의해 선제적으로 결정이 되고, 가격은 그 이후 시장참여자들에 의해 결정된다는 점에서 수요와 공급이 동시에 청산되는 경쟁시 장과 큰 차이점을 가지고 있다. 이로 인해, 축산농가는 완전경쟁시장의 공급자에 비해 낙찰된 경락가격에 끼칠 수 있는 영향력이 적다. 대신, 축산농가는 공판장에 제공하는 도축두수를 제어함으로써 지육 시장에 영향력을 행사한다. 따라서, 올바 른 경락가격 예측모형은 축산농가가 출하하는 도축두수를 예측하고, 이를 주어진 공급으로 인식하여 최종 가격을 예측하는 일련의 과정을 포함하고 있어야 한다. 본 연구는 도축두수와 경락가격의 개별 특징을 우선 파악하고 각 변수별로 적합한 모델을 선정함으로써 경락가격이 결정되는 실제 과정을 최대한 유사하게 추적하 고 이를 통해 가격 예측력을 개선하고자 한다. 2장에서는 경매시장의 공급에 해당하는 도축두수 예측을 다룬다. 월별 도축두 수는 강한 주기성을 띄는데, 이는 송아지 출생두수의 계절성과 관련이 깊다. 본 연 구는 공급량이 출생두수의 절대적 크기를 감안하면 안정적인 시계열 자료 형태를 띄고 있다는 점과 월령별 사육두수 데이터에서 파악한 월별 도축비율이 매우 일정 하다는 점에 착안하여 공급량을 예측한다. 마지막으로, 주차별 가격예측을 위해서 월별 도축두수 예측량을 주차별로 분할하는 과정이 필요하다. 이 때에 요일별 도 축두수 가중치와 연휴로 인한 개장 유무를 반영함으로써, 주차별 도축두수 예측에 정확성을 기했다. 3장에서는 경락가격 예측에 대해 다룬다. 경락가격은 주어진 공급량에 대한 수 요를 의미하는 것으로, 월별 도축두수와 달리 분명한 주기성을 띄지 않을 뿐더러,
  • 3. 한우 수급 예측모형 경진대회 3 도축두수와의 관계도 일반적으로 기대하는 수요곡선 형태와 달리 무작위적인 모 습을 띄고 있다. 이는 기존 모델이 강조하는 선형적 관계성만으로 의미있는 가격 예측이 어려움을 의미하며 가격 예측력에 초점을 맞춘 새로운 모델 선택이 필요함 을 뜻한다. 본 연구는 주기성을 파악하기 힘든 시계열 자료의 예측에 탁월한 LSTM 모델을 활용, 예측 정확도를 높이고자 했다. 본 장에서는 이 때 활용한 모델 과 변수의 결과물을 요약하여 보여주고자 한다. 4장에서는 최종적으로 공급과 수요를 연결함으로써, 실제 9월 달 1++A 등급의 거세우 경락가격을 예측함과 동시에, 다른 등급의 경락가격에 대한 유추과정을 살 핀다. 이를 통해 본 연구의 모델을 활용할 경우, 실제 축산 농가가 어떻게 각 등급 별 경락가격을 파악하게 되는 지 요약하였다. 마지막으로 이를 추세선을 반영한 지표와 함께 제시함으로써, 축산 농가뿐 아니라 향후 예측가격이 한우 시장의 경 기변동에서 어디에 위치하는지 쉽게 이해할 수 있도록 하였다. 5장에서는 본 연구의 의의와 함께, 가지고 있는 한계점과 이를 극복할 수 있는 방법을 제안하고자 한다. 특히 현재 수집된 데이터가 가지는 오차를 제시함과 더 불어 가격 예측에 정확도를 높여줄 것으로 기대되는 추가적인 설명변수를 제안함 으로써, 한우 축산농가의 안정적 수급에 더 기여하고자 함이다. 2. 공급 두수 예측 본고의 구성은 다음과 같다. 제1절은 공급 측면의 도축두수 예측 과정에 대해 개괄적으로 설명한다. 제2절은 카플란-마이어 추정을 통한 생애주기 파악 방법에 대해 설명하며, 이어서 제3절에서는 파악된 생애 주기를 통해 계산되는 21~36개 월령 소의 예상 도축두수를 보인다. 제4절은 월별 가중치를 곱한 최종 예상 도축 두수를 보인다. 마지막 제5절은 월별 예상 도축두수를 주차별로 나누는 과정을 설 명한다. 2.1. 공급 측면 도축 두수 예측모델 구축
  • 4. 한우 수급 예측모형 경진대회 4 공급부문에서는 통계 방법론을 이용하여 소의 생애주기를 파악하고 공급측면 도 축두수를 예측하고자 한다. 소를 도축하기 위해서는 최소 21개월에서 36개월 이 상 사육하는 기간이 필요한데 소의 생애주기를 파악하면 공급의 대상이 되는 사육 두수를 예측할 수 있다. 또한 도축두수의 경우 설‧추석의 명절이 있는 1월과 8~9 월에 도축두수가 급격히 증가하는 등의 정형화된 패턴을 보이기 때문에 월별 특성 을 고려하여 공급을 예상하여야 한다. 주 1) 도축두수가 1월, 8월, 9월에 증가하는 패턴이 연도마다 반복되는 계절성을 확인할 수 있음 자료 : 소 도축; 축산물 이력제 시스템 따라서, 공급측면 도축두수를 예측을 위해서 먼저, 1) 생존분석 통계기법인 카 플란-마이어 추정량(Kaplan-Meier Estimator)을 계산하여 한우 생애 주기를 파 악하고, 2) 생존 분석을 통해 구한 생존 함수(Survival Function)로 공급의 대상이 되는 21~36개월령 소의 예상 도축두수를 구한 후, 3) 예측하고자 하는 월(month) 에 해당하는 월별 가중치를 곱하여 최종적인 도축두수를 예측하였다. 최종적으로 모델의 정확도를 판단하기 위해, 예측한 공급 두수 값을 이력제 시스템에서 제공 하는 실제 도축두수와 비교하였다. 그림 1. 5개년(2016~2020) 월별 도축두수
  • 5. 한우 수급 예측모형 경진대회 5 2.2. 카플란-마이어 추정을 통한 생애주기 파악 2.2.1. 카플란-마이어 추정 카플란-마이어 추정(Kaplan-Meier Estimation)은 시점 이후 생존할 확률인 생존 함수의 추정량을 구하는 방법으로, 각 시점에서의 생존율을 계산한다. 카플란-마이 어 추정량의 수식은 다음과 같다.        ≦           은 시점에 관찰 가능한 대상의 수, 은 시점에 사망한 대상의 수를 말한다. 예를 들어,    이후 살아 있을 확률은   에서 생존한 대상이    와   에서 모두 생존할 확률을 구해야하기 때문에 각 시점에서의 생존율의 곱으로 나타내어야 한다. 즉, 카플란-마이어 추정은 생존함수의 추정량을 시점까지 각 시 점에서의 생존할 확률, 현존하는 대상 중에서 사망하지 않고 생존하는 대상이 차 지하는 비율의 곱으로 표현할 수 있다고 말한다. 본 연구에서는 월령별 사육두수 데이터를 이용하여 소의 월령별 생존율을 계산 하고자 한다. 카플란-마이어 추정에서 각 시점마다 관찰 가능한 대상의 수에 대한 생존 대상의 수의 비율 곱을 할 때, 이전 시점에서 생존 대상의 수와 현재 시점의 관찰 가능한 대상이 동일한 경우에는, 최종적으로 시점에서의 추정량은   일 때 관측한 전체 대상 중에서 시점에 생존한 대상이 차지하는 비율과 같아진다. 월령별 사육두수는 소가 출생한 시점부터 도축‧폐사되기까지 생존한 대상의 수를 가리키므로 소의 생존율 및 생애주기를 파악하기에 적합하다고 판단하였다. 2.2.2. 월령별 한우 사육두수 데이터 축산물 이력제 시스템에서 제공하는 월령별 사육두수 데이터는 3개월령 이하, 4개월령, …, 36개월령, 37개월령 이상인 소의 사육두수를 2017년 9월부터 2021
  • 6. 한우 수급 예측모형 경진대회 6 년 3월까지 기록한 데이터이다. 월령별 사육두수 데이터에서 정확한 사육두수를 파악할 수 있는 월령은 4개월부터 36개월까지이므로 본 절에서는 전체 도축두수 중 4~36개월령이 차지하는 비율이 97% 이상인 거세우의 생애주기를 추정하고자 한다. 4개월령의 소가 36개월령이 되기까지 사육두수를 관측 가능한 월은 2017년 9월 부터 2018년 6월까지, 총 10개월이다. 아래 표는 10개의 월에 대하여 4개월령 소 가 36개월령이 될 때까지 거세우 사육두수의 변화를 보여주는 데이터의 일부이다. 자료: 월령별 한우 거세우(수소) 사육두수; 축산물 이력제 시스템 2.2.3. 거세우(수소) 생애주기 파악 월령별 사육두수 데이터를 통해 개월이 지나면서 사육두수가 감소하는 것을 살 펴볼 수 있다. 카플란-마이어 추정량을 계산하기 위해서는 각 시점에서의 사육두 수를   일 때 전체 사육두수로 나누어야 하므로, 각 개월의 사육두수를 4개월 령부터 36개월령까지의 사육두수 중 최댓값으로 나누어 부터 까지의 수로 나타 내었다. 그림 2를 통해 10개월에 대해서 사육두수가 동일한 비율로 감소하고 있다는 것 을 알 수 있다. 또한, 각 월령에서 차지하는 비율을 소의 ‘생존율’로 정의하였다. 월 4개월령 사육두수 월 36개월령 사육두수 2017년 9월 46,309 … 2020년 5월 1,024 2017년 10월 35,323 … 2020년 6월 965 2017년 11월 30,765 … 2020년 7월 902 2017년 12월 23,764 … 2020년 8월 675 2018년 1월 22,945 … 2020년 9월 630 2018년 2월 20,464 … 2020년 10월 590 2018년 3월 21,256 … 2020년 11월 667 2018년 4월 24,289 … 2020년 12월 844 2018년 5월 29,631 … 2021년 1월 778 2018년 6월 53,995 … 2021년 2월 1,189 표 2. 월령별 한우 거세우(수소) 사육두수 데이터
  • 7. 한우 수급 예측모형 경진대회 7 10개월 모두 초기에는 큰 변화를 보이지 않다가 26개월령 전후부터 생존율이 급 격히 감소하는 형태를 보이고 있는데, 상대적으로 아래쪽에 위치한 2017년 11월 과 2018년 1월을 제외한 8개월의 평균값을 구하여 최종 월령별 생존율을 계산하 였다. 이때, 시작점인 4개월령 사육두수로부터 개월이 지나면서 비율 변화를 살피 기 위해 시작점인 4개월령일 때의 생존율 값이 1이 되도록 설정하였다. 그림 2. 거세우(수소) 월령별 생존율 그림 3. 거세우(수소) 평균 생존율
  • 8. 한우 수급 예측모형 경진대회 8 2.3. 21~36개월령 거세우 예상 도축두수 예측 2.3.1. 21~36개월령 거세우 예상 사육두수 계산 앞서 카플란-마이어 생존분석을 통해 구한 생존함수(Survival function)을 이 용하면 4개월령의 소가 개월령이 되었을 때의 예상 사육두수를 계산할 수 있다. 개월령 예상 사육두수 = 4개월령 사육두수 × 개월령 생존율 다음으로, 사육두수의 감소율로 도축량을 계산하여 목표 월의 공급 대상인 21~36개월령 사육두수를 계산할 수 있다. 사육두수의 감소에는 도축 외에 다른 요 인이 작용할 수 있지만, 폐사의 경우 21개월령부터 36개월령까지 각 월령에서의 폐사두수가 전체 폐사두수 중 차지하는 비율이 대부분 1% 이내이므로 월령의 사 육두수 감소의 주요 원인을 도축으로 판단하였다. 월령 폐사두수 비율(%) 21개월 1,848 1.0003 22개월 1,825 0.9908 23개월 1,834 0.9957 24개월 1,820 0.9881 25개월 1,807 0.9811 26개월 1,766 0.9588 27개월 1,792 0.9729 28개월 1,772 0.9621 29개월 1,767 0.9594 30개월 1,763 0.9572 31개월 1,425 0.7737 32개월 1,177 0.6390 33개월 848 0.4604 34개월 695 0.3773 35개월 647 0.3513 36개월 528 0.2867 전체 184,187 100 표 3. 21~36개월령 폐사두수 및 비율
  • 9. 한우 수급 예측모형 경진대회 9 주 1) 전체 폐사두수에서 21~36개월령이 차지하는 비율은 각각 1% 이내인 경우가 대부분임. 자료: 소 폐사; 축산물 이력제 시스템 2.3.2. 21~36개월령 거세우 도축률 및 예상 도축두수 계산 개월령의 소가   개월령이 될 때 감소하는 소의 생존율을 ‘도축률’로 정의 하고, 해당 월령의 예상 사육두수에 이를 곱하여 ‘예상 도축두수’를 계산한다. 개월령 도축률 = 개월령 생존율 -   개월령 생존율 개월령 예상 도축두수 = 개월령 예상 사육두수 × 개월령 도축률 그런데 이때, 월령별 사육두수 데이터에 37개월령 사육두수에 대한 정보가 존재 하지 않으므로, 이 후 개월령의 소들에 대한 생존율 구할 수 없다. 따라서 30개월 령 이상에 해당하는 생존율 값들을 로그 변환(log-transformation) 후, 선형회귀 (linear regression)식에 적합 시켜 예측 값을 구한 뒤 역변환한 함으로써 37개월 령의 생존율을 대체(impute)하였다. 그림 4. 로그생존율 선형회귀식 적합 주 1) 30개월 이상 월령의 생존율을 로그 변환하여 선형 회귀식에 적합하였음
  • 10. 한우 수급 예측모형 경진대회 10 주 1) 시작점인 4개월령에서 1의 값을 갖도록 각 월령별 생존율을 4개월령 생존율로 나누어주었음. 2) 도축률은 해당 월령의 생존율에서 다음 월령의 생존율 차로 정의하였음. 3) 36개월령 도축률은 30개월령 이상의 생존율을 로그변환하여 선형회귀식에 적합시킨 후 역변환하여 구한 값으로 대체하였음 2.4. 월별 가중치를 곱한 최종 예상 도축두수 계산 2.4.1. 월별 가중치 계산 소의 생애주기로 공급 대상이 될 수 있는 두수를 계산할 수 있지만 도축두수는 강한 계절성을 갖기 때문에 도축되는 월(month)에 따라 도축두수의 값이 크게 변 화한다. 따라서 목표 월에 도축되는 두수의 수를 정확히 예측하기 위해 도축의 월 별 특성을 반영하는 가중치를 계산하였다. 월별 가중치는 축산물 이력제 시스템에서 제공하는 2016년에서 2020년의 소 도 축 데이터를 이용하여 각 연도의 월별 도축두수를 정규화하여 계산하였다. 정규화 방법으로 사용한 ‘min-max scaling’은 최솟값과 최댓값()을 지정하여 실측값들 이 특정 범위 내에 들어오도록 조정하는 방법이다.      max  min   min   월령 생존율 도축률 (생존율의 차) 4개월령 1.0000 0.0028 5개월령 0.9972 -0.0044 6개월령 1.0016 0.0046 7개월령 0.9970 0.0140 … … … 33개월령 0.1177 0.0514 34개월령 0.0663 0.0238 35개월령 0.0425 0.0146 36개월령 0.0278 0.0119 표 4. 거세우(수소) 월령별 생존율 및 도축률
  • 11. 한우 수급 예측모형 경진대회 11 min-max scaling에서 통상적으로 [0,1]의 범위를 많이 사용하나, 앞서 구한 21~36개월령 소의 예상 도축 두수가 실제 도축 두수와 비교하였을 때 균일하게 작은 값을 보였기 때문에, 월별 가중치는 0.5 이상의 값으로 주고자 scaling의 범 위(range)를 [0.5, 2]로 사용하였다. 월별 가중치의 값은 아래 표와 같다. 2.4.2. 월별 거세우(수소) 도축두수 예측 월령별 사육두수 데이터를 이용하여 21~36개월령 소를 공급 대상으로 가질 수 있는 월을 구하면 2020년 5월부터 2022년 8월까지이다. 해당 월의 가중치를 21~36개월령 예상 공급 두수에 곱함으로써 월별 예상 도축두수를 계산할 수 있다. 목표 월의 예상 도축두수 = 월 가중치 ×      개월령 예상 도축두수 예측한 도축두수와 비교를 위해 축산물품질평가원에서 제공하는 거세우 경락두 수를 검정 데이터로 사용하였다. 비교 결과, 도축두수의 추세는 정확히 예측하고 있으나, 2020년 8, 9월에 예측한 두수보다 실제는 만(10,000)두 이상 적게 도축되 었다는 것을 확인할 수 있다. 월 가중치 1월 1.903 2월 0.558 3월 0.762 4월 0.952 5월 0.856 6월 0.803 7월 0.819 8월 1.263 9월 1.497 10월 0.844 11월 0.878 12월 1.172 표 5. 월별 가중치
  • 12. 한우 수급 예측모형 경진대회 12 예측력 검정에는 MAE(Mean absolute error), MAPE(Mean absolute percentage error), MSE(Mean square error) 등을 사용할 수 있는데 본 절에서 는 측정 단위에 영향을 받지 않는 MAPE를 평가방식으로 선택하였다. MAPE는 실 제값에 대한 추정 오차의 상대적인 크기를 표현한다.                 는 관측기간(표본)의 수, 와  는 각각 실제값과 예측값을 말한다. 검정 결과, MAPE 값이 22.34%로 도출되었다. 앞서 언급한 것처럼 2020년 8, 9월의 차이가 MAPE의 수치에 영향을 끼친 것으로 보인다. 하지만, 2020년 하반기 이후부터 예 측력이 높아지는 것을 확인하여, 월별 예상 도축두수 데이터를 사용하여 공급 두 수를 예상하기로 하였다. 2.5. 주차별 도축두수 계산 앞 절에서, 도축 두수는 월별로 예측하였다. 하지만 거세우 경락 가격 예측에서 는 도축두수를 주차별로 활용한다. 해당 주차는 월요일이 시작으로 토요일과 일요 일에는 도축이 거의 일어나지 않아 금요일을 끝으로 한다. 이처럼 도축 두수 자료 의 단위가 다르기 때문에 월별 자료를 주차별로 나누어주어 단위를 통일시킬 필요 가 있다. 이때 문제가 발생하는데, 아래 2021년 9월의 달력을 예시로 설명하겠다. 그림 5. 예상 및 실제 월별 도축두수
  • 13. 한우 수급 예측모형 경진대회 13 월 화 수 목 금 토 일 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 2021년 9월 1 주차는 수요일부터 시작하기 때문에 해당 주차의 도축 두수는 8월 마지막 주차에 해당하는 도축 두수 정보(월, 화)를 활용하여야 한다. 마찬가지로 9월의 5주차는 목요일에 끝나므로, 10월의 1 주차에 해당하는 도축 두수 정보가 필요하다. 따라서, 월별 도축 두수를 주차별 도축 두수로 변환하는 작업은 아래의 유사 순서도(pseudo algorithm)을 따른다. 변환하는 작업에 요일별 도축 두수 비 율 정보를 활용하고 각 값은 아래의 표와 같다. 1. 월에서 각 주차  별로 포함된 요일을 구하여,  별로 도축이 된 정도  를 계산한다. 이때,  는 에서  까지이다.   월  화  수  목  금 , 요일   if 공휴일 혹은 미해당일 요일별 도축 두수 비율  . 예를 들어, 2021년 9월의 1 주차의  은 0.657(0.258+0.244+0.155)이다. 2. 월의 도축 두수 도축두수 를 각 주차  별로 앞서 계산한 도축된 정도  에 따라 비례배분한다. 도축두수⋯도축두수 ←도축두수 도축두수         도축두수 ×  3. 월의 1 주차와 마지막 주차가 월-금의 요일을 포함하고 있는지를 판단하고, 요일 월 화 수 목 금 계 도축 두수 비율 0.066 0.227 0.258 0.244 0.155 1.000
  • 14. 한우 수급 예측모형 경진대회 14 빠져있는 요일이 있다면, 그 전 월의 마지막 주차 혹은 그 다음 월의 1 주차의 값을 가져와 병합하면 매 주차별 도축 두수를 얻어낼 수 있다. 주차별 도축두수  도축두수  도축두수     if 월   주차별 도축두수    도축두수      ⋯   주차별 도축두수      도축두수  도축두수   if 금   3. 거세우 경락 가격 예측 본 장에서는 거세우 경락가격이 가지는 특징을 살펴보고, 이러한 특징을 반영할 수 있는 모델을 적용한 경락가격 예측 모형과 그 결과값을 소개하고자 한다. 사용 데이터는 2015년 첫 주차(1월 5일 ~ 1월 11일)부터 2021년 9월 둘째 주(9 월 6일 ~ 9월 12일)까지 포함하는 총 349주차에 해당하는 주차별 전국 평균 경락 가격으로, 축산물품질평가원 축산유통정보를 통해 구한 자료이다. 이때 언급한 평 균 경락가격이란, 전체거래대금을 전체거래중량으로 나눈 값으로 단위는 원/kg이 며, 자세한 산출방식은 아래와 같다. 본 장에서는 1++A 등급의 거세우에 초점을 맞춤으로써 논의를 진행한다. - 전체거래대금 = (낙찰된 도체의 도체중(kg) x 당해도체의 경락단가(원))의 합계 - 전체거래중량 = 낙찰된 도체의 도체중(kg)의 합계 3.1. 경락가격과 도축수량의 선형성 고찰 본 절에서는 경락가격의 유의점을 살펴보고자 한다. 관심 변수의 특징을 잘 반 영할 수 있는 모델을 선택하는 것이 모델 정확성을 높일 뿐 아니라, 사후적으로 모델을 해석할 때에 오해의 소지를 줄이기 때문에, 이를 잘 파악하는 일이 중요하 다. 해당 과정을 간단한 사례를 통해 제시함으로써, 고전적 시계열 분석 방식이 가 질 수 있는 한계점을 설명하고자 한다.
  • 15. 한우 수급 예측모형 경진대회 15 경락가격의 가장 큰 특징은, 해당 가격이 도축된 거세우의 낙찰가를 뜻하는 것 이 아니라 낙찰가를 해당 도체의 도체중으로 나눈 값이라는 점이다. 따라서 관측 하고자 하는 경락가격은 도체중이라는 잠재변수와 관계성을 띄고 있다. 일반적으 로 동일한 육질 등급의 거세우라고 할지라도, 도체중 증가에 따라 중도매인들의 낙찰희망가가 선형적으로 증가하는 것이 아니라, S자 형태로 증가한다. 즉, 중도 매인들은 동일한 조건의 지육에 대해서도 도체중에 따라 낙찰희망가를 다르게 평 가하며, 도체중과 희망낙찰가의 관계가 비선형 곡선에 가깝다라는 것이다. 예를 들어 300kg 도체중을 가지는 한우가 3백만원에 거래된다고 하더라도, 600kg 도체 중의 동일한 등급의 한우는 6백만원이 아니라 그 이상 가격 - 예컨데 7백만원 - 에 거래가 되는 것이 일반적이다. 이 경우, 중도매인들의 수요가 전혀 변하지 않음에도 연구자에게는 수요곡선 상 의 이동이 나타난 것으로 해석될 여지가 존재한다. 앞서 예시에 따르면, 전자의 경 우 경락가격은 10,000(원/kg)인데 반해 후자는 11,666(원/kg)이 된다. 모든 수요변수 를 고정했음에도 불구하고, 동일한 1마리의 도축두수에 대해서 경락가격이 상승한 것이다. 만약 연구자가 경락가격에 내재된 도체중이라는 변수를 고려하지 못 한 채, 선형적 수요곡선만을 찾고자 한다면, 이를 설명하기 위해 불필요한 변수를 추 가하거나 혹은 잘못된 해석을 내릴 여지가 존재한다. 요약하면, 도매시장에서는 육질, 등급 외에 도체중 등의 기타 변수도 항상 함께 고려되어 최종 경락가격이 결정됨을 인식해야하며, 이에 따라 도체중 정보를 취득 하여 모델에 설명변수로 활용해야한다. 만약 이를 구할 수 없을 경우, 모델의 입력 (Input)과 출력(Output)간의 관계가 비선형일 가능성을 염두한 모델을 선택을 해 야만 할 것이다. 3.2. LSTM(Long short-term memory) 순환 신경망 (Recurrent nueral network, RNN)은 내부 순환 구조가 포함된 신 경망으로 시계열이나 자연어와 같이 순차적 자료를 학습하는 데에 사용된다. RNN 의 신경망 구조는 이론적으로 장단기 기억(Long Short-term memory) 모두에서 완벽하게 작동한다. 하지만 역전파 알고리즘(backpropagation algorithm)을 통 해 RNN을 최적화하면 국소 최적값(local optimal)에 빠지는 것을 발견하였다
  • 16. 한우 수급 예측모형 경진대회 16 (Bengio, 1992; Mozer, 1992). 이는 역전파 알고리즘을 통해 기울기가 전달됨에 따라 점차 0에 가까워지는 기울기 소실 문제(vanishing gradient problem)로 인 한 것으로 밝혀졌다(Bengio, 1993). 이것이 바로 장기 의존성 문제(the problem of Long-Term Dependencies)이다. LSTM(Hochreiter, 1997)은 3개의 게이트(gate)를 도입함으로써 역전파 알고리 즘으로 학습하더라도 장기 의존성 문제를 극복하였다. 망각 게이트(forget gate) 를 통해 직전 정보를 잊을 지 말 지 결정하고, 입력 게이트(input gate)를 통해, 현재 정보를 저장할 지 말 지 결정한다. 결정된 두 정보를 활용하여 현재 정보를 갱신(update)하고 출력 게이트(output gate)를 통해 갱신된 정보를 얼마나 다음으 로 내보낼지 결정한다. LSTM은 학습된 3개의 게이트를 통해 망각할 정보와 기억할 정보를 판별하여 다음 정보에 계속 반영이 함으로써, 단기 의존적인 순차적 자료와 장기 의존적인 순차적 자료 모두에서 잘 작동한다. 다시 말해, LSTM은 장기 의존성이 담보된 상 태에서 부분적으로 잊기 때문에, 모든 시차에 대해 선별적으로 고려하는 모형인 것이다. 덕분에, 주기성이나 계절성이 인지적으로 뚜렷하지 않은 자료에서도 LSTM은 적절히 학습될 수 있다. 또한, 반영해야할 시차(time lag)를 도메인 지식 이나 데이터로 확인하기 어려울 때에도 LSTM은 그 특징을 잘 잡아낼 거라 기대할 수 있다. 마지막으로 LSTM은 DNN과 마찬가지로 관심변수와 설명변수 사이의 비 선형 관계도 잘 탐색하기에 우수한 예측력을 가진 모형이다. 3.3 LSTM 모델 설계 및 예측값 도출 방법 LSTM 모형은 여타의 신경회로망(Neural Network) 구조와 마찬가지로 은닉층 (hidden layer)의 갯수와 각 은닉층에서의 노드(node) 개수를 결정하는 일반적인 방법이 존재하지 않는다. 은닉층과 노드의 갯수를 과도하게 늘림으로써 과적합 (overfitting) 문제가 발생할 경우, 실제 모델 예측의 성능이 저하될 여지가 있기 때문에 본 연구에서는 최대 5개의 은닉층만을 사용하였으며, 각 은닉층이 가지는 노드 갯수는 100개, 50개, 50개, 50개 그리고 1개로 설정하였다. 마지막 층에 한 개의 노드만을 설정한 것은 예측값을 구하기 위함이다. 모델을 학습할 때에는 절 댓값 평균오차(mean absolute error) 방식으로 학습을 하였으며, 오차의 최저점
  • 17. 한우 수급 예측모형 경진대회 17 을 찾아내는 최적화 방법(Optimizer)으로는 아담(Adaptive Moment Estimation, Adam) 최적화 함수를 사용하였다. 이 외에 에포크(Epoch)와 배치(Batch) 크기는 각각 90번, 72번으로 정했다. LSTM 모델은 최초 가중치를 임의로 부여한 뒤, 학습을 시작하기 때문에 최초 가중치를 어떻게 주냐에 따라 예측값이 달라진다. 이에 따라 보다 로버스트 (robust)한 모델 성능을 위해, 동일한 모델에 대해 100번 시뮬레이션을 반복한 뒤, 각 예측 시점별 결과값들의 평균으로 최종 예측값을 도출하였다. 최종 예측값은 사용하는 설명변수와 예측 시점의 이전 몇 단계까지의 시계열 자 료를 포함할 것(time lag)이지에 따라 달라지기 때문에, 여러 값이 존재한다. 여러 모델의 성능을 평가함에 있어서는, 최종 예측값과 실제값의 평균 제곱근 편차 (Root Mean Square Error, RMSE)를 사용하였다. 이 때 모든 시점의 가중치를 동등하게 부여하는 경우뿐 아니라, 가까운 예측시점의 중요도를 더 높게 반영하기 위해 서로 다른 가중치를 부여하여 결과를 비교하기도 하였다. 자세한 내용은 다 음 절에서 소개하도록 한다. 3.4 설명변수 및 모델 비교 구분 변수명 변수설명 1 Price 해당 주차1kg당 경락가격(한우,거세우) 2 Supply 해당 등급의 도축두수 3 S_Ratio 해당 등급이 전체 도축두수에서차지하는 비율 4 S_Ratio2 해당 등급이 상위 등급의도축두수에서차지하는 비율 5 Month 해당 주차가 속한 달 6 Relief_funds 해당 주차의 재난지원금 지급 금액 7 Num_holi 해당 주차 내 공휴일 수 8 Num_holi2 해당 주차 내 연휴(설, 추석) 수 9 Holi_bf 해당 주차가 연휴로부터 몇 주 전에 위치한 주인지. 10 (공판장이름)_open_days 해당 주차 동안 특정 공판장이 개장한 횟수 11 NationWide_open_days 해당 주차 동안 개장한 전체 지역별 공판장 횟수 12 Monthly_Import 월별 쇠고기 수입량 표 8. 모델 추정에 사용된 변수
  • 18. 한우 수급 예측모형 경진대회 18 본 연구에서는 지육 경매시장에서의 수요자가 중도매인이라는 점에 착안하여, 설명변수를 선택하였다. 중도매인들은 직접 거래처를 운영하거나, 거래처와 계약 을 맺은 중간 유통업자인 경우가 대다수이다. 따라서 이들이 낙찰가를 제시할 때 고려하는 요인을 관찰하고 이와 관련된 설명변수를 포함하도록 하였다. 표 6은 이 러한 목적으로 모은 사용변수들과 해당 변수에 대한 설명을 포함하고 있다. 먼저, 해당 주차에서 거래처와의 수급을 달성하기 위해 고려하는 대상에 관한 변수(2번 ~ 4번)들이 있다. 해당 변수들은 소매점 혹은 가공업체로부터 약속받은 수급 물량을 맞추기 위해서 가장 먼저 고려되는 요소로, 해당 육질 등급의 물량이 해당 주차에 얼마나 많이 공급되었는가에 관한 변수이다. 이는 경매참여자가 모두 가 정보를 공유한 상황에서 경쟁하는 경매시장 특성상, 공급물량에 따라 낙찰희망 가가 민감하게 반응하는 변수들에 해당한다. 다음으로 시장 수요와 관련된 변수들이 있다. 사치재에 속하는 한우(Ref: 쇠고 기이력제를 활용한 축산관측 고도화 연구)의 경우, 가격의 변화에 따라 시장 수요 가 민감하게 반응하는 재화이다. 따라서 해당 사실을 고려하여, 한우 특가 판매가 진행되는 특정 달에 대한 정보를 활용하거나(5번), 가계에 직접 지급되었던 재난 지원금 금액(6번)을 사용하였다. 뿐만 아니라, 전통적으로 한우 소비량이 많아지는 공휴일 및 연휴에 대한 정보를 포함하기 위한 변수(7번 ~ 9번)를 포함한다. 이외에도, 공판장 개장일 횟수(10번, 11번)과 월별 쇠고기 수입량(12번)도 고려 대상에 추가함으로써, 각각 수급물량을 얻기 위한 경쟁적 요소와 시장 수요를 반 영하고자 했으나, 해당 변수들은 최종 모델 비교 결과 선택되지 않았다. 구 분 사용변수 동등 평균 가중 평균 lag = 1 lag = 2 lag = 3 lag = 4 lag = 1 lag = 2 lag = 3 lag = 4 1 전체 변수 685.15 523.83 504.22 449.47 467.12 526.06 339.95 393.12 2 10번 제외 1022.33 563.29 381.37 545.52 713.15 363.66 265.23 355.04 3 10, 11, 12번 제외 934.51 605.71 107.03 625.68 647.06 490.07 108.06 403.81 4 10, 11, 6번 제외 894.07 563.54 863.15 677.95 625.55 364.09 567.02 431.82 5 6, 10, 11, 12번 제외 896.88 886.88 527.91 783.86 611.18 580.34 356.22 524.77 표 9. 모델 평가
  • 19. 한우 수급 예측모형 경진대회 19 최종 모델을 비교한 결과는 표 7과 같으며, 이 때 동등 평균이란 모든 시점의 가중치가 동일한 경우(0.25, 0.25, 0.25, 0.25)를, 가중 평균이란 가까운 주차의 예 측정확도에 더 큰 가중치를 부여한 경우(0.4, 0.3, 0.2, 0.1)를 의미한다. 두 가지 경우 모두, 2번에서 9번까지의 변수를 사용한 뒤, 앞선 3시점(주차)까지의 값을 활 용할 때에 가장 높은 정확도를 보임을 확인할 수 있었다. 이를 그림으로 확인하면 그림 6과 같다. 좌측의 그림은 100번 시뮬레이션한 결과값을, 우측의 그림은 최종 적으로 선택되는 예측값(평균)과 시뮬레이션 결과 시점별 분위값(1사분위, 4사분 위)을 활용해 그린 그림이다. 실제 1++A 등급의 한우 거세우 전국 평균 경락가격 의 추세와 동일하게 9월 중순에 들어 가격이 상승하는 것을 확인할 수 있으며, 오 차의 크기도 매우 작음(106.55원)을 확인할 수 있다. 4. 결론 본 연구의 의의는 공판장에서 경락가격이 결정되는 과정을 이해하고 도축두수와 낙찰가의 개별 특징에 맞추어, 서로 다른 방식으로 예측 모형을 적용한 뒤에 이를 통합함으로써 경락가격 예측력을 높였다는 데에 있다. 계절성이 뚜렷한 도축두수 는 송아지 생애주기곡선이라는 잠재적 변수가 존재함을 파악한 뒤 이를 도출하였 다. 도체중이라는 잠재변수가 포함되어 있는 경락가격에 대해서는 수요의 비선형 그림 6. 최종 예측값과 실제값 비교
  • 20. 한우 수급 예측모형 경진대회 20 성을 보다 더 잘 파악할 수 있는 머신러닝 기법인 LSTM을 적용하였다. 경락가격 은 중도매인들의 수요가 반영되어 있어, 보다 수요에 밀접한 변수를 포함함으로써 정확도를 더 높일 수 있을 것으로 기대한다. 예를 들어, 해당 주차의 공판장에 참 여한 중도매인 수를 파악할 수 있다면, 경매라는 상황을 고려할 때 더 좋은 예측력 을 보일 수 있을 것으로 기대한다. 또한, 이를 통해 예측된 공급 및 수요와 실제 경락가격 및 공급 두수를 비교하면, 공급 과잉이나 부족 등 한우 시장의 상황에 대한 보다 정확한 판단이 가능할 것으로 기대할 수 있다. 본 연구에서 시도한 공급 -수요 2단계 가격 예측 모형이 이후 다른 연구의 초석이 되어 더욱 발전하기를 기 대하는 바이다.
  • 21. 한우 수급 예측모형 경진대회 21 참고 문헌 조성인, 배영민. 1997. “신경회로망을 이용한 한우의 산지 가격 예측.” 「한국농업기계학회 1997 년도 동계 학술대회 논문집」 330-335 Bengio, Yoshua, et al. "Global optimization of a neural network-hidden Markov model hybrid." IEEE transactions on Neural Networks 3.2 (1992): 252-259. Bengio, Yoshua, Paolo Frasconi, and Patrice Simard. "The problem of learning long-term dependencies in recurrent networks." IEEE international confer- ence on neural networks. IEEE, 1993. Hochreiter, Sepp, and Jurgen Schmidhuber. "Long short-term memory." Neural computation 9.8 (1997): 1735-1780. Mozer, Michael C. "Induction of multiscale temporal structure." Advances in neural information processing systems. 1992. Manish Kumar Goel, Pardeep Khanna, and Jugal Kishore. "Understanding survival analysis: Kaplan-Meier estimate." 2010.