파이썬 random forest 예제 - Trueson Construction

이 자습서에서는 임의포지의 포리스트가 무엇인지, 어떻게 작동하는지, 중요한 기능을 찾고, 임의의 포리스트와 의사 결정 트리, 장점과 단점을 비교하는 방법을 배웠습니다. 또한 scikit-learn에서 모델 구축, 평가 및 중요한 기능을 찾는 방법을 배웠습니다. B 안녕 제이슨, 나는 당신의 샘플 예제를 통해 RF를 배우려고합니다. 그러나 코드를 실행하는 동안 오류가 발생합니다. Ipython 노트북을 사용하고 있습니다. 이것은 비교적 작은 데이터 집합이므로 이 자습서의 앞에서 설명한 배깅을 사용하기 때문에 임의의 포리스트가 완벽한 모델입니다. 모델을 빌드하기 전에 모델에 대한 준비를 위해 데이터를 일부 변경해야 합니다. 다음은 이 자습서에서 사용할 데이터를 기반으로 하는 의사 결정 트리입니다. 나중에 임의 포리스트 모델을 빌드할 때 볼 수 있듯이 질문 A5는 데이터 집합에서 가장 강력한 기능입니다. 이것은 이미지의 의사 결정 트리에 의해 확인됩니다: 임의의 포리스트는 앙상블 학습을 기반으로 하는 감독된 기계 학습 알고리즘의 한 유형입니다. 앙상블 학습은 다양한 유형의 알고리즘 또는 동일한 알고리즘을 여러 번 결합하여 보다 강력한 예측 모델을 형성하는 학습 유형입니다. 임의 포리스트 알고리즘은 동일한 형식의 여러 알고리즘을 결합하여 여러 결정 트리를 생성하여 트리의 포리스트를 생성하므로 “임의 포리스트”라는 이름이 생성됩니다.

임의 포리스트 알고리즘은 회귀 및 분류 작업 모두에 사용할 수 있습니다. 이 예제에서는 각 추정기와 학습 포인트의 80%의 임의 하위 집합을 사용하여 데이터를 임의화했습니다. 실제로 의사 결정 트리는 분할이 선택되는 방식에 대한 일부 검색성을 주입하여 보다 효과적으로 무작위화됩니다. 예를 들어 분할할 피쳐를 결정할 때 임의트리가 상위 여러 피처 중에서 선택할 수 있습니다. Scikit-Learn 문서 및 참조에서 이러한 무작위화 전략에 대한 자세한 기술 정보를 확인할 수 있습니다. 랜덤 포리스트는 지니 중요도 또는 불순물(MDI)의 평균 감소를 사용하여 각 피처의 중요성을 계산합니다. 지니 중요성은 노드 불순물의 총 감소라고도 합니다. 변수를 삭제할 때 모델맞춤 또는 정확도가 감소하는 정도입니다. 감소가 클수록 변수가 더 중요합니다. 여기서 평균 감소는 변수 선택에 대한 중요한 매개 변수입니다.

Gini 인덱스는 변수의 전체 설명 능력을 설명할 수 있습니다. 단일 의사 결정 트리(위쪽)와 임의 포리스트(아래쪽)에 대한 ROC 곡선을 플롯할 수도 있습니다. 상단과 왼쪽에 곡선은 더 나은 모델입니다: 여기에서 자세히 알아볼 수 있습니다: https://machinelearningmastery.com/introduction-to-random-number-generators-for-machine-learning/ 임의의 포리스트의 주요 단점은 결과가 쉽지 않다는 것입니다. 해석 가능: 즉, 분류 모델의 의미에 대한 결론을 도출하려는 경우 임의포림이 최선의 선택이 아닐 수 있습니다. 피처 인덱스를 임의로 선택하고 목록(피처라고 함)에 추가하여 피처 목록이 생성되는 것을 볼 수 있으며, 이 피처 목록은 분할 점으로 평가된 학습 데이터 집합의 열거되고 특정 값이 열거됩니다. 간단하고 튜닝되지 않은 임의 포리스트는 숫자 데이터를 매우 정확하게 분류합니다.

Our Blog