일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 3000 port kill
- conda 기초 설정
- conda 가상환경 설정 오류
- 오블완
- time wait port kill
- conda base 활성화
- window netstat time wait 제거
- 실행중인 포트 죽이기
- conda base 기본 설정
- 티스토리챌린지
- 려려
- Today
- Total
목록K-디지털 빅데이터 분석서비스 개발자과정 20.11.02~21.04.12/PYTHON(웹크롤링, 머신·딥러닝) (29)
모도리는 공부중
저번시간에 다운로드한 영화리뷰데이터를 이용해서 오늘 수업 진행합니다. 앞 번호는 몇번 리뷰인지 알려주는 번호, 뒤 번호는 평점. 1~4점까지는 부정 리뷰라고 생각하여 부정폴더(neg)에 모두 모아놨다. 마찬가지. 대신 여기는 10~7점까지 긍정리뷰라고 판단하여 긍정폴더(pos)에 모두 모아놨다. 그렇다면 5,6점은 어디로 간걸까? - 애매한 판단. 긍정인지 부정인지 판단하기 어려운 평점이기 때문에 이 점수는 제외하고 뚜렷한 평가가 나타나는 점수만을 모아서 하는 것이 평가를 내릴 때 적합하다. 실제로는 판단 기준에 따라 5,6점도 필요할 수 있다. 하지만 오늘 수업할 부분은 실습 목표에 적합한 부분만 모았기 때문에 이처럼 빠지고 제외된 부분이 몇몇 있을 수 있으니 참고. 폴더 순서에 맞춰서 0번, 1번 이..
Decision Tree(결정트리) 직관적으로 이해하기 쉬운 알고리즘 데이터에 있는 규칙을 학습을 통해 자동으로 찾아냄 규칙은 예/아니오 로 대답할 수 있는 질문을 남김 매 / 펭귄 / 돌고래 / 곰을 나눠보자 Decision Tree(결정트리) 단점 결정트리는 수직적 구조로 인해 중간에 에러가 발생하면 다음 단계로 에러가 계속 전파 학습 데이터에 따라 생성되는 결정트리의 구조가 다르기 때문에 일반화하여 사용하기 어렵다. 결정트리는 과대적합을 막기 어렵다. Ensemble(앙상블) 앙상블(ensemble)은 여러 머신러닝 모델을 연결하여 더 강력한 모델을 만드는 기법 Decision Tree Ensemble(결정트리 앙상블) 개별 결정트리의 과대적합되는 단점을 보완하는 모델 다수결 법칙 또는 평균등으로 ..
어제 수업에 이어서 - 규제 강화 (alpha) Lasso 일부특성 사용x Ridge 모든특성 사용 이러한 이유로 모든 특성을 사용하는 Ridge모델이 일반적으로 점수를 더 잘 내는 특징을 가지고 있다. # alpha = 1 ridge = Ridge(alpha = 1) ridge.fit(extend_X_train, y_train) print('train score : ',ridge.score(extend_X_train,y_train)) print('test score : ',ridge.score(extend_X_test,y_test)) # 사용한 특성의 개수 print('사용한 특성의 개수 : ',np.sum(ridge.coef_!=0)) out : train score : 0.91879276992388..
어제 수업한 파일에 이어서 수업 시작. 예측값 def h(w,x,b): return w * x + b 비용함수 평균제곱오차(MSE) def cost(data, target, weight, intercept): # MSE 구하기 # 시간, 점수, 가중치, 절편 y_pre = h(weight,data,intercept) # 예측값 # y_pre = weight * data + intercept return ((y_pre - target)**2).mean() # 평균제곱오차(MSE) # (예측 - 실제) ← 오차 # **는 제곱(^2)을 뜻함. mean()은 평균. # 기울기 10, 절편 0 cost(data['시간'],data['성적'],10,0) out : 0.0 # 기울기 12, 절편 5 cost(dat..
머신러닝 개념 복습 머신러닝 ?? 데이터를 이용하여 특성과 패턴을 학습하고 그 결과를 바탕으로 새로운 데이터에 대해 결과를 예측하는 것 통계 기반 데이터 분석(기존) vs 머신 러닝 기반 데이터 분석(현재) 통계 기반 : 분석하는 사람의 지식에 따라 결과가 크게 달라질 수 있다. 머신러닝 기반 : 사람 + 머신러닝 (상대적으로 사람의 능력이 떨어져도 분석이 가능) 머신러닝 방법 지도학습 : 문제와 답(label)을 함께 보여주고 학습하는 방법 회귀 : 정답 데이터가 수치형 데이터 (ex. 키, 몸무게, 부동산가격) 분류 : 정답 데이터가 범주형 데이터 (ex. 등급, 학점(ABCD)) 비지도학습 : 답이 없는 데이터를 가지고 패턴을 찾고 싶을 때 사용하는 방법 군집 : 비슷한 데이터를 묶어서 그룹별 패턴..
오늘부터의 수업은 이명훈쌤이 진행합니다. ※머신러닝 진행과정※ 문제정의 (비즈니스 목적 정의, 현재 솔루션 구성파악) 데이터수집(Web Crawling) 데이터 전처리 (단위변환 새로운 속성 추출, 인코딩) EDA(탐색적 데이터 분석) (특성간의 상관관계 파악) 모델 선택 및 하이퍼파라미터 튜닝(직접 값을 변경시켜주어야 함) (ex. KNN : 이웃의수 조정:n_neighbors=n) 모델 학습(fit) 모델 평가(정확도, 재현율 등 확인) Decision Tree (결정트리) 타깃 값이 한 개인 리프 노드를 순수 노드라고 한다. 모든 노드가 순수 노드가 될 때 까지 학습하면 복잡해지고 과대적합이 된다. 새로운 데이터 포인트가 들어오면 해당하는 노드를 찾아 분류라면 더 많은 클래스를 선택하고, 회귀라면 ..
src를 가져오기 위한 클래스는 여기서 찾았고, ctrl + f ctrl + r 다시 갑작스럽게 검색
TCP/IP (Transmission Control Protocol / Internet Protocol) - 서로 다른 시스템을 가진 컴퓨터들을 서로 연결하고 데이터를 전송하는 통신규약 html / css / javascript 뼈대 / 가만히 있는 사람? / 활동적이게 해주는? ㅋㅋㅋㅋ css - 자주 사용하는 스타일(글자크기, 색깔, 배경색)을 변경해주는.. id를 명시할 때는 맨 앞에 항상 #을 넣어줘야 한다. → #list └ 하나 밖에 존재할 수 없음. 중복 불가. class는 항상 맨 앞에 온점(.)을 넣어줘야 한다. → .item └ 중복이 가능. 자식선택자 body > p { color : blue; } └ (body의 자식인 p)만 바꾸겠다. p 밑에 p가 또 있다면 그건 body입장에서..
카톡으로 받은 파일을 불러와서 데이터프레임으로 불러와주자. euc-kr과 utf-8은 한국어로 불러와라~ 라고 지정해주는 것이고, index_col은 데이터중에 내가 행으로 쓰고자 하는 것을 지정해주는 명령어. 이쯤에서 내가 헷갈리니 다시 짚고 넘어가자. 열계산과 행계산. 행계산의 경우 지금 데이터프레임에 합계가 추가되어 있다보니 원하는 값이 나오지 않기 때문에 위에서 사용한 식처럼슬라이싱을 해주는게 맞다. 최대값과 최소값 구하기 반별, 과목별로 최대값과 최소값을 구해보자! 선생님이 요구한 것과 다르게 하고 있던 사람.. 나야 나... 빵 터진 우리 팀원들 ㅋㅋㅋㅋㅋ 오늘의 꿀팁 마크다운 상태에서 f를 누르면 찾아서 바꾸기 기능을 사용할 수 있다. 한 번에 바꾸고자 하는 것을 워드작업할때처럼 가능하니 매..
PANDAS 심화 DataFrame 사용하기 실습에 필요한 파일 다운로드 받는 법 이지스퍼블리싱 검색 → 사이트 접속 후 왼쪽의 이지스퍼블리싱 클릭 → 상단 메뉴에서 자료실 클릭 → 책이름 검색 (생활프로그래밍) → 저자 깃허브 바로가기(클릭) 여기에서 우리는, → 05폴더 클릭 → apt.csv 클릭 → 오른쪽단추 눌러서 다른이름으로 파일 저장 여태 정돈되지 않은 리스트 형식으로 보다가 이렇게 표형식으로 보니.. 너무 좋다....(감격) loc[] 인덱서 - 실제 인덱스를 사용하여 행을 가지고 올 때 사용 iloc[] 인덱서 - numpy의 array인덱싱 방식으로 행을 가지고 올 때 사용 꿀팁