전체 글

전체 글

    [한 줄 정리] SMOTE

    [한 줄 정리] SMOTE

    SMOTE(Synthetic Minority Oversampling Technique)란 데이터가 부족할 때, 특히 분류 문제에서 클래스 간 불균형을 해결하기 위해 사용하는 대표적인 오버 샘플링 기법입니다. 아래 그림처럼 '+' 클래스의 데이터를 SMOTE 해보겠습니다. ① 큰 빨간 원으로 표시한 데이터로부터 k개의 NN(Nearest Neighbors) 중 랜덤 샘플 하나(작은 빨간 원으로 표시)를 선택합니다. ② 선택한 샘플 `\hat{x_i}`와 기존 샘플 `x_i`을 연결한 직선 위의 새로운 랜덤 샘플(파란색)을 생성합니다. 위 내용을 새로 생성한 샘플에 대한 수식으로 표현하면 다음과 같습니다. $$Synthetic(New)\: Sample = x_i + u\: \cdot \: (\hat{x_i}..

    피처 정규화(Feature Normalization)가 반드시 필요한 경우

    피처 정규화(Feature Normalization)가 반드시 필요한 경우

    데이터 특성(Feature) 사이 차원의 영향을 제거하고, 서로 다른 지표들을 비교함으로써 패턴을 정확히 파악하기 위해 정규화를 수행합니다. 그렇다면 정규화는 데이터 전처리 과정에서 항상 거쳐야 하는 필수 단계일까요? 언제 정규화가 필요한 걸까요? 이번 글에서는 피처 정규화가 반드시 필요한 세 가지 경우에 대해 정리해 보았습니다. ※ 개인적으로 공부한 내용을 정리한 글입니다. 틀리거나 다른 의견이 있으시면 그냥 지나치지 마시고, 꼭 댓글 남겨 주세요! :) Why & How 우선 정규화의 목적과 대표적인 방법에 대해 간단히 짚어 보겠습니다. 앞서 언급했듯 정규화는 차원의 영향을 제거하고, 특정 피처에 편향되지 않도록 값의 범위를 일정한 범위 내로 통일시킵니다. 이를 통해 보다 정확한 데이터 패턴을 파악할..

    🏆 2021 노마드 어워즈 후기

    🏆 2021 노마드 어워즈 후기

    안녕하세요, 니ㄲ.. 조이입니다! 🙋‍♀ 이번 글에서는 얼마 전 진행된 '2021 노마드 어워즈 NOMAD AWARDS' 참여 및 수상 후기를 담아 보았습니다. 노마드 어워즈? 노마드 코더? 그게 뭔가요? 최근 코딩에 대한 관심이 뜨거워지면서 비전공자도 쉽고 재미있게 입문할 수 있도록 도와주는 다양한 콘텐츠와 강의가 매우 많아졌죠. 저는 이공계열 전공이어서 학창 시절에 기본적인 코딩을 배우기는 했지만, 당시에는 이론 위주여서 크게 흥미를 느끼지 못했어요. 무엇보다 특출 나게 잘하는 친구들과 스스로를 비교하면서 오히려 '코딩은 천재들만 하는 거다' 같은 불필요한 오해와 편견을 가지게 되었습니다. 그래서 본격적으로 코딩을 해봐야겠다고 마음먹었을 때에도 무척 막막함을 느꼈었습니다. 그런데 이런 한계를 깰 수 ..

    Thu. 16th. Dec. 2021

    Thu. 16th. Dec. 2021

    꾸준히 운동을 해야겠다는 생각에 올해 초부터 매일 등산을 다니기 시작했다. 같은 산을 자주 다니다 보니 유독 눈에 띄는 것이 있었다. 바로 쓰레기였다. 특히 같은 쓰레기가 다음 날에도 그 자리에 있는 걸 보면 괜히 마음이 무거웠다. 산에는 환경미화원이 없으니까, 누군가 선의로 치우지 않으면 계속 방치되다가 결국 낙엽에, 땅에 묻혀 썩지도 않고 수십 년을 간다. 어차피 가는 산행에 봉투 하나 더 챙기면 되는 일이니까, 그렇게 단순한 생각으로 쓰레기를 하나 둘 주워오기 시작한 것도 벌써 반년이 흘렀다. 사실 학창시절 꽤 오랫동안 학교 앞 쓰레기를 줍는 활동을 했었는데, 당시에는 환경 보호에 대한 사회적 관심이 크지 않아서 보는 사람마다 '너는 왜 그리 유난이냐'는 식의 눈칫밥을 은근히 많이 먹었다. 지금은 ..

    Raktivist를 소개합니다.

    Raktivist를 소개합니다.

    영화 『에반 올마이티(Evan Almighty)』에서 주인공 에반은 신에게 '세상을 바꾸게 해달라 '는 기도를 한다. 다음 날 신은 곧바로 목재와 연장을 배달하며 방주를 지을 것을 요구하는데, 황당해하는 에반에게 신은 다음과 같이 말한다. You wanna know how to change the world, son? 세상을 바꾸는 방법을 알고 싶나? One act of random kindness at a time. 한 번씩 아무에게나 친절을 베풀게. Raktivist란 Random Acts of Kindness Activist의 줄임말로, 임의로 계획하지 않고 아무에게나 친절을 베푸는 행동을 하는 사람들을 말한다. 거창한 게 아니라, 다른 사람을 위해 문을 잡아 주거나 예상치 못한 부분을 칭찬하는 것..

    [AIFFEL 2021] 03/ AIFFEL 과정 1개월을 남기고

    [AIFFEL 2021] 03/ AIFFEL 과정 1개월을 남기고

    6월에서 11월이 되기까지 지난 5개월을 돌아보면, 정말 많은 사소한 좌절과 성공의 연속이었다. 그만큼 끊임없이 시도하고 부딪히면서 성장하는 시간이었을 것이다. 그리고 그 모든 성장은 그냥 내가 열심히 해서가 아니라, 확실히 다른 교육생들과 함께 하기 때문에 가능한 것들이었다. 살면서 처음으로 '상생'이라는 단어의 의미를 피부로 느낀 것 같다. 왜 협업이 중요한지, 왜 혼자 공부하지 않고 함께 하는 게 맞는지, 또 그렇게 하기 위해서는 어떻게 하면 되는지. 사실은 딥러닝 모델 하나를 이해하는 것보다 인생을 살면서 더 중요한 것들을 이곳 아이펠 AIFFEL에서 배웠다. 특히 아이펠 AIFFEL이 아니었다면, 분명 나는 지금도 내 공부 습관에 어떤 문제가 있는지 깨닫지 못했을 것이다. 말로는 최선을 다한다고..

    머신러닝 기반 이상 탐지(Anomaly Detection) 기법의 종류

    머신러닝 기반 이상 탐지(Anomaly Detection) 기법의 종류

    이상 탐지(Anomaly Detection)란, 데이터에서 예상과는 다른 패턴을 보이는 개체 또는 자료를 찾는 것을 말한다. 즉 학습 데이터를 기반으로 기존 데이터들과는 다른 특성을 갖는 데이터를 찾는 모형을 만드는 방법이다. 사이버 보안, 의학 분야, 금융 분야, 행동 패턴 분야 등 다양한 분야에 적용될 수 있다. 대표적인 예로 신용카드 사기, 사이버 침입, 테러 행위 같은 악의적 행동이나 시스템 고장, 비정상적인 상황 등에 활용된다. '이상'이라는 표현은 적용되는 도메인 컨텍스트나 데이터의 종류에 따라 anomaly, outlier, discordant observation, exception, aberration, surprise, peculiarity, contaminant 등 다양하게 불린다. ..

    국소 회귀(Locally Weighted Regression)란?

    국소 회귀(Locally Weighted Regression)란?

    아래 글을 먼저 보는 것이 좋습니다. 선형 회귀(Linear Regression)와 경사하강법(Gradient Descent) 선형 회귀(Linear Regression)는 머신러닝의 가장 기본이 되는 알고리즘이다. 머신러닝은 기본적으로 훈련 데이터를 이용해 알고리즘을 학습시키고, 그 결과로 어떤 가설을 도출하는 것이다. 이 가설 nanunzoey.tistory.com 아래와 같은 데이터가 있다고 할 때, 선형 회귀 `\theta_0 + \theta_1x_1` 식은 파란 선으로 나타낼 수 있다. 그런데 이 선은 과연 데이터들을 올바르게 표현하고 있는 걸까? 직선이 아닌 다른 형태가 사실은 더 적합할 수도 있지 않을까? 혹은 feature가 여러 개인 다항 회귀의 경우는 어떨까? 예를 들면 `\theta_..

    건설 산업에서의 인공지능 활용(Applications of AI in Construction Industry)

    건설 산업에서의 인공지능 활용(Applications of AI in Construction Industry)

    지난 2016년 세계경제포럼(WEF, World Economic Forum)에서 클라우스 슈밥(Klaus Schwab) 회장이 처음 4차 산업혁명을 언급한 후 약 5년이 흘렀다. 같은 해 알파고(Alphago)는 이세돌 9단에게 4승 1패로 승리했고, 2019년 12월에는 COVID-19 바이러스가 전 세계를 강타하기 시작하며 빠르게 우리 일상을 디지털 세계로 이끌었다. 사람들이 '인공지능, 디지털, 가상, 자동'과 같은 단어들에 지나치게 익숙해진 만큼, 산업에서는 한 발 더 빠르게 이 혁신적인 기술을 도입하기 위해 고민하고 있다. 그러나 이러한 디지털 전환(Digital Transformation)이 유난히 힘들고 어려운 산업이 있는데, 바로 건설 산업이다. 이번 글에서는 1) 왜 건설 산업의 디지털화..

    선형 회귀(Linear Regression)와 경사하강법(Gradient Descent)

    선형 회귀(Linear Regression)와 경사하강법(Gradient Descent)

    선형 회귀(Linear Regression)는 머신러닝의 가장 기본이 되는 알고리즘이다. 머신러닝은 기본적으로 훈련 데이터를 이용해 알고리즘을 학습시키고, 그 결과로 어떤 가설을 도출하는 것이다. 이 가설(또는 함수)을 가지고 새로운 input이 주어졌을 때, 그에 맞는 output을 예측하여 내놓는다. 다음 그림은 이러한 머신러닝의 메커니즘을 보여준다. 예를 들어 우리가 다음과 같은 데이터를 가지고 있다고 가정해보자. 충분히 많은 데이터만 있다면, 어떤 집의 면적과 침실의 개수 등과 같은 정보만 가지고 그 집이 얼마일지 예측하는 데 이용할 수 있다. Size (sqft) # Bedrooms Price (1K$) 2,104 5 460 1,416 3 232 ... ... ... 이때 이러한 가설(Hypot..