본문 바로가기
Music AI/Deep Learning

[Deep Learning] 03 신경망을 이용한 지도학습 | W1 딥러닝 소개 | C1 신경망과 딥러닝 | Andrew Ng

by 2den 2025. 7. 11.
728x90
반응형

https://www.youtube.com/watch?v=BYGpKPY9pO0

 

신경망에 대한 과한 믿음들이 있습니다. 그 중 몇 가지는 신경망이 얼마나 잘 작동하는지를 보여줍니다. 그러나 지금까지 대부분의 신경망을 통해 만들어진 경제적인 가치들은 머신러닝의 한 종류인 지도학습을 통해 계산이 되었습니다. 이것이 무슨 의미인지 예시들을 봅시다.

 


 

Input ($x$) Output ($y$) Application Neural Network
Home features Price Real Estate Standard NN
Ad, user info Click on ad? (0/1) Online Advertising Standard NN
Image Object (1, …, 1000) Photo tagging CNN
Audio Text transcript Speech recognition RNN
English Chinese Machine translation RNN
Image, Radar info Position of other cars Autonomous driving Custom / Hybrid

 

지도학습에서는 입력 $x$와 출력 $y$에 매핑되는 함수를 학습하려 합니다.

 

예를 들어, 주택 가격 예측에서 본 것 처럼 입력은 주택에 관한 특성들이고 출력으로는 가격 $y$를 예측하고자 합니다. 여기에 신경망이 잘 적용된 다른 예시들이 있습니다.

 

오늘날 가장 돈이 되는 딥러닝 응용분야는 온라인 광고입니다. 그렇게 고무되는 예시는 아니지만 광고에 대한 정보들을 입력함으로써 많은 수익을 낼 수 있습니다. 웹사이트가 보여주고 싶은 것들이나 사용자 정보를 광고에 포함해서 말이죠. 신경망은 사용자들이 광고를 클릭할 것인지 아닌지 매우 예측을 잘합니다. 클릭할 만한 광고를 보여주는 것은 돈이 되는 신경망 응용분야입니다. 가장 클릭할만한 광고를 보여주는 능력은 거대 온라인 광고 회사들에 직접적으로 영향을 미칠 수 있기 때문입니다.

 

컴퓨터 비전 또한 지난 몇 년간 굉장히 큰 발전을 이뤘습니다. 딥러닝 덕분에 이미지들을 넣고 1에서 1000사이의 색인을 한다고 할 때 천 개의 이미지가 모두 서로 다른 이미지라고 해도 사진 태깅을 수월히 할 수 있습니다. 최근 음성 인식도 많은 발전을 이루었습니다. 음성 파일을 신경망에 입력으로 넣고 텍스트 대본으로 출력할 수 있습니다. 기계 번역도 많은 진전이 있었습니다. 딥러닝 덕분에 영어 문장을 신경망에 넣으면 중국어로 번역한 문장을 볼 수 있습니다. 자율주행에서 사용자의 차 앞에 어떤 차가 있는지 이미지와 레이더에서 얻은 정보를 입력으로 주면 신경망에서 도로 위의 차들의 위치정보를 학습할 수 있습니다. 이런 정보들은 자율주행의 핵심 요소가 됩니다.

 

신경망을 통한 많은 값들의 생성은 어떤 문제를 해결하기 위한 적절한 $x$와 $y$를 통해 이루어지고 자율 주행 같은 더 큰 시스템에 지도학습 요소들이 적합하게 합니다. 조금씩 다른 신경망들은 서로 다른 적절한 응용분야에 적용됩니다. 예를 들어 이전에 본 부동산 어플리케이션에서 표준 신경망 구조를 사용했고 부동산이나 온라인 광고 분야에서는 우리가 본 것과 같이 비교적 표준적인 신경망이 사용된다면, 이미지 분야에서는 주로 CNN이라고 흔히 불리는 합성곱 신경망을 사용합니다 음성 같은 시퀀스 데이터를 예로 들어보면 음성은 시간에 흐름에 따라 재생되어 주로 1차원의 시계열 데이터로 나타나는 시퀀스 데이터입니다. 주로 순환 신경망 (RNN)을 사용합니다. 영어와 중국어같은 언어도 알파벳이나 단어가 쭉 연결되어 있어서 시퀀스 데이터로 나타낼 수 있습니다. RNN의 조금 더 복잡한 버전들이 언어 분야에 사용됩니다. 더 복잡한 응용분야, 예를 들어 이미지를 사용하는 자율주행은 합성곱 신경망을 사용하기도 하고 이미지 정보와는 또 꽤 다른 레이더 정보 같은 경우에는 더 복잡한 하이브리드 신경망 구조를 사용합니다.

 


 

(1) 왼쪽부터 순서대로 Standard NN, Convolutional NN, Recurrent NN

 

그럼 CNN과 RNN의 기준이 무엇인지 좀 더 명확하게 알아봅시다. 논문에서 이런 종류의 그림을 보셨을겁니다. 표준 신경망입니다. 이런 그림도 보았을 텐데 이것은 합성곱 신경망의 예시입니다. 이후 강의에 이 그림들이 무슨 뜻인지 어떻게 구현하는지 알아볼 것입니다. 보통 이미지 데이터는 합성곱 신경망에서 사용됩니다. 이런 그림들도 본적 있을텐데 어떻게 구현하는지도 이후에 배울 겁니다. 순환 신경망은 1차원 시퀀스 데이터에 강합니다. 거기엔 시간적 요소가 있을 수 있습니다.

 


 

Size #bedrooms ... Price (1000$s)
2104 3   400
1600 3   330
2400 3   369
... ...   ...
3000 4   540

 

머신러닝분야에서 구조적 데이터와 비구조적 데이터를 들어봤을 것입니다. 구조적 데이터는 기본적으로 데이터베이스로 표현된 데이터를 말합니다. 예를 들어, 주택 가격 예측에서 데이터 베이스를 가질 수 있는데, 크기나 침실의 갯수 등을 열로 가진 이런 데이터베이스를 구조적 데이터라 합니다.

 

User Age Ad Id ... Click
42 93242   1
80 93287   0
18 87312   1
... ...   ...
27 71244   1

 

사용자가 광고를 클릭했는지 아닌지 예측하는 경우에는 사용자에 대한 나이 같은 정보나 광고에 대한 정보들을 가지고 있고 레이블 $y$를 예측합니다. 구조적 데이터는 집의 크기나 침실의 개수나 사용자의 나이 같은 특성들처럼 잘 정의되어있습니다.

반면에 비구조적 데이터는 음성파일이나, 인식하고자 하는 이미지나, 텍스트 데이터들입니다. 여기서의 특성은 이미지의 픽셀값이나 텍스트의 각 단어 같은 것입니다.

 

역사적으로 이런 비구조적 데이터는 구조적 데이터보다 컴퓨터가 작업하기 훨씬 어렵습니다. 인류는 음성이나 이미지들을 잘 이해하도록 진화가 되어왔고. 비교적 최근 발명품인 문자에 대해서도 잘 이해하고 있습니다. 사람들은 이런 비구조적 데이터를 해석하는데 굉장히 뛰어납니다.

 

신경망에 대해 가장 흥미로운 일 중에 하나는 딥러닝 덕분에 신경망 덕분에 컴퓨터들이 비구조적 데이터들을 해석하는데 근 몇년 전에 비해 굉장히 많이 발전하였습니다. 이 발전은 음성 인식이나 이미지 인식, 텍스트의 자연언어처리 같은 흥미로운 응용분야에 많은 기회를 만들어 냈습니다. 겨우 2년이나 3년전보다 훨씬 많은 것들이 가능해졌습니다. 사람들은 비구조적 데이터를 이해하는데에 더 많은 관심이 있어서 신경망이 비구조적 데이터에서 성공한 것을 미디어에서 많이 접했을 것입니다. 신경망이 고양이를 인식하는 것은 멋있는 일이기 때문이죠. 우리는 모두 그런 일을 좋아하고 어떤 의미인지 알 수 있습니다.

 

하지만 신경망에서 발생하는 많은 경제적인 이익은 광고 시스템이나 사용자 맞춤 추천 같은 구조적 데이터에서 오는 경우가 많습니다. 많은 회사들이 거대한 데이터베이스를 통해 정확한 예측을 만들어야하는 경우에 더욱 잘합니다.

 

이 코스에서 많은 기술들이 구조적, 비구조적 데이터에 적용될 것입니다. 알고리즘을 설명할 목적으로 비구조적 데이터를 그려서 설명하는 경우들이 있을 것입니다. 하지만 각자 구현하고자 하는 신경망을 생각해서 구조적, 비구조적 데이터 모두 사용법을 익히시길 바라겠습니다.

 


 

신경망은 지도학습으로 변환할 수 있고 거대한 수익을 창출할 수 있습니다. 신경망의 기본적인 기술적 아이디어들은 몇십 년간 존재해왔습니다. 그럼 다음 강의에서 왜 이제서야 신경망이 적용되고 잘 작동하기 시작했는지, 왜 최근에서야 신경망이 강력한 도구로 부상했는지 알아보겠습니다.

 

728x90
반응형

댓글