-
๐ | AI์ง์_ ์ค๋งํธ ์คํผ์ปค๐ ๋ถ ์คํฐ๋/๋น์ ๊ณต์๋ ์ดํดํ ์ ์๋ AI์ง์ 2024. 10. 27. 04:23
๋น์ ๊ณต์๋ ์ดํดํ ์ ์๋ AI ์ง์ - 5. ์ค๋งํธ ์คํผ์ปค-์๋ฆฌ๋ ์ธ๋ชจ ์๋ ๋น์๊ฐ ๋ ์ ์์๊น
์ ํ ์๋ฆฌ, ์์ฑ์ธ์ ๋น์์ ์๋๋ฅผ ์ด๋ค
- ์คํ ํผ๋๋ํ๊ต์์ ์์๋ ๋ฏผ๊ฐ์ฐ๊ตฌ์ SRI์ธํฐ๋ค์
๋์ ์ฐ๊ตฌํ๋ก์ ํธ
- ์ผ๋ถ ์ฐ๊ตฌ์์ด ๋ ๋ฆฝํด ์คํํธ์ SIRI ์ฐฝ์
- ์ด๋ฐ : ์์ฑ์ธ์ ๊ธฐ๋ฅ์ด ์๋ ์ฑ๋ด ํ์
- ์์ฑ์ธ์ ๊ธฐ๋ฅ์ ๋์ ํ๊ณ 2011๋ ์์ดํฐ4s์ ์ ์ ํ์ฌ
- ์ก์ค์ ์ฌ๋ง์ผ๋ก SIRIํ ๋๋ถ๋ถ์ ์ ํ์ ๋ ๋ ๋น๋ธ๋ฉ์ค๋ฅผ ์ค๋ฆฝํด ๋น ์ค๋น ์ ์
์๋ง์กด ์๋ ์ฌ, ์ค๋งํธ ์คํผ์ปค์ ์๋๋ฅผ ์ด๋ค
- ์ค๋งํธ ์คํผ์ปค๋ผ๋ ์นดํ ๊ณ ๋ฆด๋ฅด ์ฒ์ ๋ง๋ ํ์ฌ : ์๋ง์กด
์๋ ์ฌ(Alexa)
- 2014๋ , ์ต์ด์ ์ค๋งํธ ์คํผ์ปค Echo์ถ์
- ์์ฝ์ ํธ์ถ์ด๋ฅผ ์๋ ์ฌAlexa๋ก ๊ฒฐ์
์์ฑ์ธ์, ๋ชฉ์๋ฆฌ๋ฅผ ์์๋ฃ๋ค
์จ์ดํฌ์ (Wake-up)
- ์์ฑ์ ์๋ฒ๋ก ์ ์กํ๊ธฐ ์ํด ์ฌ์ฉ์๊ฐ ๋ถ๋ฅด๋ฉด ๊นจ์ด๋๋ฉฐ ๋ฐ์ํ๋ ๊ฒ
- ์จ์ดํฌ์ ๋จ์ด๋ฅผ ์์๋ฃ๊ธฐ ์ํ ์์ฑ์ธ์ ์์ง ํ์
- ์จ์ดํฌ์ ์ดํ์๋ ๋ณธ๊ฒฉ์ ์ผ๋ก ์์ฑ ํ์ผ์ ์๋ฒ๋ก ์ ์กํ์ฌ ๋ถ์์ ์งํ
์๋ฒ๋ก ์ ์ก๋ ์์ฑ ํ์ผ์ด ๋ถ์๋๋ ๊ณผ์
- ์ดํด ์์ญ : ์์ฑ์ธ์, ์์ฐ์ด ์ดํด
- ์คํ ์์ญ : ๋ค์ด์ผ๋ก๊ทธ ๋งค๋์ , ์คํฌ
- ์์ฑ : ์์ฐ์ด ์์ฑ, ์์ฑ ํฉ์ฑ
์์ฑ์ธ์
- ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ ์ญ๋์ ์ผ๋ก ๋ณ๋ํ๋ ์์ฑ์ ํํ์ ๋ค๋ฃจ๋ ์ผ
- ๊ณผ๊ฑฐ ์์ฑ์ธ์
- ์ต์ ๋จ์์ธ ์์๊ฐ ๊ฒฐํฉํ์ฌ ๋จ์ด์ ๊ตฌ๋ฌธ์ ๋ง๋๋ ๊ท์น์ ์ธ์ดํ์๋ค์ด ๋ถ์ํด if-then ๊ท์น์ผ๋ก ํ๋ก๊ทธ๋๋ฐ
- ์์ฑ์ ํํ์์ ์์๋ฅผ ์ธ์ → ์์์ ๊ณ ์ ํ ๋ฐฐ์ด์ ๊ธฐ๋ฐ์ผ๋ก ๋จ์ด๋ฅผ ์ธ์
- ํ๊ณ : ์์์ ํจํด์ ๊ฐ๊น์ด ์๋ ์์์ ์ํฅ์ ๋ฐ์ผ๋ฉฐ, ์๋ต๋๋ ์์๋ ๋ง์
์๋ ๋ง๋ฅด์ฝํ ๋ชจ๋ธ(Hidden Markov Model)
- 1970๋ ๋ ์ค๋ฐ๋ถํฐ ๊ท์น๊ธฐ๋ฐ๋ณด๋ค ํต๊ณ ๊ธฐ๋ฐ์ผ๋ก ์๋ ๋ง๋ฅด์ฝํ ๋ชจ๋ธ์ ์์ฉํ์ฌ ์์ฑ์ธ์ ๊ธฐ์ ์ ๋์
- ์๋๋ ์ํ์ ๊ด์ฐฐ ๊ฐ๋ฅํ ๊ฒฐ๊ณผ๋ก ๊ตฌ์ฑ๋ ํต๊ณ์ ๋ชจ๋ธ
์ํ ์ ๊ฒฝ๋งRNN(Recurrent Neural Network)
- ์๊ฐ์ ํ๋ฆ์ ๋ฐ๋ผ ์์๋๋ก ๊ตฌ์ฑ๋๋ ์๊ณ์ด ํ์๋ ํ์ตํ ์ ์๋ ์ธ๊ณต์ง๋ฅ ์ ๊ฒฝ๋ง
์ํฅ ๋ชจ๋ธ(Acoustic Model)
- ์์ฑ์ ํํ์ผ๋ก ๋จ์ด๋ฅผ ์ธ์ํ๋ ๊ฒ
- ๋ฅ๋ฌ๋๊ณผ ๋น ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ์ฑ๋ฅ์ด ๋ฐ์ด๋ ์์ฑ์ธ์ ๋ชจ๋ธ
- ์ ๋ณด์ ์ผ๋ถ๋ถ๋ง ์ธ์งํ๋๋ผ๋ ํจํด์ ๋ณํ์ง ์๋ ํน์ง์ ์ ํํ๊ฒ ๊ฐ์ง
์ธ์ด ๋ชจ๋ธ(Language Model)
- ์์ฑ์ ์๋ชป ์ธ์ํ๋๋ผ๋ ๊ทธ๋์์ ํ์ต ๊ฒฐ๊ณผ๋ฅผ ํ ๋๋ก ์ฌ์ฉํ ํ๋ฅ ์ด ๋์ ๋จ์ด๋ก ๋ณด์ ํด์ฃผ๋ ๊ฒ
- ๋ํ๋ฅผ ํ ๋ ์ฌ์ ์ง์์ ์ญํ ์ ํจ
- ํด๋น ๋จ์ด๊ฐ ๋์์ด์์ด์ผ ๋๋ ์ธ์ด๋ชจ๋ธ์ด ๋์ฑ๋ ์๋ ฅ์ ๋ฐํ
- ์ฐ๋ฆฌ๊ฐ ์ผ์์์ ์์ฃผ ์ฐ๋ ๋ฌธ์ฅ์์ ์ถํํ๋ ๋จ์ด์ ํ๋ฅ ์ ํ์ต
- ์ฑ ์ด๋ ๋ด์ค์ ๋ฌธ์ฅ์ผ๋ก ํ์ตํ๊ธฐ ๋๋ฌธ์ ์ฑ , ๋ด์ค์ ๋์ค๋ ๋จ์ด์ผ ์๋ก ๋ ๋์ ์ ์ ๋ถ์ฌ
์์ฐ์ด ์ดํด, ์๋๋ฅผ ์ดํดํ๋ค
์์ฐ์ดNLU(Natural Language Understanding)
- ์ฌ๋์ด ๋น๋ ผ๋ฆฌ์ ์ด๊ณ ๋ฌธ๋ฒ์ ๋ง์ง ์๋ ๋ง์ ํ ๋ ๊ธฐ๊ณ๊ฐ ๋ฌธ์ฅ์ ์๋ฏธ๋ฅผ ํ์ ํ๋ ๊ฒ
- ๋ง์ด๋ ๊ธ์ ์๋ฏธ๊ฐ ๋ฌด์์ธ์ง ์ ์ ์๋๋ก ์ธ์ด๋ฅผ ๊ตฌ์กฐํ
1. ๋๋ฉ์ธ ๋ถ๋ฅ
- ์ค๋งํธ ์คํผ์ปค๊ฐ ํ ์คํธ ๋ฌธ์ฅ์ ๊ฐ์งํ๋ฉด ๋จผ์ ๋๋ฉ์ธ์ ๊ตฌ๋ถ
- ๋ฌธ์ฅ์ด ์ด๋ค ์นดํ ๊ณ ๋ฆฌ์ ํด๋นํ๋์ง ํ๋ณํ๋ ๊ณผ์
- ex. ์ค๋ ๋ ์จ ์ด๋? →๋ ์จ
2. ์ธํ ํธ ๋ถ๋ฅ
- ์ฌ์ฉ์์ ์๋๋ฅผ ํ์ ํ๋ ๊ฒ
- ex. ์ค๋ ๋ ์จ ์ด๋? →์กฐํ
3. ์ฌ๋กฏ ํ๋ง(Slot Filling)
- ๋๋ฝ๋ ์ ๋ณด๋ฅผ ์ฑ์ฐ๋ ๊ฒ
- ex. ์ค๋ ๋ ์จ ์ด๋? →์ง์ญ ์ ๋ณด ๋๋ฝ๋์ด ์์ →ํ์์น์ ์ ๋ณด๋ฅผ ์ฑ์์ค
4. ๋ฉํฐ ํด(Multi-Turn)
- ์ฌ๋๊ณผ ๋ํํ๋ฏ ์ฌ๋กฏ์ ์ฑ์ฐ๊ธฐ ์ํด ์ถ๊ฐ ์ง๋ฌธ์ ํ๋ ๊ฒ
- ํ์ํ ์ ๋ณด๋ฅผ ์ํด ์ฌ๋ฌ๋ฒ ๋ฌป๊ณ , ์๋ต์์ ํ์ํ ์ ๋ณด๋ฅผ ์ถ์ถํ์ฌ ๋น ์ฌ๋กฏ ์ฑ์๋๊ฐ๋ ๊ฒ
๋ค์ด์ผ๋ก๊ทธ ๋งค๋์ , ๋ช ๋ น์ ์คํํ๋ค
๋ค์ด์ผ๋ก๊ทธ ๋งค๋์ (Dialog Manager)
- ์ฌ๋กฏ ํ๋ง์ ์ฑ์ฐ๋ ค๋ฉด ์ด์ ๋ํ๋ฅผ ๊ธฐ์ตํด์ผ๊ธฐ ๋๋ฌธ์ ํ์ํ ๊ณผ์
- ์์ฐ์ด ์ดํด์์ ์ฒ๋ฆฌํ ๋ด์ฉ์ ๋ฐ์ ์คํ ๋ช ๋ น์ ๋ด๋ฆฌ๋ ์ญํ ๋ ๊ฒธํจ
์คํฌ(Skill)
- ๋ฉ๋ก ๊ฐ์ ์ฌ๋ฌ ์๋น์ค๋ฅผ ์ด์ฉํ๋ ๊ธฐ๋ฅ
- ์ค๋งํธ ์คํผ์ปค์์ ์๋น์ค ์คํฌ์ ์ค์ค๋ก ์๋ํ์ง ์์
- ๋ฐ๋์ ๋ค์ด์ผ๋ก๊ทธ ๋งค๋์ ๊ฐ ๊ฐ์ ํ๊ณ , ํ๋จํ์ฌ ์คํฌ์ ๋ช ๋ น์ ๋ด๋ฆผ
- ๋ค์ด์ผ๋ก๊ทธ ๋งค๋์ ๊ฐ '์์ ์ฌ์'์ด๋ '๋ ์จ ์กฐํ'๊ฐ์ ๋ช ๋ น์ ์คํฌ์ ๋ด๋ฆฌ๋ฉด ์คํฌ์ ๋ฑ๋ก๋ ์๋น์ค๊ฐ ์คํ๋์ด ๊ฒฐ๊ณผ๋ฅผ ๋ฐ์์ค๋ ๊ตฌ์กฐ
๋ฌธ์ ํด๊ฒฐ์ฉ ๋ํ์์คํ (Task-Oriented Dialogue System)
- ์ค๋งํธ ์คํผ์ปค๋ ๋ฌธ์ ํด๊ฒฐ์ฉ ๋ํ์์คํ
์
- ๋ชฉ์ ์ด ๋ถ๋ช ํ ๋ํ๋ง ํจ
- ๋ํ๋ณด๋ค๋ ๋ชฉ์ ์ ๋ง๋ ๋ํ์ ๋ฐฉ์ ์ ๋ง์ถค
- ์์ ๋ก์ด ๋ํ๋ณด๋ค๋ ์ ํด์ง ํ ํ๋ฆฟ์ ์ ๋ณด๋ฅผ ์ฑ์์ ๋ฌธ์๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ ์ฃผ๋ก ์ฌ์ฉ
๋ํ ๋์์ธ
- ํ๋ถํ ๋ํ๋ฅผ ์ํด ํ ํ๋ฆฟ์ ๋ค์ํ๊ฒ ๊ตฌ์ฑํ๋ ๊ฒ
์ฐ๊ฒฐ ํฉ์ฑ, ์ํธ ์ ํ ํฉ์ฑ(USS, Unit Selection Synthesis)
- ๋ฏธ๋ฆฌ ๋ น์๋ ์์ฑ์ ๊ธฐ์ค์ ๋ฐ๋ผ ์๊ฒ ์ชผ๊ฐ์ด ์ํธ(Unit)์ ๋ง๋ค๊ณ ๊ฐ์ฅ ์ ํฉํ ์ํธ์ ์ ํ(Selection)ํ์ฌ ์์ฑ์ ํฉ์ฑ(Synthesis)ํ๋ ๋ฐฉ์
๋ฅ๋ฌ๋, ์ธ๊ฐ๋ณด๋ค ๋ ์์ฐ์ค๋ฌ์ด
ํ์ฝํธ๋ก 2(Tacotron2)
- ๊ตฌ๊ธ์ด ์ ์ํ๊ณ ์๋น๋์์์ ๊ตฌํํ ์์ฑํฉ์ฑ ๋ชจ๋ธ
- ์ฌ๋๊ณผ ๊ฑฐ์ ๊ตฌ๋ถํ ์ ์์ ์ ๋๋ก ์์ฐ์ค๋ฌ์ด ์์ฑ ํฉ์ฑ
- ๋ณต์กํ ๊ณผ์ ์ ์๋ตํ๊ณ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ํ๋ฒ์ ์งํํ๋ ์๋ํฌ์๋(End-To-End)๋ฐฉ์์ ์ฑํํ์ฌ ์์ฐ์ค๋ฌ์ด ์์ฑ ์ ์
- ์์ฑ ํ์ต ๊ณผ์
- 1. ํ ์คํธ → ๋ฉ์คํํธ๋ก๊ทธ๋จ
- 2. ๋ฉ์คํํธ๋ก๊ทธ๋จ → ํ ์คํธ
๋ฉ ์คํํธ๋ก๊ทธ๋จ(Mel Spectrogram)
- ์๋ฆฌ๋ ํ๋์ ์๊ฐํํ์ฌ ํ์ ํ ์ ์๋๋ก ํํํ ๊ฒ
- ์ํ์ ๋น์ทํ๊ฒ ์๊ฒผ์ง๋ง ์์์ ์ฐจ์ด, ๋๋๋ฅผ ํฌํจํด ๋ณด๋ค ํ๋ถํ ์ ๋ณด๋ฅผ ํํํ ์ ์์
- ์ธ๊ฐ์ด ์ธ์งํ ์ ์๋ ์ฃผํ์ ๋์ญ์ผ๋ก ๋ณํํด ๋ฎ์ ํด์๋๋ก ์์ถํ ๊ฒ
๋ณด์ฝ๋(Vocoder)
- ๋ฉ ์คํํธ๋ก๊ทธ๋จ์ ์ค์ ์์ฑ์ผ๋ก ๋ฐ๊พธ๋ ์์
- ๋ ธ์ด์ฆ ์์ด ๊นจ๋ํ๊ณ ์ ๋ช ํ ์์ง์ ์์ฑํ ์ ์๋์ง๊ฐ ๋ณด์ฝ๋์ ํต์ฌ
'๐ ๋ถ ์คํฐ๋ > ๋น์ ๊ณต์๋ ์ดํดํ ์ ์๋ AI์ง์' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
๐ | AI์ง์_๊ธฐ๊ณ ๋ฒ์ญ (0) 2024.11.11 ๐ | AI์ง์_ ๊ฒ์์์ง (6) 2024.10.20 ๐ | AI์ง์_ ์์จ์ฃผํ (2) 2024.10.13 ๐ | AI์ง์_ ์ํ๊ณ (2) 2024.09.28 ๐ | AI์ง์_ ์ธ๊ณต์ง๋ฅ(๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋) (3) 2024.09.21 - ์คํ ํผ๋๋ํ๊ต์์ ์์๋ ๋ฏผ๊ฐ์ฐ๊ตฌ์ SRI์ธํฐ๋ค์
๋์ ์ฐ๊ตฌํ๋ก์ ํธ