임베딩은 텍스트의 의미를 숫자 형태(벡터)로 변환하여 AI가 단어가 아닌 ‘의미’를 이해할 수 있도록 만드는 기술입니다.
기존 검색은 단어가 정확히 일치해야 결과를 찾을 수 있었지만, 임베딩은 의미가 비슷한 문장도 서로 가깝게 인식합니다.
위 그림은 임베딩을 세 단계로 나눠서 보여줍니다.

왼쪽의 임베딩 미적용 예시를 보면, 키워드 기반 시스템은 입력된 단어와
사내 정책 문서에 등록된 단어가 정확히 일치할 때만 결과를 반환합니다.
"연차", "선사용", "당겨쓰기" 중 어느 표현도 문서에 등록되지 않았다면
응답에 실패합니다. 임직원마다 다른 표현 방식을 시스템이 수용하지 못하는
구조적 한계입니다.

이번에는 임베딩 적용 예시를 보면, 임베딩 기반 시스템은 임직원의
질문을 벡터로 변환한 뒤, 사전에 임베딩 처리된 사내 정책 문서 전체와
코사인 유사도를 계산합니다.
"당겨서 쓰다"는 표현이 "선사용", "연차 조기 사용"과 의미적으로
가깝다는 것을 수치로 인식해 가장 연관성 높은 정책 조항을 자동으로
반환합니다.
* 코사인 유사도 (Cosine Similarity) : 코사인 유사도는 두 벡터 간의 각도를 기준으로 방향의
유사성을 비교하여, 값이 클수록 의미적으로 더 유사함을 나타내는 계산 방식입니다.
챗봇이 임직원의 질문을 수신하면, 임베딩 모델은 해당 문장 전체의 의미를 고차원 벡터로 인코딩합니다.
이후 사전에 임베딩 처리된 사내 규정집, 취업규칙, 복리후생 안내서 등 정책 문서 전체와 벡터 유사도를 비교해 의미적으로 가장
근접한 항목을 실시간으로 탐색합니다. 수백 개의 문서가 존재하더라도 이 연산은 수십 밀리초(ms) 내에 처리됩니다.

이미지 속 임직원 문의 예시를 보면, 임직원의 다양한 표현의 질문을
챗봇은 같은 의도로 찾아내 정확한 답변문서로 연결합니다.

사용자(임직원)의 질문의 표현이 입력된 후 임베딩 과정이 적용되며
벡터 공간에서 의미적 거리를 찾아 나갑니다.
이 과정이 진행되며 기존의 키워드 기반의 질문보다 더 높은 매칭 확률로
답변을 정확하고 빠르게 처리합니다.