ml(4)
-
서울 맛집 챗봇 만들기 : Azure OpenAI + RAG
ChatGPT나 Gemini, Perplexity 등의 챗봇을 사용하다 보면, 가끔 있지도 않은 사실을 진짜인 것 처럼 대답을 하거나, 특정 분야에 대한 지식을 보유하고 있는 모델이 있었으면 하는 생각이 들곤 할 것이다.이러한 LLM모델을 내가 직접 개발하기엔 어렵지만, 나에게 딱 맞춘 모델로 튜닝하는 것은 가능하다.오늘은 Azure OpenAI로 여러가지 데이터를 활용하여 RAG를 적용시킨 챗봇을 개발하는 과정을 담아보았다.RAG(검색 증강 생성)RAG는 Retrieval-Augmented Generation의 약자로, 기존의 대규모 언어 모델(LLM)을 확장하여, 주어진 컨텍스트나 질문에 대해 더욱 정확하고 풍부한 정보를 제공하는 방법이다. 모델이 학습 데이터에 포함되지 않은 외부 데이터를 실시간으로..
2025.06.21 -
[MS AI School] 1차 프로젝트 Record - 3
저번 two-tower 모델 구현에 이어, 백엔드 구현을 어떤 식으로 하게 되었는지 작성해보려고 한다.현재의 가장 큰 문제는 저번 포스트에서도 언급 했다시피, 모델은 데이터셋에 존재하는 데이터만을기반으로 하여 추천을 하게 되어있다.하지만 실제로 사용자는 새로운 행동 데이터가 추가가 될 것이고, 그에 따른 모델의 추천 결과도 달라져야 한다.이를 도대체 어떻게 구현을 해야할까? 먼저 백엔드 구현은 빠른 API 구축이 가능한 FastAPI를 채택하여 사용하였다.FastAPI는 한 번도 사용해본 적이 없었지만, 요즘 코딩 성능이 가장 좋다는 평까지 나오고 있는,Gemini의 도움을 받아 조금씩 배워가며 코드를 작성할 수 있었다. 처음에 나는 사용자의 새로운 행동 데이터가 생길때 마다 실시간으로 모델 재학습을 ..
2025.06.16 -
[ML] Azure 클라우드 기반 머신러닝 실습 - 다중 선형 회귀
오늘은 자전거 대여에 관한 정보 및 데이터들을 수집하여, 자전거 렌탈 수요 예측 모델을 만들어 보는게 목표이다.Azure에서 제공하는 Machine Learning Studio로 실습을 진행할 예정이다.Azure에서는 데이터의 흐름과 모델 학습까지의 머신러닝을 파이프라인으로 구성할 수 있어, 사용자에게 조금 더 복잡하지 않고, 직관적으로 보여주기 때문에 머신러닝에 익숙하지 않은 사람들도 쉽게 이용을 할 수 있게 서비스를 제공하고 있다. "UCI" 사이트에 가면 여러가지 데이터들을 받아서 볼 수 있다.나는 그 중 "Bike Sharing Dataset"을 이용하였다. 실습에 들어가기 앞서, 다중 선형 회귀(Multi Linear Regression)에 대해서 간략히 설명을 하고 넘어가보자.다중 선형 회귀(..
2025.05.16 -
[ML] 머신러닝 모델 검증을 위한 레코드 분할
오늘 배운 내용을 복습할 겸, 머신러닝 모델 검증을 위한 레코드 분할에 대해서 다뤄 보려고 한다.학습용과 검증용 데이터 나누기 데이터 분할은 예측 모델을 평가할 때 필요한 전처리이다.학습 데이터와 검증 데이터는 같은 전처리를 적용해야 하며(스케일링, 결측치 처리 등), 되도록 같은 데이터로 묶어서 다루고,예측 모델에 입력하기 직전 분할하는 것이 적절하다. 적용 데이터는 정답을 알 수 없는 상태에서 사용하는 데이터이다. 그러므로 흐름이나 수집 시점이 다르기 때문에, 분할할 필요가 없다.쉽게 말해서, 어차피 "평가용" 데이터가 아니고, 실제로 사용 되는 "운영용" 데이터니까 분할할 필요가 없다. 위 이미지와 같이 교차 검증은 데이터를 검증용 데이터 / 학습용 데이터로 구분한다.from sklearn.mode..
2025.05.07