여는 글
2024.0812~2024.0821 까지 또다시 수많은 트러블 슈팅과 데이터 전처리를 위한 도전을 진행했다.
이 pdf전처리 과정이 완벽하게 되지 않으면,, 챗봇 퀄리티가 낮은 수준으로 서비스를 진행하게 될 텐데,
그럼 기존의 마루봇 챗봇과 딱히 크게 달라진 이점이 없다.
이 부분을 꼭 해결해야 수준있는 챗봇으로 서비스가 가능하다..
view구조 관심사별 분리
=> view도 함수가 많이 쌓임에 따라 관심사별로 완전히 분리해 관리할 수 있도록 재구조조정을 진행했고
pdf문서 파싱 및 데이터 전처리 작업 과정...
=> 오로지 챗봇의 답변 퀄리티를 올려보려고 정말로 많은 트러블 슈팅에, 여러 라이브러리 조합도 도전하며, 노션에 하나하나 기록했다.
저 작은 토글 하나당 1~2시간 씩 트러블 슈팅하고 정리하고,, 반복했던 것 같다.
=> 이후로도 계속되는 드러블 슈팅을 진행했다. 답변 퀄리티를 올려보려고, 청크 기준도 수없이 테스트 해보고 리오더 적용 및 백터db 솔루션을 바꿔보는 등 20일 내내 이 작업만 진행한 것 같다..
글을 닫으며,
아직까지 뚜렷한, 완벽한 해결책이 보이지 않는다.
어느정도 고도화는 했으나 내 기준에는 뭔가 완벽하지가 않다.
모집요강 pdf를 완벽하게 기반으로, 그것만으로 답변을 할 수 있게 해야하는데, 뭔가 70~80% 정확도로만 + 70~80% 검색 능력으로만 답변하는 느낌이다....
이 문제를 해결하지 못하면, 챗봇 퀄리티가 떨어질 수밖에 없다..
이 과정을 앞으로도 반복하며, 어떻게 해야 rag-llm방식 답변 퀄리티를 높힐 수 있을지 고민해봐야겠다.
'Project > 명지대학교-입학관리팀챗봇-MARU_EGG' 카테고리의 다른 글
창의적 SW프로그램 경진대회 - MARU_EGG 최우수상 입상 (1) | 2024.09.06 |
---|---|
입학관리팀챗봇 서비스 maru_egg 서비스 대회 제출 및 발표 (0) | 2024.08.22 |
maru-egg 프로젝트 개발일지 - APIs 개선 & crontab으로 ec2에서 파일 파싱 자동화 스크립트 작성 & 스왑진행 & 도메인, https적용 & swagger오류 해결 (0) | 2024.08.11 |
DJango에서 pdf렌더링 처리 + ask_question_api 함수 고도화 작업 (0) | 2024.07.24 |
0717~0720개발일지 html & pdf에서 표 데이터 전처리 과정 (0) | 2024.07.24 |