본문 바로가기

Project45

DJango에서 pdf렌더링 처리 + ask_question_api 함수 고도화 작업 여는 글현재 진행하고 있는 입학관리팀 챗봇 서비스 구현에서 ask_question_api -> rag-llm기반 질의응답 api에 대해 추가 작업을 요청하였다.관련하여 llm모델이 참고한 문서에 대한 위치로 바로 하이퍼링킹할 수 있는 링크 데이터와 참조 문서의 반환이 필요했고pdf 페이지를 바로 렌더링 할 수 있어야 했다. -> 이 부분은 따로 정리해서 블로그로 추가작성함https://choiet.tistory.com/49 이 과정을 간략하게 설명해보겠다.  이전의 방식=> 이전에는 ask_question_api를 주어진 데이터 양식에 맞게 호출을 하면 다음과 같이 questionType, questionCategory, 그 질의 응답으로 answer만 리턴하였는데 추가로 이 rag-llm모델이 답변을 .. 2024. 7. 24.
0717~0720개발일지 html & pdf에서 표 데이터 전처리 과정 여는 글포스팅 글이 늦어졌는데, 너무 오랜 시간 다양한 도전을 하다가 글을 쓸 타이밍을 놓쳐버렸다.이 글에서 간단하게 17~20일 동안 마루에그 프로젝트의 필수 사항인 데이터 전처리 과정을 어떻게시도했는지 풀어보려고 한다. 수 많은 라이브러리로 표 데이터 추출 도전=> 노션에 보이는 토글 하나하나가 모두 도전했던 방법들이고, 하나한 모두 짧으면 30분 길면 2시간의 시간이 걸렸다..일단 모든 방법들을 다 시도해봤고 사용한 내부, 외부 라이브러리들은 아래와 같다. pdftotree, tabula, poppler, pdfplumber, PyMuPDF=> 이 라이브러리들의 사용방법들로 기본 진행을 하고, 응용을 하고, 다른 라이브러리들을 추가하면서 또 진행을 해보았으나..pdf & html에서 온전한 테이블 .. 2024. 7. 24.
입학관리팀챗봇 개발일지 - 모델 버전으로 llm api개발, 프론트와의 cors오류 해결, delete & retrieve APIs 개발 0712~0717의 기간동안 한 일들지금 까지는 1차적인 api코드만 작성했지만, 파싱과 임베딩의 과정에 있어 좀 더 안정적으로 코드를 수정하였다.또한 open ai api기반의 질의응답 api 하나만 개발해두었는데 모델 쪽 llm 팀원이 로컬 환경에서 llm을 올려두어이를 기반으로 모델 기반 질의응답 api를 추가로 개발하였고, 작업중에 프론트팀 쪽에서 cors오류가 발생해서 이를 해결하였으며프론트팀의 요청으로 문서 db에 대한 delete & retrieve APIs 개발을 진행하였다.간략하게 설명해보겠다. 모델 버전으로 llm api개발우리가 닥친 문제는.. 리소스에 관한 것이다.학교에서 지원해주는 비용에 대해 한계가 있기에 최대한 비용을 절감할 수 있는 선택지로 삼아 사용해야 한다.따라서 선택한 .. 2024. 7. 18.
preprint 서비스 결제 기능 적용 및 ERD 재작성 0715~0718 동안의 진척사항드디어 1년 전에 멈출 수밖에 없던 사유인 결제문제를 해결하고 preprint 프로젝트에 오늘 1차적인 결제로직을 적용하였다.나는 iamport사의 모듈을 이용하여 개발하기로 결정하였고, 여기서 제공하는 다양한 pg 사들 중에 토스페이먼츠(구)를선택하여 적용하게되었다. 예상했던 대로 결제와 관련해서는 그 과정과 처리 방식이 많이 복잡하기 때문에 이에 관하여서는 나중에 따로 다시 포스팅을 작성하며정리해 보아야겠다. 결제 서비스를 적용하기 위해 새롭게 ERD 1차 안 작성결제와 관련하여 보관해야 할 중요 데이터가 생각보다 아주 많았다. 또한 현재 preprint 서비스의 db정보와 함께 어떻게 저장할지도고민해보아야 할 부분이었다.최종적으로는 추가적인 테이블을 더 생성하여 연계.. 2024. 7. 18.