본문 바로가기

분류 전체보기65

EC2 - 타임아웃 오류 해결방법 문제인식=> 현재 프로젝트인 llm프로젝트에서 고용량의 pdf을 데이터 전처리 진행해 db에 저장하는 기능이 있어 개발을 완료하고EC2에 배포 후 진행을 하니 이런 오류가 난다.분명 로컬 환경에서는 정상 작동되는데 오류가 나서 확인해 보니 타임아웃 때문이었다. gunicorn, nginx에서 기본 시간초과 기준은 30초였기에.. 테스트를 해보니 4분 정도 걸리는 작업이라 30초가 지나니까 딱 저렇게 멈춰버리는 것을 확인했다.=> 문제 해결은 너무나도 간단하다! gunicorn, nginx에 설정만 하나 추가해주면 된다! 해결방법1. sudo vi /etc/nginx/conf.d/{본인 프로젝트 명}.conf -> nginx설정server { listen 80; server_name 본인ip; .. 2024. 7. 24.
DJango - 특정 pdf페이지를 웹 페이지로 출력하기 여는 글입학지원팀 llm프로젝트를 진행하면서 특정 pdf 페이지를 웹페이지로 출력하는 기능이 필요해, 이를 구현한 기록을 하려이 글을 쓰게되었다.원하는 pdf페이지를 웹 페이지에 바로 띄워보는 간단한 코드를 작성해보자 코드1. media 루트 설정- settings.pyMEDIA_URL = "media/"MEDIA_ROOT = BASE_DIR / "media"- urls.pyurlpatterns = [ re_path(r'^swagger(?P\.json|\.yaml)$', schema_view.without_ui(cache_timeout=0), name='schema-json'), path(r'swagger', schema_view.with_ui('swagger', cache_timeout=0).. 2024. 7. 24.
DJango에서 pdf렌더링 처리 + ask_question_api 함수 고도화 작업 여는 글현재 진행하고 있는 입학관리팀 챗봇 서비스 구현에서 ask_question_api -> rag-llm기반 질의응답 api에 대해 추가 작업을 요청하였다.관련하여 llm모델이 참고한 문서에 대한 위치로 바로 하이퍼링킹할 수 있는 링크 데이터와 참조 문서의 반환이 필요했고pdf 페이지를 바로 렌더링 할 수 있어야 했다. -> 이 부분은 따로 정리해서 블로그로 추가작성함https://choiet.tistory.com/49 이 과정을 간략하게 설명해보겠다.  이전의 방식=> 이전에는 ask_question_api를 주어진 데이터 양식에 맞게 호출을 하면 다음과 같이 questionType, questionCategory, 그 질의 응답으로 answer만 리턴하였는데 추가로 이 rag-llm모델이 답변을 .. 2024. 7. 24.
0717~0720개발일지 html & pdf에서 표 데이터 전처리 과정 여는 글포스팅 글이 늦어졌는데, 너무 오랜 시간 다양한 도전을 하다가 글을 쓸 타이밍을 놓쳐버렸다.이 글에서 간단하게 17~20일 동안 마루에그 프로젝트의 필수 사항인 데이터 전처리 과정을 어떻게시도했는지 풀어보려고 한다. 수 많은 라이브러리로 표 데이터 추출 도전=> 노션에 보이는 토글 하나하나가 모두 도전했던 방법들이고, 하나한 모두 짧으면 30분 길면 2시간의 시간이 걸렸다..일단 모든 방법들을 다 시도해봤고 사용한 내부, 외부 라이브러리들은 아래와 같다. pdftotree, tabula, poppler, pdfplumber, PyMuPDF=> 이 라이브러리들의 사용방법들로 기본 진행을 하고, 응용을 하고, 다른 라이브러리들을 추가하면서 또 진행을 해보았으나..pdf & html에서 온전한 테이블 .. 2024. 7. 24.