AI 강의 & 멘토링 AI Tutoring & Mentoring

안녕하세요, 이상호입니다.
LLM, RAG, 모델 최적화부터 MLOps까지 — 강의는 물론, 현재 진행 중인 프로젝트에 맞는 아키텍처 컨설팅과 최적화 솔루션을 직접 설계해드립니다.
아래에서 관심 있는 주제를 골라 편하게 연락주세요.
Hi, I'm Sangho Lee.
From LLM, RAG, and model optimization to MLOps — I offer lectures as well as architecture consulting and optimization solutions tailored to your project.
Pick a topic below and reach out.

RAG
RAG
실전 RAG: "검색 잘 되는데 답변이 쓰레기인" 그 문제, 해결합니다 Practical RAG: Fixing the "Good Retrieval, Garbage Answer" Problem
Re-ranking, 프롬프트 엔지니어링, 컨텍스트 압축 — 답변 품질을 결정짓는 검색 이후의 기술 Re-ranking, prompt engineering, context compression — post-retrieval techniques that define answer quality
RAG
RAG 성능 평가 심화: 어떤 RAG 시스템도 무너뜨리는 마법 프롬프트 20개 RAG Evaluation: 20 Magic Prompts That Break Any RAG System
RAGAS, LLM-as-Judge, 그리고 실전 스트레스 테스트 — 우리 RAG가 진짜 잘 하는지 증명하는 법 RAGAS, LLM-as-Judge, and real stress tests — prove your RAG actually works
RAG
GraphRAG: 벡터 검색의 한계를 부수는 지식 그래프 RAG GraphRAG: Knowledge Graphs That Shatter Vector Search Limits
엔티티 추출, 관계 생성, 커뮤니티 탐지, Multi-hop 추론 — MS GraphRAG로 "검색"을 "추론"으로 바꾸기 Entity extraction, relation building, community detection, multi-hop reasoning — turn search into reasoning with MS GraphRAG
RAG
임베딩 & 인코더: 벡터 한 줄 바꿨을 뿐인데 RAG 성능이 2배 Embeddings & Encoders: One Vector Change, 2x RAG Performance
임베딩 모델 선택부터 청킹 전략까지, 검색 품질을 결정하는 진짜 변수들을 파헤칩니다 From embedding model selection to chunking strategy — the real variables behind retrieval quality
RAG
우리 팀 RAG 아키텍처 진단: 병목은 어디에 숨어 있는가 RAG Architecture Audit: Where Is the Bottleneck Hiding?
현재 파이프라인을 함께 뜯어보고, 검색·생성·평가 각 단계에서 가장 효과 큰 개선 포인트를 짚어드립니다 We'll tear apart your pipeline together and pinpoint the highest-impact improvements at each stage
RAG
온톨로지(Ontology) 설계: 도메인 지식을 구조화하는 시맨틱 프레임워크 Ontology Design: A Semantic Framework for Structuring Domain Knowledge
RDF, OWL, SPARQL — 그래프 기반 지식 표현의 정석, RAG와 결합하면 검색이 추론이 됩니다 RDF, OWL, SPARQL — when classical knowledge representation meets RAG, search becomes reasoning
LLM & Fine-tuning
LLM
LoRA & QLoRA: 8GB GPU 하나로 끝내는 나만의 LLM LoRA & QLoRA: Build Your Own LLM with a Single 8GB GPU
Full Fine-tuning은 잊어라 — Transformer 구조부터 PEFT 학습, 모델 병합·배포까지 풀코스 Forget full fine-tuning — full course from Transformer architecture to PEFT training, model merging & deployment
LLM
Multi-GPU 학습: 카드 여러 장을 하나처럼 쓰는 분산 트레이닝의 정석 Multi-GPU Training: The Art of Distributed Training Across Multiple Cards
DeepSpeed, FSDP, 파이프라인 병렬화 — GPU 4장이면 70B도 학습 가능한 세팅법 DeepSpeed, FSDP, pipeline parallelism — train 70B models with just 4 GPUs
LLM
LangChain / LangGraph 실무: 에이전트가 스스로 판단하는 AI 시스템 구축 LangChain / LangGraph: Build AI Systems Where Agents Make Their Own Decisions
Tool Calling, 상태 그래프, 멀티 에이전트 오케스트레이션 — 챗봇을 넘어 자율 시스템으로 Tool calling, state graphs, multi-agent orchestration — beyond chatbots to autonomous systems
Optimization & Serving Optimization & Serving
Optimization
양자화(Quantization) 마스터: FP32에서 INT4까지, 정확도 지키면서 모델 4배 가볍게 Quantization Master: FP32 to INT4 — 4x Lighter Models Without Losing Accuracy
Dynamic / Static / QAT 양자화와 ONNX 최적화까지, YOLOv8 실습 포함 Dynamic / Static / QAT quantization & ONNX optimization — with YOLOv8 hands-on
Optimization
프루닝 & 지식 증류: 모델 다이어트의 기술 Pruning & Knowledge Distillation: The Art of Model Diet
뉴런을 잘라내고, 작은 모델에 지식을 압축하는 — 경량화 투트랙 전략 Cut neurons, compress knowledge into smaller models — a two-track lightweighting strategy
Serving
LLM 서빙 최적화: 같은 GPU에서 처리량 3배, 월 비용 반으로 LLM Serving Optimization: 3x Throughput, Half the Monthly Cost on the Same GPU
vLLM, TensorRT-LLM, Continuous Batching, PagedAttention — 돈 아끼는 서빙의 정석 vLLM, TensorRT-LLM, Continuous Batching, PagedAttention — the art of cost-efficient serving
Generative AI
Diffusion
DDPM / DDIM 딥다이브: 노이즈에서 이미지가 태어나는 수학 DDPM / DDIM Deep Dive: The Math Behind Images Born from Noise
Forward/Reverse process, 스코어 매칭, 가속 샘플링 — 논문의 수식을 직접 구현합니다 Forward/reverse process, score matching, accelerated sampling — implement the paper's equations yourself
Diffusion
Stable Diffusion 완전 해부: UNet, VAE, CLIP — 이 세 개가 어떻게 이미지를 만드는가 Stable Diffusion Dissected: How UNet, VAE & CLIP Conspire to Create Images
Latent space에서 벌어지는 일을 시각적으로 추적하고, 각 모듈을 교체하면 어떤 일이 생기는지 실험합니다 Visually trace what happens in latent space, and experiment with swapping each module
Diffusion
Flux & 차세대 확산 모델: Stable Diffusion 이후, 게임은 어떻게 바뀌었나 Flux & Next-Gen Diffusion: How the Game Changed After Stable Diffusion
DiT, Flow Matching, Rectified Flow — 아키텍처가 바뀌면 생성 퀄리티와 속도가 동시에 올라갑니다 DiT, Flow Matching, Rectified Flow — when the architecture changes, quality and speed both go up
Diffusion
ControlNet & IP-Adapter: "이 포즈에, 이 스타일로, 이 얼굴로" 통제되는 생성 ControlNet & IP-Adapter: "This Pose, This Style, This Face" — Controlled Generation
포즈, 엣지, 깊이 맵으로 구도를 잡고, 레퍼런스 이미지로 스타일을 고정하는 실전 파이프라인 Lock composition with pose/edge/depth maps, fix style with reference images — a production pipeline
Diffusion
Virtual Try-On: 옷을 사진 위에 입히는 AI, 이커머스의 게임 체인저 Virtual Try-On: AI That Puts Clothes on Photos — E-Commerce Game Changer
Warping, Segmentation, Diffusion Inpainting — CVPR/BMVC 게재 경험 기반, 이커머스 실전 적용까지 Warping, segmentation, diffusion inpainting — from CVPR/BMVC publications to real e-commerce deployment
Fine-tuning
이미지 생성 모델 커스터마이징: 내 브랜드/캐릭터/제품을 학습시키는 법 Image Gen Customization: Teach the Model Your Brand, Character, or Product
DreamBooth, Textual Inversion, LoRA — 이미지 5장이면 나만의 생성 모델이 완성됩니다 DreamBooth, Textual Inversion, LoRA — 5 images is all you need for your own generative model
Video
AI 비디오 생성: 텍스트 → 이미지를 넘어 텍스트 → 영상 시대 AI Video Generation: Beyond Text-to-Image, Welcome to Text-to-Video
Temporal Attention, 모션 모듈, 프레임 일관성 — 영상 생성 모델의 원리와 한계를 짚습니다 Temporal attention, motion modules, frame consistency — principles and limitations of video generation
MLOps
MLOps
MLOps 실전: 모델이 '배포'되는 순간부터가 진짜 시작이다 MLOps in Practice: The Real Game Starts the Moment You Deploy
CI/CD, 모델 레지스트리, A/B 테스트, 모니터링, 드리프트 감지 — 프로덕션 ML의 생존 키트 CI/CD, model registry, A/B testing, monitoring, drift detection — the production ML survival kit
Infrastructure
Infra
우리 팀 GPU 서버, 원클릭 세팅: CUDA부터 Docker까지 삽질 없이 끝내기 One-Click GPU Server Setup: From CUDA to Docker, Zero Yak-Shaving
드라이버 충돌, CUDA 버전 지옥, 컨테이너 GPU 패스스루 — 한 번 세팅하면 팀 전체가 쓰는 환경 구축 Driver conflicts, CUDA version hell, container GPU passthrough — set it up once, the whole team benefits
Infra
AI 서비스 배포 파이프라인: 모델을 API로 내보내는 가장 빠른 경로 AI Deployment Pipeline: The Fastest Path from Model to API
FastAPI, Triton, Kubernetes — 로컬 노트북에서 프로덕션 엔드포인트까지 원스텝으로 연결합니다 FastAPI, Triton, Kubernetes — one step from your local notebook to a production endpoint
Infra
클라우드 GPU 비용 최적화: AWS/GCP에서 70% 덜 쓰는 실전 전략 Cloud GPU Cost Optimization: Spend 70% Less on AWS/GCP
스팟 인스턴스, 오토스케일링, 멀티 클라우드 전략 — 매달 나가는 GPU 비용, 진짜 이만큼 줄어듭니다 Spot instances, autoscaling, multi-cloud strategy — your monthly GPU bill really can shrink this much
Math & Statistics for AI Math & Statistics for AI
Statistics
ML을 위한 통계: 수식이 아니라 코드로 이해하는 확률과 분포 Statistics for ML: Understand Probability & Distributions Through Code, Not Formulas
베이즈 정리, MLE, 분포 추정 — 논문에 나오는 그 수식, Python 10줄이면 직관이 잡힙니다 Bayes' theorem, MLE, distribution estimation — those paper formulas click with just 10 lines of Python
Linear Algebra
AI를 위한 선형대수: Transformer가 행렬 곱셈인 이유 Linear Algebra for AI: Why Transformers Are Just Matrix Multiplications
벡터 공간, 고유값 분해, Attention은 결국 projection — 딥러닝의 뼈대를 수학으로 꿰뚫습니다 Vector spaces, eigendecomposition, Attention as projection — see deep learning's skeleton through the math
A/B Testing
A/B 테스트 제대로: "유의미합니다"를 근거 있게 말하는 법 A/B Testing Done Right: How to Say "Statistically Significant" and Mean It
가설 검정, p-value, 검정력 분석, 표본 크기 설계 — 마케팅과 프로덕트 의사결정을 숫자로 무장시킵니다 Hypothesis testing, p-values, power analysis, sample sizing — arm your marketing & product decisions with numbers
Data Analysis
데이터 분석 실전: 숫자 뒤에 숨은 스토리를 찾아내는 기술 Data Analysis in Practice: Finding the Story Hidden Behind the Numbers
EDA, 코호트 분석, 퍼널 최적화, 이탈 예측 — 마케팅·그로스 현장에서 검증된 분석 프레임워크 EDA, cohort analysis, funnel optimization, churn prediction — battle-tested frameworks from marketing & growth
Ideation & Planning Ideation & Planning
Planning
AI 서비스 기획 A to Z: 아이디어에서 MVP까지, 막히지 않는 흐름 만들기 AI Service Planning A to Z: From Idea to MVP Without Getting Stuck
문제 정의 → 기능 범위 → 우선순위 → 프로토타입, 기술팀과 기획팀 사이 번역가 역할까지 Problem definition → scoping → prioritization → prototyping, including translating between engineering and planning
Ideation
"기술로 뭘 만들지" 고민되는 분들을 위한 아이데이션 워크숍 Ideation Workshop for "What Should I Build with This Tech?"
고객 관점에서 AI로 풀 만한 문제를 찾는 프레임워크, 기술 스펙에 갇히지 않는 발상법 A framework for finding customer problems worth solving with AI, without getting trapped in tech specs
Proposal
AI 프로젝트 제안서 작성: 기술을 비전문가에게 설명하는 기술 Writing AI Project Proposals: The Art of Explaining Tech to Non-Experts
R&D 과제, AI 바우처 등 제안서의 구조와 스토리라인, 평가 기준 관점에서 역산 설계 Structure and storyline for R&D and AI voucher proposals — design backwards from evaluation criteria
Hackathon
해커톤 & 공모전 준비 전략: 제한 시간 안에 데모까지 만드는 실전 플레이북 Hackathon & Competition Playbook: Build a Demo Within the Time Limit
주제 해석, 역할 분담, 시간 배분, 데모 시나리오 — 완성도 있게 마무리하는 법 Topic interpretation, role assignment, time management, demo scenarios — finishing with polish
Side Project
사이드 프로젝트 기획: 혼자서도 완성 가능한 범위로 자르는 법 Side Project Planning: How to Scope Down to What You Can Actually Finish Alone
욕심 줄이고 출시 확률 올리는 스코프 설계, 기술 선택과 일정 관리 Scope design that boosts your ship rate, tech stack choices, and realistic scheduling
Hands-on Projects Hands-on Projects
RAG
우리 회사 데이터로 만드는 사내 AI 챗봇: 질문하면 알아서 찾아주는 동료 Build an Internal AI Chatbot with Your Company Data: A Colleague That Finds Answers for You
사내 문서, 위키, Slack 히스토리를 RAG로 연결 — "이거 어디 있어요?" 질문에 5초 안에 답하는 봇 Connect internal docs, wiki, Slack history via RAG — a bot that answers "where is this?" in 5 seconds
LLM
고객 리뷰 수천 개, AI가 1분 만에 인사이트로: 감성 분석 파이프라인 구축 Thousands of Reviews to Insights in 1 Minute: Build a Sentiment Analysis Pipeline
크롤링 → LLM 분류 → 대시보드까지, "고객이 진짜 원하는 게 뭔지" 자동으로 뽑아내는 시스템 Crawling → LLM classification → dashboard — a system that automatically extracts what customers really want
Diffusion
노트북에서 바로 배포하는 AI 이미지 생성기: 프롬프트 한 줄로 상품 이미지 찍기 Deploy an AI Image Generator from Your Notebook: Product Photos from a Single Prompt
Stable Diffusion + ControlNet + LoRA 커스텀 — 우리 브랜드 스타일에 맞는 이미지를 무한 생산 Stable Diffusion + ControlNet + custom LoRA — infinite images in your brand's style
Agent
먼저 말 거는 AI: 상황을 읽고 선제 대응하는 Proactive 챗봇 만들기 AI That Speaks First: Build a Proactive Chatbot That Reads the Situation
유저 행동 패턴 감지 → 트리거 설계 → 자동 메시지 생성 — "고객이 이탈하기 전에 먼저 말을 건다" User behavior detection → trigger design → auto messaging — "reach out before the customer churns"
MLOps
사이드 프로젝트 AI를 실서비스로: 주말에 만든 모델, 월요일에 배포하기 Side Project to Production: Deploy Your Weekend Model on Monday
Gradio 프로토타입 → Docker 패키징 → 클라우드 배포 → 모니터링까지 48시간 스프린트 Gradio prototype → Docker packaging → cloud deploy → monitoring — a 48-hour sprint
← sangho.ai