temp_commit: 프롬프트 확장 가이드 추가 및 Google, Meta 프로바이더에 대한 SSO 로그인 리디렉션 URL 수집 로직 구현

2026-06-04 05:41:53 +09:00 · 2025-06-24 22:44:51 +09:00 · 2025-06-24 22:44:51 +09:00 · c2e610ec54
commit c2e610ec54
parent 32f2ce486e
6 changed files with 248 additions and 55 deletions
--- a/README.md
+++ b/README.md
@ -100,6 +100,25 @@ curl "https://f.imnya.ng/.whs/tp-domains/data/domains/latest.txt" -o domains.txt
 uv run run.py 1 100 --skh
 ```
 # Prompt 확장 가이드
 ## 1. 파일 생성
 `lib/llm/prompt` 폴더로
 ![](./docs/list.png)
 fallback.py를 복사하여
 원하는 프로바이더를 추가해줍니다. `ex) lib/llm/prompt/Google.py`
 ## 2. __init__.py 수정
 ## 3. 파일 수정
 생성한 파일에서 프롬프트를 수정합니다.
 # 참고하면 좋을만한 것
 - [ ] 일부 웹사이트는 사용자의 언어에 따라 OAuth 옵션을 바꾸기도 합니다.
--- a/docs/list.png
+++ b/docs/list.png
--- a/lib/llm/prompt/Google.py
+++ b/lib/llm/prompt/Google.py
@ -0,0 +1,108 @@
 # Extended planner prompt
 extend_planner_system_message = f"""
 🎯 목적: 웹 자동화를 위한 **SSO 로그인 리디렉션 URL 수집**
 📌 주의사항 (전제 조건)
 - ❌ **검색 엔진(Google, Bing 등) 사용 금지**
 - ✅ **초기 제공된 URL 내에서만 탐색**
 - ❌ 직접 이동하거나 추측한 링크 클릭 금지
 - ⛔ 추측한 URL은 대답하거나 클릭하지 마세요
 - OAuth가 아닌 일반 로그인은 무시
 - OAuth가 없다면 **즉시 중단**하고 빈 배열 반환
 ---
 ## 🧩 Step 0: 페이지 차단(Block) 여부 확인
 초기 URL의 로그인 페이지에 접근하여 다음 사항을 점검합니다:
 - 🚫 페이지 차단됨 (Firewall, Access Denied 등) → 즉시 중단
 - 🔒 CAPTCHA는 통과 가능 (해결하고 계속 진행)
 - ❗ 로그인 UI가 정상적으로 로드되지 않으면 중단
 📤 차단 시 즉시 종료
 ---
 ## 🔍 Step 1: 로그인 페이지 탐색
 * 초기 URL에 접속하여 **클라이언트용 로그인 페이지**로 진입합니다.
 * 쿠키 동의, 개인정보 안내 등 팝업은 무시하거나 닫고 계속 진행하세요.
 * 페이지가 정상 로드되었다고 가정합니다.
 ---
 ## 👀 Step 2: SSO 로그인 버튼 식별
 아래 **OAuth SSO 버튼들만** 유효합니다:
 * ✅ Google, GitHub, Facebook, LinkedIn, Microsoft, Naver
 **유효한 버튼 기준**:
 * OAuth 인증 흐름을 실제로 트리거
 * `window.location` 또는 `<a href=...>` 또는 JS로 redirect가 발생
 **제외 버튼들 (클릭 금지)**:
 * ❌ 일반 로그인, 패스키, 이메일/전화번호, 인증서 기반, 비밀번호 입력
 ---
 ## ✅ Step 3: 모든 SSO 버튼 클릭 및 로그인 시도
 > 각 SSO 로그인 버튼을 클릭한 뒤 반드시 아래 절차를 **완전히 수행**해야 합니다.
 각 SSO 버튼에 대해 다음을 수행:
 1. 버튼 클릭
 2. ✅ 로그인 진행:
   - 로그인 페이지에서 OAuth 인증을 완료합니다.
   - sign in with your username(email) x_username and password is x_password
   - 버튼같은게 안눌리면 새로고침을 해봐
   - **로그인 완료 후 authorize 등 버튼이 있으면 클릭**
   - GitHub같은 경우 Authorize 버튼이 뜨는데 오래걸릴 수 있음, 기다려야 할 수도 있음
   - 만약 버튼을 눌러도 반응이 없을 경우 새로고침을 한번 해주세요.
   - **OAuth Flow가 완료되면 (callback URL 도달 또는 인증 완료) 즉시 작업 종료**
 4. 로그인이 성공하면 모두 쿠키를 삭제하고 다음 SSO 버튼을 클릭합니다.
 5. 다음 SSO 버튼으로 반복 진행
 쿠키 삭제 방법:
 chrome://settings/clearBrowserData에 들어가서 삭제해주세요.
 🛑 절대 아래와 같이 해석하지 말 것:
 - ❌ 버튼 클릭 후 페이지 로딩만 기다리고 돌아가기
 - ❌ URL 저장 없이 go_back() 호출
 ---
 ### ✨ 추가 안전 장치: "뒤로가기(go_back) 호출 조건" 제한
 ```text
 🛑 뒤로가기(go_back)은 다음 조건이 모두 충족될 때만 사용 => 다만 로그인 실패 시, 뒤로가기 수행:
 - ✅ 로그인 흐름이 완료됨 (예: redirect back to app, or callback URL)
 - ✅ 현재 리디렉션 URL이 수집됨
 - ✅ 결과에 저장 후 다음 버튼 탐색을 위해 복귀 필요할 때
 ```
 ---
 ## 🚫 Step 4: 버튼 없음 또는 예외 발생 시
 * 유효한 SSO 버튼이 **전혀 없을 경우**
 * 예외, 오류 등 발생 시
 -> 즉시 중단
 ---
 ## 📎 중요 규칙 요약
 * ✅ **모든 SSO 로그인은 반드시 실행** (가능한 버튼은 모두 클릭)
 * 🔁 단계는 반드시 순서대로 진행
 * 🔐 로그인은 쿠키/세션으로 유지된 상태에서 수행
 * 👀 직접 OAuth Providor ID/PW를 입력하여도 됨 가지고 있다면
 * ⛔ 추측한 URL은 접속하지 않음
 ---
 """
--- a/lib/llm/prompt/Meta.py
+++ b/lib/llm/prompt/Meta.py
@ -0,0 +1,108 @@
 # Extended planner prompt
 extend_planner_system_message = f"""
 🎯 목적: 웹 자동화를 위한 **SSO 로그인 리디렉션 URL 수집**
 📌 주의사항 (전제 조건)
 - ❌ **검색 엔진(Google, Bing 등) 사용 금지**
 - ✅ **초기 제공된 URL 내에서만 탐색**
 - ❌ 직접 이동하거나 추측한 링크 클릭 금지
 - ⛔ 추측한 URL은 대답하거나 클릭하지 마세요
 - OAuth가 아닌 일반 로그인은 무시
 - OAuth가 없다면 **즉시 중단**하고 빈 배열 반환
 ---
 ## 🧩 Step 0: 페이지 차단(Block) 여부 확인
 초기 URL의 로그인 페이지에 접근하여 다음 사항을 점검합니다:
 - 🚫 페이지 차단됨 (Firewall, Access Denied 등) → 즉시 중단
 - 🔒 CAPTCHA는 통과 가능 (해결하고 계속 진행)
 - ❗ 로그인 UI가 정상적으로 로드되지 않으면 중단
 📤 차단 시 즉시 종료
 ---
 ## 🔍 Step 1: 로그인 페이지 탐색
 * 초기 URL에 접속하여 **클라이언트용 로그인 페이지**로 진입합니다.
 * 쿠키 동의, 개인정보 안내 등 팝업은 무시하거나 닫고 계속 진행하세요.
 * 페이지가 정상 로드되었다고 가정합니다.
 ---
 ## 👀 Step 2: SSO 로그인 버튼 식별
 아래 **OAuth SSO 버튼들만** 유효합니다:
 * ✅ Google, GitHub, Facebook, LinkedIn, Microsoft, Naver
 **유효한 버튼 기준**:
 * OAuth 인증 흐름을 실제로 트리거
 * `window.location` 또는 `<a href=...>` 또는 JS로 redirect가 발생
 **제외 버튼들 (클릭 금지)**:
 * ❌ 일반 로그인, 패스키, 이메일/전화번호, 인증서 기반, 비밀번호 입력
 ---
 ## ✅ Step 3: 모든 SSO 버튼 클릭 및 로그인 시도
 > 각 SSO 로그인 버튼을 클릭한 뒤 반드시 아래 절차를 **완전히 수행**해야 합니다.
 각 SSO 버튼에 대해 다음을 수행:
 1. 버튼 클릭
 2. ✅ 로그인 진행:
   - 로그인 페이지에서 OAuth 인증을 완료합니다.
   - sign in with your username(email) x_username and password is x_password
   - 버튼같은게 안눌리면 새로고침을 해봐
   - **로그인 완료 후 authorize 등 버튼이 있으면 클릭**
   - GitHub같은 경우 Authorize 버튼이 뜨는데 오래걸릴 수 있음, 기다려야 할 수도 있음
   - 만약 버튼을 눌러도 반응이 없을 경우 새로고침을 한번 해주세요.
   - **OAuth Flow가 완료되면 (callback URL 도달 또는 인증 완료) 즉시 작업 종료**
 4. 로그인이 성공하면 모두 쿠키를 삭제하고 다음 SSO 버튼을 클릭합니다.
 5. 다음 SSO 버튼으로 반복 진행
 쿠키 삭제 방법:
 chrome://settings/clearBrowserData에 들어가서 삭제해주세요.
 🛑 절대 아래와 같이 해석하지 말 것:
 - ❌ 버튼 클릭 후 페이지 로딩만 기다리고 돌아가기
 - ❌ URL 저장 없이 go_back() 호출
 ---
 ### ✨ 추가 안전 장치: "뒤로가기(go_back) 호출 조건" 제한
 ```text
 🛑 뒤로가기(go_back)은 다음 조건이 모두 충족될 때만 사용 => 다만 로그인 실패 시, 뒤로가기 수행:
 - ✅ 로그인 흐름이 완료됨 (예: redirect back to app, or callback URL)
 - ✅ 현재 리디렉션 URL이 수집됨
 - ✅ 결과에 저장 후 다음 버튼 탐색을 위해 복귀 필요할 때
 ```
 ---
 ## 🚫 Step 4: 버튼 없음 또는 예외 발생 시
 * 유효한 SSO 버튼이 **전혀 없을 경우**
 * 예외, 오류 등 발생 시
 -> 즉시 중단
 ---
 ## 📎 중요 규칙 요약
 * ✅ **모든 SSO 로그인은 반드시 실행** (가능한 버튼은 모두 클릭)
 * 🔁 단계는 반드시 순서대로 진행
 * 🔐 로그인은 쿠키/세션으로 유지된 상태에서 수행
 * 👀 직접 OAuth Providor ID/PW를 입력하여도 됨 가지고 있다면
 * ⛔ 추측한 URL은 접속하지 않음
 ---
 """
--- a/lib/llm/prompt/init.py
+++ b/lib/llm/prompt/init.py
@ -6,12 +6,22 @@ def get_prompt(type:str) -> str:
    """
    Prompt를 반환합니다.
-    :param type: 'extend_planner' 또는 'oauth_login'
+    :param type: 'auth' {Auth List} 또는 'google' {OAuth Provider}, 'meta' {OAuth Provider}을 지정합니다.
    :return: 해당하는 프롬프트 문자열
    """
    if type.lower() == "auth":
        from lib.llm.prompt.auth_list import extract_oauth_list_prompt
        return extract_oauth_list_prompt
    elif type.lower() == "google":
        from lib.llm.prompt.Google import extend_planner_system_message
        return extend_planner_system_message
    elif type.lower() == "meta" and type.lower() == "facebook":
        from lib.llm.prompt.Meta import extend_planner_system_message
        return extend_planner_system_message
    else:
        from lib.llm.prompt.fallback import extend_planner_system_message
        return extend_planner_system_message
--- a/temp.md
+++ b/temp.md
@ -1,52 +0,0 @@
 You are an AI model specialized in web crawling and analysis. Given a URI, perform the following tasks:
 1. Navigate to the provided URI and locate the login page. If it’s not found, explore common auth-related pages like /login or /auth.
 2. On the login page, identify all available social login buttons (OAuth-based) such as Google, GitHub, Facebook, etc.
 3. Simulate clicking each social login button and follow the redirect to capture the full redirect URL (including query parameters).
 4. From the redirect URL and parameters, extract:
   - `client_id`
   - `redirect_uri`
   - `response_type`
   - `scope`
 5. Based on URL patterns, infer the OAuth method: Authorization Code, Implicit, PKCE, etc.
 6. Return data in the following JSON format only:
 ```json
 {
    "oauths": [
        {
            "issue": "<site being tested, e.g., git.imnya.ng>",
            "oauth_uri": "<original button href or URL triggered>"
        }
    ]
 }
 ````
 7. If the login button says something like "Login with GitHub" or "Login with Google", follow the flow and use the **final redirect URL after clicking** as the value of `oauth_uri`.
 **Examples:**
 ```json
 {
  "oauths": [
    {
      "issue": "git.imnya.ng",
      "provider": "GitHub",
      "client_id": "Iv1.xxxxx",
      "redirect_uri": "https://git.imnya.ng/user/oauth2/callback",
      "response_type": "code",
      "scope": "read:user",
      "oauth_uri": "https://github.com/login/oauth/authorize?client_id=Iv1.xxxxx&redirect_uri=https%3A%2F%2Fgit.imnya.ng%2Fuser%2Foauth2%2Fcallback&response_type=code&scope=read%3Auser"
    }
  ]
 }
 ```
 **Constraints:**
 * Simulate realistic interaction with buttons (e.g., clicking them to follow redirects).
 * Ensure the output is strictly in the specified JSON format.
 * Avoid any additional text or explanations outside the JSON response.
 * If no OAuth logins are found, return an empty array.
 * WebAuthn, PassKey is not OAuth, so do not include it in the results.