[Refactor] 프롬프트를 다른 파일로 분리

This commit is contained in:
tv0924@icloud.com 2025-06-08 21:09:05 +09:00
commit a655697b0f
4 changed files with 135 additions and 137 deletions

2
.gitignore vendored
View file

@ -78,4 +78,6 @@ $RECYCLE.BIN/
# Windows shortcuts
*.lnk
my.sh
# End of https://www.toptal.com/developers/gitignore/api/macos,windows

71
lib/prompt.py Normal file
View file

@ -0,0 +1,71 @@
# Extended planner prompt
extend_planner_system_message = """
🎯 Mission: Collect Initial SSO Redirect URLs (For Browser Automation)
**절대로 구글 검색, Bing 검색 어떤 외부 검색 기능도 사용하지 말고, 주어진 로그인 페이지 URL을 직접 방문하여 탐색하세요.**
0. **초기 블록(Block) 체크**
- 브라우저가 로그인 페이지에 접근하려 , **페이지가 차단(blocked)** 되거나 **방화벽, CAPTCHA, 접근 제한** 등으로 인해 정상적으로 로드되지 않으면 즉시 프로세스를 종료하고 아래 JSON만 반환해야 합니다.
```json
[
{
"provider": "Blocked",
"oauth_uri": "-"
}
]
```
- 이후 단계로 절대 넘어가지 않도록 합니다.
1. **로그인 페이지 탐색**
- **클라이언트(비엔터프라이즈) 로그인 페이지** 직접 이동합니다. (검색 엔진을 사용하여 찾아서는 됩니다.)
- 접근 **개인정보/쿠키/동의 팝업** 뜨면, 이를 반드시 **닫거나(Dismiss)** 처리하고 계속 진행합니다.
- (이미 0단계에서 블록 여부를 확인했으므로, 단계에서는 페이지가 정상 로드되었다고 가정합니다.)
2. **SSO 버튼 식별**
- 로그인 페이지에서 다음과 같은 소셜 로그인 버튼을 찾습니다:
- Continue with Google
- Sign in with GitHub
- Login with Naver
- **실제 SSO 버튼**임이 명확히 확인되는 경우에만 진행합니다.
- 제외 대상:
- Passkey 관련 버튼
- 아이디/비밀번호 입력란
- 이메일 기반 로그인
- 인증서, 휴대폰 인증 -OAuth 로그인 옵션
3. **리디렉션 URL 캡처**
- 유효한 SSO 버튼을 하나 이상 찾았다면, 각각의 버튼을 ** 탭으로 열기** 시도하거나, 불가능할 경우 **직접 클릭**합니다.
- 클릭 번째로 **리디렉션된 URL(쿼리 스트링 포함)** 캡처합니다. URL은:
- 예시: `https://example.com/auth/google?include_all_params=...`
- **OAuth 공급자 자체 엔드포인트** (: `https://accounts.google.com/...`) 수집하지 않습니다.
- 만약 **반복 행동(looping)** 감지될 경우(: 동일한 버튼을 여러 열거나 페이지 반복 이동), 즉시 프로세스를 종료하고 ** 배열** 반환합니다:
```json
[]
```
- 정상적으로 리디렉션 URL을 획득했다면, 아래 형식으로 결과를 수집합니다:
```json
[
{
"provider": "Google",
"oauth_uri": "https://example.com/auth/google?include_all_params=..."
},
{
"provider": "GitHub",
"oauth_uri": "https://example.com/auth/github?include_all_params=..."
}
]
```
4. **SSO 버튼 미발견 또는 오류 발생 **
- 페이지 내부에 유효한 SSO 버튼이 전혀 없거나, 탐색 예기치 않은 오류가 발생하면 즉시 프로세스를 종료하고 ** 배열** 반환합니다:
```json
[]
```
5. **중요 사항**
- **반드시** 위의 단계들을 순서대로 수행해야 하며, 단계에서 발생하는 예외 상황을 정확히 처리해야 합니다.
- **반복 행동** 감지되면 즉시 배열을 반환하고, **블록된 페이지** 초기 단계에서 처리하여 프로세스를 종료해야 합니다.
- **SSO 버튼이 발견되지 않거나, 오류가 발생한 경우에도 배열을 반환해야 합니다.**
- **반드시** JSON 형식으로 결과를 반환해야 하며, 다른 형식은 허용되지 않습니다.
- 최대한 효율적인 단계로 진행하며, 불필요한 반복이나 검색 엔진 사용을 피해야 합니다.
"""

120
main.py
View file

@ -13,6 +13,7 @@ from browser_use.browser.context import BrowserContext, BrowserContextConfig
from lib.browser_config import browser_config_kwargs
from lib.is_html import is_html_url
from lib.read_txt import read_lines_between
from lib.prompt import extend_planner_system_message
load_dotenv()
@ -33,92 +34,16 @@ class OAuth(BaseModel):
class OAuthList(BaseModel):
oauth_providers: List[OAuth]
# Controller는 매번 새로 생성해도 무방합니다.
def make_controller():
return Controller(output_model=OAuthList)
# Extended planner prompt
extend_planner_system_message = """
🎯 Mission: Collect Initial SSO Redirect URLs (For Browser Automation)
**절대로 구글 검색, Bing 검색 어떤 외부 검색 기능도 사용하지 말고, 주어진 로그인 페이지 URL을 직접 방문하여 탐색하세요.**
0. **초기 블록(Block) 체크**
- 브라우저가 로그인 페이지에 접근하려 , **페이지가 차단(blocked)** 되거나 **방화벽, CAPTCHA, 접근 제한** 등으로 인해 정상적으로 로드되지 않으면 즉시 프로세스를 종료하고 아래 JSON만 반환해야 합니다.
```json
[
{
"provider": "Blocked",
"oauth_uri": "-"
}
]
```
- 이후 단계로 절대 넘어가지 않도록 합니다.
1. **로그인 페이지 탐색**
- **클라이언트(비엔터프라이즈) 로그인 페이지** 직접 이동합니다. (검색 엔진을 사용하여 찾아서는 됩니다.)
- 접근 **개인정보/쿠키/동의 팝업** 뜨면, 이를 반드시 **닫거나(Dismiss)** 처리하고 계속 진행합니다.
- (이미 0단계에서 블록 여부를 확인했으므로, 단계에서는 페이지가 정상 로드되었다고 가정합니다.)
2. **SSO 버튼 식별**
- 로그인 페이지에서 다음과 같은 소셜 로그인 버튼을 찾습니다:
- Continue with Google
- Sign in with GitHub
- Login with Naver
- **실제 SSO 버튼**임이 명확히 확인되는 경우에만 진행합니다.
- 제외 대상:
- Passkey 관련 버튼
- 아이디/비밀번호 입력란
- 이메일 기반 로그인
- 인증서, 휴대폰 인증 -OAuth 로그인 옵션
3. **리디렉션 URL 캡처**
- 유효한 SSO 버튼을 하나 이상 찾았다면, 각각의 버튼을 ** 탭으로 열기** 시도하거나, 불가능할 경우 **직접 클릭**합니다.
- 클릭 번째로 **리디렉션된 URL(쿼리 스트링 포함)** 캡처합니다. URL은:
- 예시: `https://example.com/auth/google?include_all_params=...`
- **OAuth 공급자 자체 엔드포인트** (: `https://accounts.google.com/...`) 수집하지 않습니다.
- 만약 **반복 행동(looping)** 감지될 경우(: 동일한 버튼을 여러 열거나 페이지 반복 이동), 즉시 프로세스를 종료하고 ** 배열** 반환합니다:
```json
[]
```
- 정상적으로 리디렉션 URL을 획득했다면, 아래 형식으로 결과를 수집합니다:
```json
[
{
"provider": "Google",
"oauth_uri": "https://example.com/auth/google?include_all_params=..."
},
{
"provider": "GitHub",
"oauth_uri": "https://example.com/auth/github?include_all_params=..."
}
]
```
4. **SSO 버튼 미발견 또는 오류 발생 **
- 페이지 내부에 유효한 SSO 버튼이 전혀 없거나, 탐색 예기치 않은 오류가 발생하면 즉시 프로세스를 종료하고 ** 배열** 반환합니다:
```json
[]
```
5. **중요 사항**
- **반드시** 위의 단계들을 순서대로 수행해야 하며, 단계에서 발생하는 예외 상황을 정확히 처리해야 합니다.
- **반복 행동** 감지되면 즉시 배열을 반환하고, **블록된 페이지** 초기 단계에서 처리하여 프로세스를 종료해야 합니다.
- **SSO 버튼이 발견되지 않거나, 오류가 발생한 경우에도 배열을 반환해야 합니다.**
- **반드시** JSON 형식으로 결과를 반환해야 하며, 다른 형식은 허용되지 않습니다.
- 최대한 효율적인 단계로 진행하며, 불필요한 반복이나 검색 엔진 사용을 피해야 합니다.
"""
# ── URL별로 Browser를 새로 띄우는 함수 ──
async def scan_one_url(url: str, skip_html_check: bool = False):
# 1) URL이 HTML 페이지인지 확인
if not is_html_url(url) and not skip_html_check:
print(f"{url} 은(는) HTML이 아닙니다. 스킵합니다.")
return
target_url = url if url.startswith("http") else f"https://{url}"
print(f"🚀 Starting scan for: {target_url}")
# 1) URL이 HTML 페이지인지 확인
if not is_html_url(target_url) and not skip_html_check:
print(f"{target_url} 은(는) HTML이 아닙니다. 스킵합니다.")
return
# Backend에 스캔 시작을 알림
try:
response = requests.post(f"{backend_url}/start", params={"url": target_url}, timeout=5)
@ -133,7 +58,6 @@ async def scan_one_url(url: str, skip_html_check: bool = False):
except Exception as e:
print(f"⚠️ Failed to notify backend: {e}")
while True:
# 2) Browser + Context 생성
browser = Browser(config=BrowserConfig(**browser_config_kwargs()))
context = BrowserContext(
@ -150,12 +74,11 @@ async def scan_one_url(url: str, skip_html_check: bool = False):
)
# 3) Agent, Controller 생성
initial_actions = [
{'open_tab': {'url': url}}
{'open_tab': {'url': target_url, 'wait_for_network_idle': True}},
]
controller = make_controller()
controller = Controller(output_model=OAuthList)
agent = Agent(
browser_context=context,
browser=browser,
@ -168,10 +91,12 @@ async def scan_one_url(url: str, skip_html_check: bool = False):
retry_delay=60,
)
try_cnt = 0
while True:
try:
# 4) 실제 스캔 실행
response = await agent.run()
final_result = response.final_result()
final_result = response.final_reult()
if final_result is None:
raise ValueError("final_result()가 None을 반환했습니다.")
@ -203,16 +128,20 @@ async def scan_one_url(url: str, skip_html_check: bool = False):
writer.writerow([url, entry.provider, entry.oauth_uri])
print(f"✅ OAuth providers saved to {csv_file}\n")
# 7) Agent와 Browser 닫기
await agent.close() # Agent 내부 작업 정리
await context.close() # 브라우저 컨텍스트 종료 (탭/세션 닫기)
await browser.close() # 실제 브라우저 프로세스 종료
# 성공적으로 처리했으므로 반복문 탈출
break
except Exception as e:
print(f"⚠️ 429 에러 발생, 60초 대기 후 재시도합니다. (URL: {url})")
if try_cnt >= 3:
print(f"{url} 스캔에 실패했습니다. 에러: {e}")
break
try_cnt += 1
print(f"⚠️ 에러 발생, 60초 대기 후 재시도합니다. (URL: {url})")
# 1분 대기
await asyncio.sleep(60)
# 반복문을 통해 재시도
continue
# 리소스 정리
try:
@ -228,11 +157,6 @@ async def scan_one_url(url: str, skip_html_check: bool = False):
except:
pass
# 1분 대기
await asyncio.sleep(60)
# 반복문을 통해 재시도
continue
async def loop(filepath: str, start_line: int, end_line: int, skip_html_check: bool = False):
# 인자값으로 받은 파일 경로와 줄 범위를 통해 도메인 리스트 생성
target_list = read_lines_between(
@ -248,7 +172,7 @@ async def loop(filepath: str, start_line: int, end_line: int, skip_html_check: b
# scan_one_url은 외부에 정의된 비동기 함수라고 가정합니다.
# 실제로 scan_one_url이 정의된 위치를 import하거나
# 모듈 수준에 구현해두셔야 합니다.
await scan_one_url(f'http://{url}', skip_html_check=skip_html_check)
await scan_one_url(url, skip_html_check=skip_html_check)
def main():

1
run.sh
View file

@ -34,6 +34,7 @@ while [ "$current" -le "$END_LINE" ]; do
uv run "$PYTHON_SCRIPT" -f "$DOMAIN_FILE" -s "$current" -e "$chunk_end" -skh $SKH_OPTION
current=$(( chunk_end + 1 ))
sleep 1 # 1초 대기
done
echo "모든 청크 처리 완료."