2026-05-02 log

Hermes Agent + gemma4-31b 실사용 후기

터미널에서 Hermes chat + nvidia nim api(gemma4 31b)로 사용. 작업은 codex와 claude code의 로컬 대화내용 + 프로젝트의 docs 폴더의 문서 기반으로 로컬에서 그나마 돌릴 수 있는 것중의 가장 높은 성능의 모델들을 테스트한 내용을 문서화하는것.

Hermes Agent

어떤 문서를 읽었는지 알 수가 없음 => 정확하게 뭘하면 어떤 명령을 실행했는지조차 알수가 없음? 대체 왜?
그리고 스킬을 쓴것인지 안 쓴것인지 분별이 안됨.

gemma4-31b

일단 환각 증상이 좀 보임. 분명 opus와 gpt는 qwen모델의 작업능력을 가장 높게 평가했는데 minimax가 가장 좋다고 이야기함.
다만 작업 자체가 난이도가 높았던것도 있는듯. 평가방법론이 중간에 바뀌고 어떤 데이터가 진짜 유효한 데이터인지 분별하는 능력이 요구되는 등. 더 큰 모델로 실행해보는것이 좋을 수도?
아무래도 한번에 너무 많은 작업을 시킨 걸수도?
더 큰 모델에게 작업을 더 세분화하고 정보를 더 많이 줘서 테스트 해볼 필요가 있음.
dense 모델이라 너무 기대를 했나봄