Apps com AI (system prompts) e benchmarks de LLMs

Sobre System Prompts:

As IDEs com IA abstraem a necessidade de prompts pois injetam os seus próprios, focando em otimizar o uso de tokens e economizar na LLM, obtendo assim a margem deles. Nos repositórios abaixo há os prompts usados nas IDEs e outros apps que embarcam IA:

O repositório leaked-system-prompts reúne system prompts internos de diversos modelos de IA, como ChatGPT, Claude, Gemini, entre outros.

Já o repositório system-prompts-and-models-of-ai-tools vai além da simples coleta de prompts, detalha as configurações dos modelos, parâmetros utilizados e exemplos.

Sobre benchmarks de LLMs:

https://arcprize.org/leaderboard - Mais acadêmico, compara o score alcançado versus o custo.

https://www.swebench.com/ - Prático e técnico: colocam os modelos para resolver problemas (issues/bugs) reais no github

https://codeclash.ai/ - semelhante ao swebench, mas neste caso, as LLMs fazem 'Hackathons': colocadas para criar (do zero) jogos orientados a programação, seguindo todos os passos do desenvolvimento de software.

Tanto para resolver issues e bugs, quanto para desenvolver aplicações e jogos, no top do ranking está o Claude da Anthropic.

More from >_
All posts