Data Engineer
Construa o GTM Data Lake que alimenta nossos agentes de IA
A SCIENT constrói produto de IA para operações de receita B2B. O desafio: dados de CRM, ERP, reuniões e planilhas chegam de fontes inconsistentes. Você construirá a infraestrutura, Arquitetura Medallion (Bronze, Silver, Gold) sobre GCP/AWS, com camada Gold para consumo por LLMs via MCP Server.
O QUE VOCÊ VAI FAZER
- Projetar a arquitetura do GTM Data Lake: camadas Medallion, ingestão estruturada e não-estruturada (transcrições, WhatsApp)
- Implementar pipelines de ingestão via APIs REST: HubSpot CRM/Marketing Hub, Omie ERP, Google Sheets, webhooks (Fathom)
- Construir transformações dbt para métricas de receita (MRR, NRR, GRR, LTV, CAC, ciclo de vendas, MQA para SQL)
- Aplicar MDM para unificar entidades entre fontes
- Garantir data quality: validações, alertas de freshness, tratamento de nulls e duplicados
- Expor a camada Gold via MCP Server para consumo por agentes de IA
- Criar planos incrementais (P0, P1, P2) com entregas por sprint
O QUE ESPERAMOS
- 2 a 4 anos de experiência em engenharia de dados em produção
- Python sólido para scripts de ingestão, transformação e orquestração
- Experiência com APIs REST (paginação, rate limits, OAuth)
- Arquitetura Medallion ou similar
- dbt para modelagem e transformações SQL
- Cloud data warehouse: BigQuery (preferência), Snowflake ou Redshift
- Cloud storage: GCS ou AWS S3
- Documentar decisões arquiteturais e trade-offs
DIFERENCIAIS
- MCP Server (Model Context Protocol)
- APIs de HubSpot, Omie, Salesforce ou Pipedrive
- Orquestração: Airflow, Prefect
- Dados não-estruturados (transcrições, chunking, embeddings)
- RevOps e métricas SaaS (NRR, GRR, LTV)
- Pipelines integrados com AI/ML
- OpenClaw, framework de agentes da SCIENT