Lead Gen AI Engineer

CCS INC•Plano, TX

11d

About The Position

Design scalable and robust GenAI architectures using LLMs, multimodal models, and retrieval-augmented generation (RAG). Fine-tune foundation models using domain-specific data. Implement prompt engineering, instruction tuning, and reinforcement learning from human feedback (RLHF). Integrate GenAI capabilities into enterprise platforms using APIs, SDKs, and orchestration tools. Implement responsible AI practices including bias detection, hallucination mitigation, and explainability. Monitor and optimize model performance, latency, and cost. Use techniques like quantization, distillation, and caching to improve efficiency.

Requirements

8+ years of software engineering and development experience
Proven experience in building and deploying GenAI applications in production.
Strong programming skills in Python and familiarity with GenAI libraries (Transformers, LangChain, Hugging Face, etc.).
Deep understanding of LLMs, embeddings, vector databases (e.g., FAISS, Pinecone, Weaviate).
Experience with cloud platforms (AWS, Azure, GCP) and containerization (Docker, Kubernetes).
Familiarity with CI/CD for ML workflows and versioning tools like MLflow or DVC.
Hands-on experience designing and building cloud-native solutions (preferably on AWS)
Exposure to GenAI tools and frameworks (e.g., LLMs, vector databases, prompt orchestration, LangChain, Bedrock)
Familiarity with AWS AI/ML services (e.g., SageMaker, Bedrock, Comprehend, Lex)
AWS AI certification

Responsibilities

Design scalable and robust GenAI architectures using LLMs, multimodal models, and retrieval-augmented generation (RAG).
Fine-tune foundation models using domain-specific data.
Implement prompt engineering, instruction tuning, and reinforcement learning from human feedback (RLHF).
Integrate GenAI capabilities into enterprise platforms using APIs, SDKs, and orchestration tools.
Implement responsible AI practices including bias detection, hallucination mitigation, and explainability.
Monitor and optimize model performance, latency, and cost.
Use techniques like quantization, distillation, and caching to improve efficiency.