Data Scientist (TS/SCI with Poly Required)

GCI Incorporated•McLean, VA

1d•$81,349 - $135,866

About The Position

GCI embodies excellence, integrity and professionalism. The employees supporting our customers deliver unique, high-value mission solutions while effectively leverage the technological expertise of our valued workforce to meet critical mission requirements in the areas of Data Analytics and Software Development, Engineering, Targeting and Analysis, Operations, Training, and Cyber Operations. We maximize opportunities for success by building and maintaining trusted and reliable partnerships with our customers and industry. At GCI, we solve the hard problems. As a Data Scientist, a typical day will include the following duties:

Requirements

US Citizen
Active/current TS/SCI with Polygraph clearance

Nice To Haves

Data lakehouse architectures using Apache Iceberg.
Configuring, deploying, and integrating data platform components: Apache Ranger (access control and data governance), Trino (distributed SQL query engine), Data catalogs (Unity Catalog OSS, Apache Polaris, etc.), Apache Superset (data visualization and dashboarding).
Bash scripting for automation and data processing tasks.
Infrastructure as Code (Terraform or CloudFormation) for data infrastructure.
Tracking data lineage and associated tooling such as OpenLineage.
Java.
Data quality frameworks, testing methodologies, and validation strategies.
Large-scale data migrations or platform modernization efforts.
Integrating AI/ML services and models (translation, OCR, speech-to-text, NLP, language detection, topic modeling), LLMs, and RAG (retrieval-augmented generation) pipelines.
Geospatial data processing (H3, PostGIS, or similar).
Contributing to data engineering documentation, best practices, or design patterns.
NoSQL databases (DynamoDB, etc.).
Excellent written and verbal communication skills with both technical and non-technical audiences.

Responsibilities

Building production data pipelines and ETL/ELT workflows at scale.
Using Apache Spark and PySpark for distributed data processing.
Advanced Python programming including data manipulation libraries (Pandas, NumPy) and data engineering best practices.
Understanding data security, privacy, governance, and compliance principles.
Using workflow orchestration tools such as Step Functions and Airflow.
Using containerization such as Docker or Podman, and deploying data applications in cloud environments.
Utilizing AWS services (in particular S3, Lambda, and Step Functions).
Working with PostgreSQL and MySQL in production environments, including performance tuning and schema design.
Using SQL and query optimization for complex analytical workloads.
Utilizing version control (Git) and CI/CD practices for data pipelines.
Working with stakeholders to understand data requirements, assess feasibility, and design appropriate solutions with minimal oversight.
Problem-solving and debugging for data quality issues, pipeline failures, and performance bottlenecks.