Saccheggiare i Repository di Codice: Data from Information Repositories – Code Repositories (T1213.003)

Quando un avversario ottiene un punto d'appoggio nella rete di un'organizzazione, una delle prime mosse ad alto rendimento è esplorare i repository di codice interni. La tecnica T1213.003 descrive proprio questo scenario: l'attaccante accede a piattaforme come GitHub Enterprise, GitLab self-hosted, Bitbucket Server o analoghe, per raccogliere codice sorgente proprietario, credenziali hard-coded, token API, chiavi SSH e qualunque altro segreto sepolto nei commit.

Questa tecnica si colloca nella fase di Collection (TA0009), il momento in cui l'attaccante ha già compromesso account o segmenti di rete e passa a raccogliere dati di valore strategico. Il bottino è duplice: da un lato il codice sorgente fornisce la mappa logica dell'applicazione — superfici d'attacco, vulnerabilità, dipendenze — dall'altro le credenziali scoperte nei file di configurazione o nella cronologia dei commit aprono porte laterali attraverso Valid Accounts.

L'impatto operativo è rilevante. Dai dati disponibili, 3 gruppi APT documentati sfruttano questa tecnica, 1 campagna di alto profilo (la SolarWinds Compromise, C0024) la include nel proprio playbook, e il framework difensivo prevede 4 mitigazioni dedicate. Il fatto che gruppi con motivazioni e sponsor diversi convergano tutti sui repository di codice conferma che si tratta di un bersaglio universale: chi controlla il codice, controlla il prodotto.

La simulazione di questa tecnica in un esercizio red team si articola in tre fasi: scoperta dei repository, estrazione massiva e ricerca di segreti. L'obiettivo è dimostrare al cliente quanto sia semplice, una volta ottenuto un account valido, saccheggiare l'intero patrimonio software.

Fase 1 — Enumerazione dei repository. Dopo aver compromesso un account con accesso alla piattaforma Git interna, il primo passo è mappare tutti i repository visibili. Su GitHub Enterprise si sfrutta l'API REST autenticata:

curl -s -H "Authorization: token <PAT>" "/orgs//repos?per_page=100" | jq '.[].clone_url'

Su GitLab self-hosted il comando equivalente usa l'API v4:

curl -s --header "PRIVATE-TOKEN: " "/projects?membership=true&per_page=100" | jq '.[].ssh_url_to_repo'

Questi comandi restituiscono l'elenco completo dei repository a cui l'account ha accesso, compresi quelli privati. La paginazione va gestita iterando sui parametri page per coprire organizzazioni con centinaia di repository.

Fase 2 — Clonazione massiva. Una volta ottenuta la lista, uno script Bash può clonare tutti i repository in parallelo. Un approccio minimal:

for repo in $(cat repo_list.txt); do git clone "$repo" & done

Per operazioni più controllate, il tool ghorg (open source) consente di clonare un'intera organizzazione GitHub o GitLab con un singolo comando:

ghorg clone --token <PAT> --scm github

Fase 3 — Ricerca di segreti. Qui entra in gioco il vero valore dell'operazione. TruffleHog (open source) scansiona l'intera cronologia dei commit alla ricerca di credenziali, token e chiavi:

trufflehog git file:// --only-verified

Il flag --only-verified tenta la validazione attiva delle credenziali trovate, restituendo solo quelle effettivamente funzionanti. In alternativa, Gitleaks (open source) offre un'analisi rapida con regole personalizzabili:

gitleaks detect --source --report-format json --report-path findings.json

Un aspetto spesso trascurato è la scansione dei file di configurazione CI/CD — pipeline YAML di GitHub Actions, GitLab CI o Jenkins — che frequentemente contengono variabili d'ambiente con credenziali in chiaro o riferimenti a vault mal configurati.

Per il report, documentate il numero di repository accessibili, il volume di codice scaricabile e la quantità di segreti validi trovati. Queste metriche sono estremamente efficaci nel comunicare il rischio al management.

Vuoi diventare un Ethical Hacker ma non sai da dove iniziare?

Scarica la guida gratuita e segui il percorso corretto fin dal primo passo

Il monitoraggio degli accessi ai repository di codice richiede una strategia a due livelli: il primo cattura l'accesso anomalo alla piattaforma, il secondo identifica i pattern di raccolta massiva.

Log source primaria. La sorgente fondamentale è l'audit log della piattaforma Git. GitHub Enterprise, GitLab e Bitbucket generano tutti eventi di audit che registrano operazioni come clone, fork, download di archivi e accesso via API. Questi log devono essere inoltrati al SIEM — la detection DET0263 si basa proprio sui log saas:github per identificare comportamenti di bulk access.

La regola cardine è questa: un accesso massivo a repository privati da parte di un account che normalmente non interagisce con il codice è quasi sempre sospetto. I parametri di tuning suggeriti sono pragmatici e vanno calibrati sull'organizzazione:

TimeWindow: più di 10 repository acceduti in meno di 5 minuti dovrebbe generare un alert ad alta priorità
UserContext: confrontare il ruolo dell'account (sviluppatore vs. amministratore vs. utente generico) con il pattern di accesso osservato
GeoAnomalyThreshold: login da geolocalizzazioni inusuali, specialmente se combinati con uso di token OAuth non precedentemente associati all'account
RepoSensitivityTag: accesso a repository taggati come sensibili o restricted da account senza storico di interazione

Indicatori comportamentali. Oltre al volume, prestate attenzione a sequenze specifiche: un'autenticazione da IP nuovo seguita da enumerazione API dei repository e poi da operazioni git clone in rapida successione è la firma classica di un attaccante post-compromissione. Correlate gli eventi di autenticazione della piattaforma Git con quelli del vostro Identity Provider — un login anomalo su Azure AD o Okta che precede di pochi minuti un'attività intensa su GitHub Enterprise racconta una storia chiara.

Riduzione dei falsi positivi. I team di sviluppo eseguono clonazioni frequenti, soprattutto durante onboarding o setup di nuovi ambienti. Create una whitelist basata su gruppi Active Directory o ruoli IAM che identificano gli sviluppatori attivi. Il tuning più efficace combina il profilo utente con la sensibilità del repository: uno sviluppatore che clona i propri progetti è normale, un account HR che accede a repository infrastrutturali è un'anomalia da investigare immediatamente.

Considerate inoltre di implementare controlli preventivi: MFA obbligatoria su tutti gli accessi ai repository, revisione periodica dei Personal Access Token attivi e delle chiavi SSH associate agli account, e policy che limitino l'accesso ai repository in base al principio del minimo privilegio.

Vuoi diventare SOC Analyst ma non sai da dove iniziare?

Scarica la guida gratuita e scopri come si monitorano e bloccano gli attacchi informatici

L'analisi forense di un accesso non autorizzato ai repository di codice si sviluppa su due fronti: gli artefatti della piattaforma Git e le tracce lasciate sull'endpoint dell'attaccante o del pivot.

Artefatti della piattaforma. Il punto di partenza è l'audit log del server Git. Su GitHub Enterprise gli eventi chiave da estrarre sono repo.clone, repo.download_zip, repo.access e org.audit_log_export. Su GitLab cercate gli eventi di tipo project_access, repository_download e api_request nella tabella degli audit events. Questi log contengono timestamp, indirizzo IP sorgente, user agent e l'identificativo dell'account — informazioni essenziali per ancorare la timeline.

Ricostruite la sequenza cronologica: prima l'autenticazione (spesso con un token rubato piuttosto che con credenziali interattive), poi l'enumerazione dei repository disponibili via API, infine le operazioni di clone o download. Ogni passaggio lascia un record separato nell'audit log. Prestate attenzione particolare agli accessi via API con token — un Personal Access Token compromesso non genera eventi di login tradizionali e può sfuggire ai controlli basati solo sull'autenticazione interattiva.

Artefatti endpoint. Se avete accesso alla workstation usata come pivot, cercate directory contenenti repository clonati. La struttura delle cartelle .git è distintiva: al loro interno il file config contiene l'URL remoto del repository, rivelando quale piattaforma è stata contattata e con quali credenziali. Il file .git/logs/HEAD registra la cronologia delle operazioni Git locali con timestamp.

Su sistemi Windows, la cronologia dei comandi PowerShell in ConsoleHost_history.txt (sotto %APPDATA%\Microsoft\Windows\PowerShell\PSReadLine) può contenere tracce di comandi git clone o invocazioni curl verso API della piattaforma. Su Linux, il file .bash_history o .zsh_history dell'utente compromesso fornisce lo stesso tipo di evidenze.

Correlazione con la campagna SolarWinds. Durante la SolarWinds Compromise (C0024), APT29 ha scaricato codice sorgente dai repository delle vittime. In quel contesto, la correlazione tra gli eventi di accesso ai repository e le attività di lateral movement precedenti — in particolare l'abuso di token SAML e l'accesso via API cloud — è stata fondamentale per ricostruire l'intera catena d'attacco. Per un forensic analyst, la lezione è chiara: l'accesso ai repository raramente è il primo passo, ed è cruciale risalire all'accesso iniziale tramite gli indicatori di autenticazione anomala che lo hanno preceduto.

Strumenti utili per l'analisi includono jq (open source) per il parsing dei log JSON esportati dalle piattaforme e Timeline Explorer (gratuito) di Eric Zimmerman per la visualizzazione temporale degli eventi correlati.

Vuoi diventare Forensic Analyst ma non sai da dove iniziare?

Scarica la guida gratuita e segui il percorso corretto per analizzare incidenti e prove digitali

L'accesso ai repository di codice è un punto di convergenza per gruppi con profili e motivazioni molto diversi. Analizzare chi usa questa tecnica e come la integra nella propria kill chain offre indicatori predittivi preziosi.

LAPSUS$ (G1004) rappresenta il modello opportunistico ad alto impatto. Questo gruppo ha cercato attivamente repository GitLab e GitHub all'interno delle reti vittime con un obiettivo specifico: trovare credenziali di account ad alto privilegio sepolte nel codice. Per LAPSUS$, il repository non è il bersaglio finale ma un moltiplicatore di accesso — ogni credenziale scoperta alimenta il movimento laterale verso sistemi più critici. Il pattern è coerente con il loro modus operandi generale: escalation rapida dei privilegi, esfiltrazione visibile e pressione pubblica sulle vittime.

Scattered Spider (G1015) condivide con LAPSUS$ l'approccio aggressivo ma aggiunge una componente di enumerazione sistematica. Questo gruppo non si limita a cercare credenziali: esplora i dati contenuti nei repository interni, mappando l'architettura applicativa e le dipendenze infrastrutturali. Questa raccolta più ampia suggerisce operazioni con obiettivi che vanno oltre l'accesso immediato, potenzialmente orientate alla comprensione profonda dell'ambiente vittima per attacchi persistenti o per monetizzazione di proprietà intellettuale.

APT41 (G0096), attore state-sponsored cinese con doppia vocazione spionaggio/cybercrime, ha clonato interi repository Git durante le intrusioni. L'approccio è chirurgico rispetto ai gruppi precedenti: la clonazione completa include tutta la cronologia dei commit, permettendo di analizzare offline l'evoluzione del codice e di estrarre segreti anche da versioni precedenti dei file. Questo livello di profondità è tipico di operazioni di spionaggio industriale dove il valore del codice sorgente è l'obiettivo primario.

La SolarWinds Compromise (C0024) rappresenta il caso più sofisticato. APT29, nell'ambito di questa operazione supply chain durata dal 2019 al gennaio 2021, ha scaricato codice sorgente dai repository delle vittime. In un contesto dove l'attaccante aveva già compromesso il processo di build software, l'accesso al codice sorgente serviva a comprendere in profondità l'architettura delle organizzazioni bersaglio e a identificare ulteriori vettori di attacco.

Il pattern geografico è significativo: attori russi (APT29) e cinesi (APT41) convergono su questa tecnica al pari di gruppi con base operativa occidentale (LAPSUS$, Scattered Spider). Questo universalismo conferma che i repository di codice sono un bersaglio a basso costo e alto rendimento indipendente dalla sofisticazione dell'attaccante. La tendenza da monitorare è l'estensione di questa tecnica ai repository di Infrastructure-as-Code (Terraform, Ansible), dove un singolo file può contenere credenziali cloud, topologie di rete e configurazioni di sicurezza.

Saccheggiare i Repository di Codice: Data from Information Repositories – Code Repositories (T1213.003)

Vuoi diventare un Ethical Hacker ma non sai da dove iniziare?

Vuoi diventare SOC Analyst ma non sai da dove iniziare?

Vuoi diventare Forensic Analyst ma non sai da dove iniziare?

Cyber Security UP

Contattaci

Privacy policy