Analyse av Bitcoin-transaksjoner
Transaksjoner i Bitcoin er pseudonyme, i betydningen at det er åpent for allmennheten hvilke transaksjoner som har blitt gjennomført mellom hvilke adresser, men at du ikke ut fra dette kan se hvem som kontrollerer disse adressene.
Det at man ser alt som har skjedd på en adresse betyr heller ikke at man har oversikt over alt aktøren bak adressen driver med. Én aktør kan kontrollere flere lommebøker, som igjen kan inneholde flere adresser. Ethan Fridmanski beskriver problemstillingen slik, i Crypto-Capital: The Political Economy of Cryptocurrencies (2021):
The deduplication process is complicated because blockchain applications were designed with privacy in mind (Nakamoto 2008). This doesn’t mean that every single user is 100% anonymous but the system is set up in such a way that a user–if they know how the system operates–can make it difficult for an observer to trace all of their transactions. If a user transacts simply–using one address or ’wallet’–then it is easy to identify and account for all of their transactions. But in a significant number of cases users have a series of addresses and wallets scattered across many different platforms, exchanges, and software–where they essentially exploit this multiple input/output structure (Meiklejohn et al. 2013; Kalodner et al. 2017; Harlev et al. 2018). In short, because the typical user has multiple “storage containers” for their cryptocurrencies deduplication algorithms are designed around one simple rule–if two addresses show up as the senders of tokens together in the same transaction they are the same person (Meiklejohn et al. 2013).
In 2012 just using this heuristic alone could accurately cluster more than 60% of all addresses but in recent years users became more savvy and third party services emerged to help users obfuscate their identity–such as Coinjoin–and now less than 50% of addresses can be properly clustered with this method alone (Meiklejohn et al. 2013; Kalodner et al. 2017; Harlev et al. 2018). Because of this, more com- plicated algorithms are required for accurate clustering and detailed descriptions of these approaches can be found in Appendix (A). In short, there are three categories of clustering heuristics: traditional input linking (co-spending clustering), transac- tion history (behavioral clustering), and using exogenous intelligence and information (Intelligence-based clustering (Harlev et al. 2018).
Fridmanski lister opp tre metoder for å identifisere adresser som kontrolleres av samme aktør: Common spending, hvor en transaksjon henter verdier fra to ulike adresser for å sende til én mottaker, slik at du kan anta at de to avsenderadressene kontrolleres av samme aktør, og One-time change, et bestemt transaksjonsmønster som lar deg anta at aktøren kontrollerer også en av mottakeradressene. (Her er et eksempel på hvordan disse metodene kan brukes til å analysere ransomwaretransaksjoner.)
I tillegg kan man kombinere disse to metodene med ekstern informasjon, for eksempel når man allerede kjenner adressen som brukes av en stor mining pool.
Metoden er ikke feilfri, og det er en fare for at man ender opp med et mega-cluster, det vil si at du feilaktig kobler adresse A og B, og sier at de kontrolleres av samme aktør. Så kobler du disse feilaktig til adresse C. Gradvis vokser klyngen i størrelse og jo større den blir, jo mer sannsynlig er det at du feilaktig kobler enda flere adresser til den.