
-
生物通官微
陪你抓住生命科技
跳动的脉搏
以太坊区块链上ERC-20代币交易的大规模时空数据集:揭示去中心化金融生态系统的演化规律
【字体: 大 中 小 】 时间:2025年08月13日 来源:Scientific Data 6.9
编辑推荐:
本研究针对ERC-20代币交易数据分散、缺乏时序标注的难题,通过解析以太坊智能合约的Transfer事件日志,构建了涵盖2015-2024年间216,336,529用户与1,138,136种代币的全周期交易数据集。该资源支持区块链网络分析、市场动力学研究,为理解去中心化金融(DeFi)系统的结构演化与参与者行为提供了独特视角。
区块链技术从最初的小众领域发展为重塑金融体系的重要力量,其中以太坊凭借智能合约(Smart Contracts)功能成为去中心化应用的核心平台。然而,ERC-20代币作为该生态系统的"血液",其交易数据长期面临三大困境:一是数据分散在智能合约日志中难以提取;二是现有数据集缺乏完整时间维度;三是缺乏覆盖全生命周期的统一资源。这些问题严重阻碍了对去中心化金融(DeFi)系统演化规律的认知。
针对这一挑战,麻省理工学院(MIT)与巴伊兰大学的研究团队Shahar Somin等人通过系统解析以太坊虚拟机(EVM)的Transfer事件,构建了首个覆盖ERC-20代币完整生命周期(2015-2024)的大规模时空数据集。这项发表于《Scientific Data》的研究,不仅记录了1,943,438,828笔交易,更创新性地揭示了代币生态的幂律分布、核心网络演化等关键特征。
研究团队采用三项核心技术:1)基于Google BigQuery和Etherscan API的双重验证获取1,138,136个ERC-20合约地址;2)通过Infura节点使用eth_getLogs接口提取跨9年的Transfer事件日志;3)构建动态交易网络分析拓扑结构。数据覆盖期间经历了COVID-19疫情、俄乌战争等重大事件,为研究极端条件下的市场行为提供独特视角。
网络构造方法
研究支持构建多种网络模型:钱包-钱包交易网络(如图4A)可分析资金流动模式,特定代币交易网络(如图4B)揭示资产特异性结构,而代币-代币关联网络(如图4C)则通过共同交易者建立资产关联。这些网络均呈现显著的幂律度分布特征(图6A),其截断幂律参数γ随时间演化(图6B),78%的网络符合该模型(图6C)。
动态连接特性
局部连接性通过平均聚类系数体现(图7A),显示系统微观结构逐渐稳定;全局连接性表现为最大连通组件(LCC)占比的快速增长(图7B),早期即形成覆盖51.6%节点的核心结构(图7B插图)。核心数分析(图8A)揭示网络密度的持续增强,2018年4月出现核心数超200的异常子网(图8B-C),反映市场集中度演变。
代币生命周期
图2显示代币生态系统的高周转率:A面板显示每月新增(浅蓝)与消亡(紫色)代币数量,B面板展示交易量的长尾分布,C面板揭示大多数代币存活期不足100天。这种动态与图1所示的交易量波动(橙色曲线)及买卖方数量(红绿曲线)共同构成市场活跃度的多维表征。
该研究首次完整记录了ERC-20生态从诞生到成熟的全过程,其价值体现在三方面:技术上,开发了从智能合约日志提取ERC-20交易的标准化流程;科学上,验证了去中心化金融网络符合复杂系统理论预测;应用上,为监管设计、风险预警提供数据基础。正如作者强调,这个"金融显微镜"使得观察传统市场中不可见的群体行为成为可能,特别是通过图3揭示的链上执行与数据提取机制,为后续研究建立了可靠范式。研究开放的1.4TB数据集将持续支持区块链经济学、网络科学等跨学科探索。
生物通微信公众号
知名企业招聘