> 文档中心 > Wi-Fi MAC 地址随机化与人群监控

Wi-Fi MAC 地址随机化与人群监控

文章目录

  • 摘要
  • 1 简介
  • 2 相关工作
  • 3 MAC地址随机化对行人计数的影响
    • 3.1 分析
  • 4 系统模型
    • 4.1 目前的人群监控系统
    • 4.2 处理随机 MAC 地址
    • 4.3 讨论
  • 5 实验
    • 5.1 实施
    • 5.2 数据集
    • 5.3 伦理考虑
    • 5.4 指标
    • 5.5 实验装置
      • 5.5.1 在野外实验中。
      • 5.5.2 数据库实验。
  • 6 结果
    • 6.1 在野外实验结果
    • 6.2 数据集实验结果
  • 7 结论和未来工作

摘要

基于 Wi-Fi 的人群监控通过移动设备广播的 WiFi 探测请求来感知人群。这些探测请求包含唯一标识设备(例如 MAC 地址)以及可能是携带设备的人的有价值信息。这种风险代表了严重的隐私问题,移动设备和操作系统制造商针对它的主要对策是MAC地址随机化。随着通用数据保护条例 (GDPR) 的引入,许多人群监控系统由于存储的隐私敏感信息而被关闭。因此,必须在考虑人们隐私的情况下开发新的人群监控系统。这样的系统使用各种方法在收集到的数据被存储之前对其进行匿名化,同时提供从匿名化数据中获取统计计数的方法。这项研究的重点是 MAC 地址随机化对新一代基于 Wi-Fi 的人群监控系统的影响,该系统产生的唯一输出是人群统计计数。首先,分析MAC地址随机化的各种特征如何影响人群监控的统计计数。然后,我们实现了一个用于处理随机 MAC 地址的模块,并评估它可以在多大程度上减少它们对统计计数的影响。

附加关键词和短语:MAC 地址随机化、人群监控、Wi-Fi、匿名化、客流量

1 简介

近年来,随着智能移动设备的日益普及,基于 Wi-Fi 和蓝牙的人群监控系统已成为生成有关人群行为洞察力的标准做法。例如,估计某个位置的人数或人群在给定空间中的移动方式被证明对于分析大众事件 [2] 或公共交通中的出行模式 [4] 非常有用。人群监控系统使用靠近传感器的人们的移动设备广播的无线电信号。此类无线电信号(也称为“探测请求”)包含隐私敏感数据,即设备的 MAC 地址,它允许任何人唯一识别和跟踪移动设备及其携带者,从而侵犯了他们的隐私。由于如此严重的隐私侵犯,已经引入了几种方法和法规来保证人们的安全。

2014 年,操作系统和移动设备制造商引入了 MAC 地址随机化,以使移动设备在广播处于非关联状态的探测请求时保持匿名。这种机制将设备的真实 MAC 地址替换为周期性变化的随机地址。如果部署正确,识别或跟踪设备将变得更加困难,尤其是在拥挤的环境中,从而为个人隐私提供更好的保护。不幸的是,没有明确定义的标准来实施这种随机化过程导致制造商开发单独的过程来随机化 MAC 地址。正因为如此,MAC地址随机化的不同行为和不一致在实践中出现了。在早期,Martin 等人[8] 表明市场上的一些设备根本没有使用 MAC 地址随机化。使用随机化的那些仍然容易受到攻击或基于作为广播探测请求的一部分的其他字段的指纹识别方法,从而允许窃听者跟踪和识别移动设备。由于近年来对这个问题的认识不断提高,制造商改进了他们的随机化过程,这对用户的隐私产生了积极的影响 [7] [15]。然而,这些改进并没有使设备指纹识别成为不可能。这种指纹识别方法过去已被用于人群监控 [14] [13] [10],它们仍然有可能对新一代人群监控系统的统计计数产生积极影响。

为了进一步规范人们数据的使用方式,已经引入了各种规则,例如通用数据保护条例 (GDPR) [1]。因此,许多基于 Wi-Fi 的人群监控系统由于严重侵犯了人们的隐私而被关闭。这导致了新的人群监控系统的开发,该系统真正匿名了被感知的移动设备的信息,同时保持系统给出的估计的高精度 [12] [11]。此类系统的主要思想是仅提供有关被感测数据的统计计数,而不存储任何可能追溯到特定移动设备或个人的隐私敏感数据或结果。此类统计计数的示例包括客流量,即某个位置存在的人群规模,以及人群流量,即在多个位置之间旅行的人流的规模。为了实现这一点,使用了几种数据结构、加密技术和匿名方法来隐藏正在感知的实际数据,同时使系统能够对匿名数据执行统计计数。

这些最先进的系统在人群监控中更广泛地关注个人隐私,这些系统具有某些特殊性,严重限制了对捕获数据的访问。其中一些特殊性是:在有限的时间内捕获数据而不离开传感器,一旦传感期结束就丢弃这些数据,以及加密只有受信任的第三方才能访问的任何输出。因此,使用 MAC 地址随机化的指纹识别设备变得更加困难。因此,本研究的重点是分析 MAC 地址随机化对新一代基于 Wi-Fi 的人群监控系统产生的统计计数的影响。此外,我们实现了一个基于时间和信息元素(IE)指纹处理随机 MAC 地址的模块,并进行实验以评估这种处理在多大程度上可以减少随机 MAC 地址对统计计数的影响。我们的结果表明,尽管对感知数据的访问受到限制,但这种指纹可以显着降低人流量估计的误差。

这项研究可以分为两个目标。
目标 1:清楚了解不同 MAC 地址随机化方案如何影响基于 Wi-Fi 的人群监控系统的统计计数
目标 2:了解如何处理随机 MAC 地址以帮助减少它们对统计计数的影响 为了实现这些目标,以下研究问题将是
回答:
• RQ1:不同的MAC 地址随机化方案如何影响基于隐私保护的Wi-Fi 人群监控的计数过程?
• RQ2:基于 Wi-Fi 的人群监控系统如何决定随机化 MAC 地址使用何种随机化方案?
• RQ3:了解MAC 地址随机化方案在多大程度上可以对统计计数产生积极影响?

本文的其余部分的结构如下。第 2 节介绍了一些与 Wi-Fi 人群监控的匿名技术和 MAC 地址随机化处理相关的工作。然后,在第 3 节中,我们将讨论与 MAC 地址随机化相关的一些最重要的因素如何影响行人数量。第 4 节描述了处理随机 MAC 地址的系统模型。接下来是第 5 节,详细介绍了为回答研究问题而进行的两个实验。实验结果在第 6 节中介绍和讨论,研究在第 7 节结束。

2 相关工作

如果未正确匿名,则利用移动设备广播的探测请求中的数据进行人群监控会对个人隐私构成重大风险。在 2020 年和 2021 年,Stanciu 等人。 [12] [11] 提出了一种基于 Wi-Fi 的人群监控系统,该系统使用 epoch,即传感基础设施收集探测请求的固定周期,提供行人动态的统计计数作为其唯一输出。这些论文专注于在这样的系统中使用的方法,用于对被感知的人的身份进行匿名化。

第一个提出的方法利用了 k-匿名原则,同时解决了这些原则的一些缺陷。该系统通过假名化、截断和更正操作来保证被感测移动设备的 MAC 地址匿名性,而不会对统计计数产生负面影响。第二种方法在传感器节点使用基于布隆过滤器和同态加密的匿名化过程,在数据发送到其他任何地方之前隐藏被感测设备的实际标识符。收集的信息是匿名的,以允许系统在加密的情况下得出统计计数,就像数据一开始没有匿名一样。

尽管这些论文的研究人员意识到 MAC 地址随机化,但他们并未在工作中解决它,这可能会导致潜在的问题,例如多计客流量和少计人群流量。当设备在同一个传感器附近多次更改其 MAC 地址时,可能会发生过多的人流量,使系统认为它在只有一个设备时感知到多个设备。当设备将其 MAC 地址从一个传感器更改为另一个传感器时,可能会低估人群流量。系统会在一个传感器上感应设备,当个人移动到另一个传感器附近时,系统会感应到同一个设备,但会认为它不同,不会将其计入人群。

为了克服 MAC 地址随机化对人群分析的负面影响,许多人群监控解决方案专注于通过各种技术将探测请求链接到源设备。

Espresso [13] 展示了这种解决方案如何利用探测请求中存在的信息元素、序列号和接收信号强度指示符来估计将探测请求与源设备相关联的概率。 Espresso 与 [12] 和 [11] 提出的系统之间的主要区别在于,Espresso 在收集探测请求时没有明确使用 epochs,它将感知到的数据发送到中央服务器而不完全匿名,它使用了其中的一些不断训练系统的数据。此外,Espresso 使用概率模型,该模型必须在 24 小时窗口内收集的数据上进行训练,然后才能用于系统评估。此外,研究人员只关注人群的脚步,而不关注人群流动。

Aforos [14] 是另一个类似的人群监控系统,它为每个探测请求生成指纹,不仅基于 MAC 地址,还基于信息元素。然后,将具有相同指纹的探测请求分组并链接到单个设备。与 Espresso 的情况一样,Aforos 由于使用了假名,并没有完全匿名化感应设备的数据,它只关注客流量。此外,他们的方法需要调整以提高其准确性,并且系统的估计是基于在三个小时的窗口中收集的数据。此外,与 [12] 和 [11] 中使用多个传感器的系统相比,他们的传感基础设施仅由一个传感器组成。

3 MAC地址随机化对行人计数的影响

将感知数据完全匿名化的人群监控系统在数据收集和处理方面遵循一套严格的规则。首先,数据是分时代感知的。一个时期被定义为系统传感器收集来自附近设备的探测请求的固定时间段。一旦一个纪元结束,传感器就会根据从探测请求中提取的 MAC 地址计算所需的计数,然后它们会丢弃在该纪元期间感测到的所有数据。最后,结果计数被加密并发送到中央服务器。出于我们的目的,我们区分两种类型的计数:
(1) 客流量:在特定时间段内出现在一个地方的人数
(2) 人群流量:从一个地方到另一个地方的人数

在这种人群监控系统的背景下,虽然与 MAC 地址随机化没有直接关系,但我们确定对统计计数影响最大的设备特性是突发到达时间 (IBAT)。大多数设备通过不同的 Wi-Fi 通道 [3] 以最多 500 毫秒的极短突发传输探测请求。突发间到达时间 (IBAT) 定义为来自同一设备的两次连续的探测请求突发之间的到达时间差。之前已经表明,无论 MAC 地址随机化如何,设备的 IBAT 都保持不变 [3]。因此,查看这个特性可以帮助我们更好地了解同一设备广播的随机 MAC 地址的频率。

此外,Martin 等人在 [8] 中发现,使用 MAC 地址随机化的移动设备会在更改随机 MAC 地址之前将其保留至少一次突发。因此,影响行人数量的另一个基本特征是设备 MAC 地址两次更改之间的时间或随机 MAC 地址寿命。

我们继续根据人群监控系统的时间特性分析这两个设备属性,即一个时期的长度。

3.1 分析

我们区分了这些参数的六种配置,如图 3 附录 B 所示。共有八种配置可能。 但是,对于场景 a 和 d,随机 MAC 地址生存期的大小无关紧要。

在情况 a 中,我们有一个相对较大的爆发间到达时间和一个较长的历元。 我们观察到,无论随机 MAC 地址的生命周期如何,每个 epoch 都会有一个具有不同 MAC 地址的突发传输。 这不会影响客流量的计数,因为源设备在每个 epoch 只发送一个脉冲串,该脉冲串被计数一次。 但是,这会影响人群流的计数,因为任何两个连续的突发具有不同的 MAC 地址,这会导致系统将它们视为来自不同的设备。

案例 b 描述了 IBAT 很短,但随机 MAC 地址寿命和历元很长的场景。我们看到在同一时期捕获了多个具有相同 MAC 地址的突发。与第一种情况一样,人流量的计数不受影响,因为 MAC 地址只计算一次,但人群流量的计数受到影响,因为 MAC 地址在不同时期之间发生变化。

对于案例 c,我们有一个短 IBAT、一个短随机 MAC 地址生命周期和一个长时期。此配置导致源设备在每个时期传输具有不同 MAC 地址的多个突发。因此,系统将所有 MAC 地址视为不同的设备,从而导致高估人流量和低估人流。

在情况 d 中,我们考虑一个长 IBAT 和一个短时期。不管随机 MAC 地址的生命周期如何,我们注意到如果时期太短,传感基础设施可能无法在某些时期检测到源设备的存在,这会导致对该时期的客流量和人群流量计数不足.但是,尽管 MAC 地址随机化,还是会出现此问题,因为它是由系统无法控制的外部因素引起的。

使用较短的 epoch 长度和较短的 IBAT 但随机 MAC 地址的寿命较长,案例 e 表明源设备可以在每个 epoch 传输一个突发,在几个连续的 epoch 中保持相同的 MAC 地址。因此,在这种情况下,客流量不会受到影响。但是,当设备更改其 MAC 地址时,系统每两个连续 epoch 都会低估人群流量。

最后,对于案例 f,我们有一个较短的 IBAT、一个较短的随机 MAC 地址生命周期和一个较短的 epoch。我们观察到源设备可以在每个时期传输一个突发,但具有不同的 MAC 地址。因此,系统能够正确计算客流量,但由于同一设备在每个时期的 MAC 地址不同,因此低估了人流。

上述场景是最重要模式的简化版本,有助于理解对统计计数的影响。实际上,有可能遇到不同的边缘情况。例如,在任何上述情况下,探测请求的突发可以在两个时期之间拆分,因此,设备在两个时期期间都被感应到。但是,根据模式,这种边缘情况仍将属于上述情况之一。

此外,仍有许多外部因素可能会影响人群监控系统的统计数量。例如,2015 年,Julien Freudiger 在 [6] 中展示了移动设备的不同配置如何影响广播探测请求的数量以及探测频率。无论 MAC 地址随机化如何,这都会对任何基于 Wi-Fi 的人群监控系统产生直接影响,因为如果探测请求频率降低,传感基础设施可能无法检测到范围内的移动设备。

鉴于此概述,出于几个原因,我们提出了一个解决案例 c 的系统模型。 首先,这种情况对统计计数的影响最大,因为在一个时期内来自同一设备的大量随机 MAC 地址。 根据感测设备的 IBAT 有多短,客流量可能会被大大高估。 其次,使用足够长的 epoch 允许系统收集足够的数据,这些数据可以提供足够的洞察力来减轻随机 MAC 地址的影响。

4 系统模型

人群监控系统通常部署在拥挤的空间中,以深入了解人群的行为。这是通过在所选空间安装传感基础设施来完成的。然后,将各种技术应用于感测数据以得出行人动态的统计计数。本文重点介绍了一个为人群监控系统设计的组件,该系统使用 Wi-Fi 作为传感技术,并在传感器级别对任何收集的数据进行匿名化。我们首先描述这样一个系统的概述。然后,我们讨论在目标人群监控系统的上下文中处理随机 MAC 地址的组件。

4.1 目前的人群监控系统

我们假设所使用的人群监控系统模型类似于[11]中描述的模型。该系统的主要组件是从范围内的移动设备收集探测请求的传感基础设施,以及处理传感器与向系统发送查询的消费者之间的通信的中央单元。图 1 描述了服务的架构。
Wi-Fi MAC 地址随机化与人群监控

整个系统通过时代跟踪时间。如果传感器检测到范围内移动设备发送的探测请求,它会提取广播的 MAC 地址,并根据读取的时间戳将其分配给当前纪元。由于移动设备可以在一个时期内使用相同的 MAC 地址发送多个探测请求,因此传感器将始终删除在该时间段内检测到的任何重复 MAC 地址。此外,在一个 epoch 结束时,传感器必须丢弃任何感测到的数据,并且只有在查询针对特定传感器时才会向服务器发送对查询的响应。图 2 显示了这种传感设备的工作流程。
Wi-Fi MAC 地址随机化与人群监控

4.2 处理随机 MAC 地址

为了检测和处理来自同一设备的随机 MAC 地址,我们需要访问传感器收集的探测请求。目标人群监控系统的设计要求传感器在一个时期结束时丢弃任何收集到的数据,因此探测请求永远不会离开传感设备。因此,处理随机 MAC 地址的模块只能在传感器级别实现,在数据收集期结束之后和查询结果计算之前。

在当前人群监控系统的背景下,减轻 MAC 地址随机化影响的模块必须满足一些要求:

  • 可靠地识别随机 MAC 地址
  • 处理可变数量的数据——这是因为一个时期的长度可以从几分钟到几个小时不等,具体取决于人群监控系统的部署位置,因此每个时期可用的探测请求量也各不相同。
  • 遵守众包监控系统的隐私要求——这意味着处理模块不能存储或学习任何以后可用于识别特定设备或设备组的模式。该组件必须仅从一个时期收集的数据中收集见解,让传感器计算接收到的查询的结果,然后丢弃这些见解并重新开始下一个时期。
  • 计算成本低——通常,传感器很小,它们依靠电池运行,并且资源有限。此外,为了尽可能地保护隐私,传感器已经必须对发送回服务器的任何数据进行加密,并应用各种散列算法来处理匿名数据 [12] [11]。
  • 提高统计计数的准确性——处理组件必须尽可能减少随机 MAC 地址的影响,使统计计数尽可能接近真实值。

附录 A 中的图 4 描述了处理组件的模型。一旦传感器完成收集在其附近广播的探测请求突发,它会将它们分成具有随机 MAC 地址的突发和具有非随机 MAC 地址的突发。在后一种情况下,系统只需提取所有唯一的 MAC 地址。对于具有随机 MAC 地址的突发,系统使用“处理站”对它们进行聚类。理想情况下,每个集群将代表一个不同的源设备,可以通过一组签名来识别。结合这两个输出,传感器可以通过简单地计算唯一的非随机 MAC 地址和处理站形成的集群来计算人流量。为了计算两个传感器之间的人流,系统将执行两组的交集唯一的非随机 MAC 地址,以及两组集群签名的交集。结果集的组合基数表示人群流动。

4.3 讨论

在计算人群流量时,所提出的系统必须克服的最大挑战是从一个传感器到另一个传感器共享具有随机 MAC 地址的突发集群,同时保持当前人群监控系统的隐私要求。很难提出一个通用的解决方案对于这个问题,因为每个人群监控系统都使用不同的技术来匿名化和保护从传感基础设施共享的数据。例如,[12] 中的人群监控系统使用假名化、截断和校正操作来使提取的 MAC 地址 k 匿名,这确保了在某些情况下,新的标识符不能准确地追溯到相应的感应设备。在我们的例子中,对于广播随机 MAC 地址的设备,我们不仅使用一个 MAC 地址来识别它们,而是使用一组 MAC 地址和签名,这些地址和签名可以变得非常大,具体取决于设备在运行期间更改其 MAC 地址的频率。一个时代。因此,此类操作甚至可能不适用于我们为设备获得的集群的结果签名。

对于我们选择作为治疗组件基础的人群监控系统模型 [11],可能的解决方案可能涉及选择每个集群的最佳签名作为由该集群表示的源设备的标识符。这样,系统可以使用选定的哈希函数对签名进行哈希处理,并将其标记在布隆过滤器中,该过滤器可以安全地发送到另一个加密的传感器。但是,由于每个集群共享的签名数量较少,这种解决方案可能会降低准确性。此外,该解决方案假设所选的哈希函数解决了来自同一设备的两个突发的签名可能不同的事实,但仍然足够相似,可以被标记为具有相同的来源。研究在这种情况下使用什么是最好的散列函数,或者是否存在这样的散列函数超出了本文的范围。

5 实验

为了评估所提出系统的功能以及它可以在多大程度上改善行人数量,我们实施了一个专注于计算人流量的概念验证算法,并进行了两种类型的实验:野外实验和数据集实验.

5.1 实施

实施只关注发生在传感器级别的过程。我们程序的基础由几个模块组成,这些模块允许我们在 epoch 中收集探测请求,一旦计算了客流量就丢弃任何感知到的数据,使用它们的 MAC 地址和序列号将探测请求分组,并根据它们的MAC 地址类型。
探测请求收集器有两种操作模式:
(1) 嗅探器:在此模式下,我们的程序将其运行的设备的 Wi-Fi 接口设置为监控模式,并开始通过 14 个不同的 2.4 GHz Wi-Fi 通道进行搜索。在每个通道上,程序会收集 5 秒的探测请求,然后移动到下一个通道。
(2)数据集:选择此模式后,程序将基于一些参数(例如epoch长度或首选设备标签列表)处理数据集文件。

在顺序分组与随机MAC地址的爆发分组源设备,我们使用 DBSCAN [5],一种众所周知的聚类算法和两种类型的指纹。第一个指纹由信息元素 (IE) 的有序列表和探测请求中可用的某些位掩码组成,它们在设备模型之间提供高熵,而在同一源设备的探测请求之间提供低熵 [3] [8]。第二个指纹是从 [3] 中借用的,它基于突发长度和该突发内探测请求之间的到达时间差,或帧间到达时间 (IFAT)。这种指纹识别方法背后的主要假设是移动设备在固定的时间内定期发送探测请求。为了生成这个指纹,对于每个突发,我们将其长度分成大小相等的 bin,根据它们的到达时间将探测请求分配到 bin 中,并计算每个 bin 的平均 IFAT 和探测请求的百分比。所有这些值的列表和突发长度表示突发的时间签名。

5.2 数据集

由于从野外数据中获取基本事实的艰巨任务,我们还使用真实世界的数据集 [9] 来评估我们的概念证明在改善统计计数方面的效果。该数据集于 2021 年发布,由带有随机和真实 MAC 地址的标记探测请求组成,由 22 台设备以不同模式广播。探测请求是在实验室环境中捕获的,因此可以单独扫描设备。这种最近的数据集为我们提供了非常接近真实世界场景的定性数据,我们可以在实验中将其用作基本事实。

5.3 伦理考虑

为了测试所提出的系统,两个实验都涉及使用来自真实移动设备的探测请求。如果处理不当,此类数据将对个人隐私构成威胁。源自数据集的探测请求已在实验室环境中收集,并遵循了一组规则以允许公开该数据集 [9]。因此,我们可以放心地假设这些数据不会构成任何隐私风险。但是,在野外捕获的探测请求可能会追溯到某些个人。由于这个问题,我们的程序不存储任何捕获的数据。收集到的探测请求仅在感知它们的时期内使用,一旦计算了客流量并且时期结束,它们就会被丢弃。

5.4 指标

所提出系统的主要目标是尽可能地提高行人数量。因此,我们根据计数的相对误差减少 (RER) 百分比来评估我们的概念证明如何改善统计计数。这是使用以下公式计算的:
Wi-Fi MAC 地址随机化与人群监控
其中相对误差计算如下:
Wi-Fi MAC 地址随机化与人群监控

5.5 实验装置

5.5.1 在野外实验中。

为了测试我们概念验证的功能,我们在午餐时间在大学校园的一个食堂安装了一台笔记本电脑,这是一天中最繁忙的时间之一。 我们将程序设置为嗅探器模式,并让它在 1 小时内以 5 分钟为周期收集探测请求。

5.5.2 数据库实验。

对于数据库实验,我们将程序设置为 Dataset 模式,从处于相同状态的所有设备的 pcap 文件中提取探测请求。 这使我们能够更好地观察不同设备状态对客流量的影响。 然后,程序对探测请求的时间戳进行标准化,并根据新的时间戳将这些数据包分组为 5 分钟。 对于每个时期,我们的系统都会计算发送探测请求的设备的实际数量,然后将这些组中的每一个提供给负责计算客流量的模块。

6 结果

6.1 在野外实验结果

因为我们无法访问野外实验的地面实况数据,即每个时期在我们传感器范围内的实际设备数量,我们无法评估我们的客流量估计有多准确。但是,就我们的概念证明的功能而言,我们进行了以下观察:

  • 嗅探器确实可以从Wi-Fi 接口设置的每个Wi-Fi 通道收集探测请求。
  • 收集的数据与数据集中的数据相似。这意味着野探测请求包含随机和非随机 MAC 地址,并且在大多数情况下,它们可以在最多 500 毫秒的短脉冲中分组。这是通过在屏幕上打印数据包是否具有随机 MAC 地址以及收集数据包时的时间戳来观察的。没有观察到其他数据,例如数据包的源地址。
  • 该程序计算每个时期的客流量,尽管它必须处理的数据量很大。
  • 一旦一个时期的客流量被计算出来,在那个时期收集的数据确实被丢弃并且不能再被访问。

6.2 数据集实验结果

数据集实验的结果如表 2 所示。设备模式列的值在表 1 中进一步解释。对于每种设备模式,我们可以将可用数据分成 4 个 epoch,每个 5 分钟。
Wi-Fi MAC 地址随机化与人群监控

Wi-Fi MAC 地址随机化与人群监控

可以观察到,我们的概念证明在计算打开 Wi-Fi 的设备时获得了超过 90% 的客流量错误减少,这与没有随机 MAC 地址的客流量估计相比显示出巨大的改进。治疗。对于未打开 Wi-Fi 的设备,错误减少率保持在 90% 以下。然而,在这些情况下,数据量很小,估计距离实际数量仍然只有 1 台设备。这些结果非常有希望,并表明我们可以显着减轻 MAC 地址随机化对客流量计数的影响。此外,我们还观察到我们的随机 MAC 地址处理模块不能完美地聚集源设备的探测请求突发,这意味着这些设备仍有很大可能无法识别,这提供了一些隐私保护。然而,我们注意到即使存在这种聚类误差,客流量估计仍然得到显着改善,这是所提出系统的实际目标。

7 结论和未来工作

人群监控是一个挑战个人隐私的领域,它通过数据类型来产生对人群的洞察力。随着对数据隐私和使用的担忧越来越多,必须实施各种解决方案来解决人群监控中的这些隐私问题。一方面,新的人群监控系统在设计时考虑了人们的隐私。另一方面,移动设备和操作系统制造商引入了 MAC 地址随机化来阻碍设备跟踪。然而,后一种解决方案被证明也会影响人群监控系统计数的准确性。许多研究试图在人群监控方面击败这种随机化机制,但据我们所知,在此类系统中考虑个人隐私的并不多。

本文分析了新一代基于 Wi-Fi 的人群监控系统的行人数量如何受 MAC 地址随机化的影响。此外,在完全匿名化感测数据的人群监控系统的背景下,提出了一种处理随机 MAC 地址并改进统计计数(即客流量和人群流量)的系统模型。实施了所提出系统的概念验证,重点是计算客流量,它试图将来自同一设备的随机 MAC 地址聚类
使用时间和信息元素指纹。为了测试我们实现的功能和准确性,我们进行了野外实验和数据集实验。结果表明,该系统能够在真实场景中正常运行,在统计开启 Wi-Fi 的设备时,可以将统计计数误差降低 90% 以上。即使对于那些没有打开 Wi-Fi 的人,我们的估计也只与实际数量相差 1 台设备。如此显着的错误减少清楚地表明,在基于 Wi-Fi 的人群监控系统的上下文中,MAC 地址随机化可以得到缓解,这些系统的唯一输出是行人计数。

尽管这项研究的结果在计算客流量方面非常有希望,但我们的概念证明尚未解决人群流动问题。这里最大的挑战是将有关具有随机 MAC 地址的探测请求集群的信息从一个传感器传递到另一个传感器,同时仍然保留人群监控系统的隐私要求。因此,需要进一步研究以确定所提出的系统模型在多大程度上可以改善人群流动估计。