Tabla de enlaces
Resumen e I. Introducción
II. Modelo de amenaza y antecedentes
Iii. Webcam mirando a través de gafas
IV. Reconocimiento de reflexión y factores
V. Susceptibilidad del objetivo textual del ciberespacio
VI. Reconocimiento del sitio internet
Vii. Discusión
Viii. Trabajo relacionado
Ix. Conclusión, reconocimiento y referencias
Apéndice A: Información del equipo
Apéndice B: Modelo de ángulo de visión
Apéndice C: comportamientos de la plataforma de videoconferencia
Apéndice D: Análisis de distorsión
Apéndice E: objetivos textuales internet
V. Susceptibilidad del objetivo textual del ciberespacio
Las evaluaciones hasta ahora se basan en el tamaño físico del texto y se llevan a cabo en entornos controlados para caracterizar mejor los componentes independientes del usuario del modelo de reflexión, así como el rango de límites teóricos para la mirada internet. En esta sección, comenzamos mapeando los límites a los objetos comunes del ciberespacio para comprender los posibles objetivos susceptibles. Luego realizamos un estudio de usuario de 20 participantes con grabaciones locales y de zoom para investigar la viabilidad y los desafíos de mirar estos objetivos y el impacto de varios factores.
A. Mapeo de límites teóricos a objetivos
Utilizamos textos internet como un ejemplo esclarecedor de objetivos textuales del ciberespacio considerando su amplio uso y las convenciones relativamente maduras de HTML y CSS. La discusión se basa en (1) un informe anterior [48] raspando los 1000 sitios internet más populares en el rating internet de Alex [8]y (2) una inspección guide de 117 sitios internet de fuentes grandes archivadas en SiteInspire [10]. Además, dividimos los textos internet inspeccionados en 3 grupos (G1, G2, G3, consulte el Apéndice E y la Tabla III) para discutir por separado cómo el ataque de la cámara internet con cámaras actuales y futuras podría tener efectos en ellas. Como se señaló en la Sección III-B, la conversión entre el tamaño del punto digital y la altura de la tapa física depende de la configuración específica del usuario, como la relación de zoom del navegador. Por lo tanto, los valores de altura de CAP en la Tabla III se miden con la computadora portátil Acer con configuración predeterminada del sistema operativo y del navegador como estudio de caso.
Según los resultados en la Figura 5, planteamos la hipótesis de que los adversarios de alturas de tapa más pequeños pueden echar un vistazo utilizando cámaras de 720p convencionales de 7-10 mm. Luego calculamos los límites correspondientes con cámaras 1080p y 4K con la Ecuación 3 y los mostramos en la columna teórica de la Tabla III. Teniendo en cuenta que los participantes tienen más probabilidades de usar cámaras de 720p, luego elegimos tamaños de puntos S1-S6 en la Tabla III para evaluaciones.
B. Estudio de usuarios
El estudio del usuario (Sección VII-D) está diseñado de la siguiente manera de desafío-respuesta: un autor genera archivos HTML cada uno con una oración de título seleccionada al azar que contiene 7-9 palabras [4] Del conjunto de datos de “A Million Information Titchings” del amplio utilizado [46]. Solo la primera letra de cada palabra está capitalizada. Los participantes muestran la página HTML en sus navegadores cuando se registran, y otro autor que actúa como el adversario intenta reconocer las palabras de los movies que contienen las reflexiones de los 20 participantes sin conocer los contenidos HTML utilizando las mismas técnicas que en la Sección IV. Luego calculamos el porcentaje de palabras correctamente reconocidas.
Recopilación de datos. Cada participante recibió 6 archivos HTML de tamaños de puntos crecientes de S1 a S6 como se muestra en la Tabla III. Tenga en cuenta que los 6 tamaños se especifican en el tamaño de punto en HTML para que se puedan estudiar factores dependientes del usuario, como el tamaño de la pantalla y la relación de zoom del navegador (Ecuación 1). Los participantes muestran cada archivo HTML en su propia pantalla de computadora en sus habitaciones acostumbradas y se comportan normalmente como en las videoconferencias. Permitimos que los participantes elijan su condición de iluminación ambiental preferida, excepto preguntarles.
Para evitar otras fuentes de luz cercana además de la pantalla frente a su cara. La razón es que encontramos que una fuente de luz frontal cercana puede disminuir seriamente la SNR de luz, lo que puede usarse como una mitigación física contra este ataque, pero nos impide examinar el impacto de todos los demás factores. No les dijimos a los participantes que se mantuvieran estacionarios y les permitimos que se comporten normalmente como en el contenido de la pantalla de navegación. Sus cámaras internet registran su imagen durante 30 segundos para cada HTML.
El ancho de banda de la purple y la calidad del video resultante son artefactos de plataformas de videoconferencia que mejoran de manera rápida [4] en comparación con otros factores físicos dependientes del usuario. Para estudiar el impacto futuro y el posible impacto futuro de las plataformas de videoconferencia, grabamos los movies de los 20 participantes tanto locales como remotamente a través de Zoom. Nuestros experimentos se centraron en Zoom, ya que es la plataforma más utilizada y también proporciona las estadísticas de video y purple más detalladas.
Resultados de reconocimiento del adversario basic. Los resultados de reconocimiento logrados por el adversario con grabaciones locales y remotas se muestran en la Figura 8 (superior e inferior respectivamente). Dos participantes (4 y 14) no generaron reflejos de vidrio de sus pantallas en las grabaciones de video debido al problema de los ángulos de visualización vertical de rango fuera de rango como se predice en la Sección III-B. Cuatro participantes (3, 6, 10, 11) producen 0% de precisión de reconocimiento textual debido a una SNR de muy baja luz.
Con las grabaciones de video locales, el porcentaje de los 20 participantes que están sujetos a una precisión de reconocimiento no cero contra S6-S1 son 70%, 60%, 30%, 25%, 15percenty 0percentrespectivamente. Los movies de los participantes 7 y 17 utilizando cámaras de 720p permitieron al adversario alcanzar el 12.5% y el 25% de precisiones para reconocer S2. Los movies del participante 16 usando una cámara de 480p permitieron al adversario lograr una precisión del 37.5% en el reconocimiento de S3. Estos resultados se traducen en los objetivos susceptibles pronosticados con cámaras de diferentes resoluciones que se enumeran en la columna de usuario de la Tabla III, donde las cámaras internet de 720p representan amenazas para las redes de grandes fuentes (3) y las futuras cámaras 4K representan amenazas para varios textos de encabezado en sitios internet populares (1 y 2). Como se esperaba, este resultado es peor que los límites teóricos en la tabla que se derivan con datos de vidrio recetado en la configuración de laboratorio controlada (Sección IV). Nuestras observaciones sugieren que las razones principales incluyen: (1) Las condiciones de iluminación ambiental de los usuarios son más diversas y menos ventajosas para el asignación de pantalla que la configuración del laboratorio, generando reflexiones con peor SNR de luz. (2) Los textos en el estudio del usuario son en su mayoría más bajos y, por lo tanto, tienen tamaños físicos más pequeños que las letras de los casos superiores utilizados en la Sección IV. (3) Las gafas recetadas utilizadas en la Sección IV tienen una distancia focal mayor que las gafas promedio del usuario. (4) Existen movimientos más intencionales en el estudio del usuario que conduce a más desenfoque de movimiento.
Con los registros remotos basados en Zoom, el porcentaje de participantes con precisión de reconocimiento no cero contra S6-S1 se degradó a 65%, 55%, 30%, 25%, 5percenty 0percentrespectivamente. Registramos el ancho de banda de la purple de video y la resolución informadas por Zoom como se muestra en la Figura 8. La correlación entre el ancho de banda de zoom, la resolución y su impacto en la calidad del video concuerdan con las observaciones en la Sección IV-C. En basic, los anchos de banda menores de 1500 kbps condujeron a resoluciones de 360p durante la mayor parte del tiempo y disminuyeron el tamaño de texto reconocible en 1 nivel. Los movies de 720p de Zoom también causaron degradación en la precisión de reconocimiento, pero en su mayoría mantuvieron el tamaño de texto reconocible al mismo nivel que las grabaciones locales, lo que sugiere las mismas predicciones de los tamaños de texto susceptibles y los objetivos del ciberespacio correspondientes.
Además de la plataforma en su mayoría usada Zoom, también adquirimos grabaciones remotas de participante 19 con Skype y Google Meet. El adversario logró mejores resultados con Skype que Zoom al reconocer S3 y S2 con un 89% y un 25% de precisiones respectivamente, lo que probablemente se deba a la capacidad de Skype de mantener transmisiones de video de mejor calidad con un ancho de banda de 1200 kbps. La plataforma de Google Meet basada en la internet proporcionó los movies de menor calidad y solo permitió al adversario lograr una precisión del 22% en el reconocimiento de S4.
Razones subyacentes. Para averiguar las razones dominantes que permiten que la cámara internet más fácil se asomara al analizar la correlación entre los resultados de reconocimiento y los diferentes factores, convirtimos los resultados de cada participante (6 tamaños) en una sola puntuación de ataque que es una suma ponderada rectificada de la precisión de reconocimiento de los seis tamaños de texto probados. La Figura 9 (a) muestra puntajes de correlación con 11 factores que afectan el tamaño del píxel de reflexión (izquierda) y la SNR ligera (derecha) respectivamente cuando W = 1.5. El tipo de vidrio incluye receta (15/20) y receta con recubrimientos BLB (5/20). El tamaño del texto físico y la relación de luz de reflexión-ambiente resaltada en los cuadros son dos factores compuestos. En resumen, el tamaño del texto físico representa la relación entre el tamaño físico actual de los textos que se muestran en la pantalla de cada participante y los valores de estudio de caso en la Tabla III y se calcula con la Ecuación 1 con otros factores sin procesar como las relaciones de zoom del navegador. La relación de luz de reflexión-medio ambiente representa cuán fuerte es el brillo de la pantalla en comparación con la intensidad de la luz ambiental y se calcula dividiendo la luminancia de vidrio por luminancia ambiental. Básicamente, estos dos factores compuestos representan la predicción de nuestro modelo de tamaño de píxel de reflexión y SNR de luz y se encuentra que generan puntajes de correlación más altos que los otros factores sin procesar, lo que valida la efectividad de nuestros modelos. La Figura 9 (BD) muestra además la distribución conjunta de la puntuación de ataque y tres factores representativos. Se puede ver en (b) que la distancia de vidrio de pantalla de 40 mm utilizada en la evaluación de la Sección IV es aproximadamente el promedio de los valores de los participantes, y las distancias de estos participantes en realidad solo tienen una correlación muy débil con
Es fácil del ataque de la webcam. La Figura 9 (d) sugiere que cuando la relación de intensidad de luz-luz-ambiental de brillo-ambiental de pantalla se scale back a un cierto umbral, la probabilidad de evitar que los adversarios se asoman es muy alta, lo que puede considerarse como una mitigación temporal.
Autores:
(1) Yan Lengthy, Ingeniería Eléctrica e Informática, Universidad de Michigan, Ann Arbor, EE. UU. ([email protected]);
(2) Chen Yan, Facultad de Ingeniería Eléctrica, Universidad de Zhejiang, Hangzhou, China ([email protected]);
(3) Shilin Xiao, Facultad de Ingeniería Eléctrica, Universidad de Zhejiang, Hangzhou, China ([email protected]);
(4) Shivan Prasad, Ingeniería Eléctrica e Informática, Universidad de Michigan, Ann Arbor, EE. UU. ([email protected]);
(5) Wenyuan Xu, Facultad de Ingeniería Eléctrica, Universidad de Zhejiang, Hangzhou, China ([email protected]);
(6) Kevin Fu, Ingeniería e Informática Eléctrica, Universidad de Michigan, Ann Arbor, EE. UU. ([email protected]).
Este documento es
[4]Se evitan longitudes uniformes (por ejemplo, las 8 palabras) para evitar que el adversario adivine las palabras sabiendo cuánto duran las oraciones.