Az interface felületessége

Jólfésült hősünk egy átlátszó fal előtt áll, amin mozgókép szegmensek jelennek meg. Ujjai misztikusan világítanak, amelyek felemelésével, majd mozgatásával varázslatos dolgokat tud előidézni. Kezét előretolva visszatekeri, maga felé húzva pedig előretekeri a filmet. Jobbra-balra mozgatva arrébb rakja a szegmenst, majd egy másikat húz a helyére. Sokakat lenyűgözött a Minority Reportban látható fal, amin Tom Cruise nézi vissza a látnokok által regisztrált látomásokat vizuális formában, hogy eldöntse a mindenható kérdést: ki a jó és ki a rossz. Ám nem nehéz látni, hogy ez az interface miért tartozik az utóbbi csoportba – egyszerűen azért, mert erőltetett és kényelmetlen. Azt is könnyű látni, miért van a filmben – mert fotogén és látványos.
 


Próbáljon meg valaki egy 8 órás műszakot állva eltölteni, közben nyújtsa ki a kezét maga elé, és integessen vele okosan. Gyorsan rá fog jönni, hogy ez mennyire fárasztó. Ez a pozitúra legkevésbé sem természetes, hacsak nem almát szed épp az ember jólnevelt almafákról. Habár almaszedés közben legalább mozog, helyzetet és tartást vált, ami lényegesen könnyebb, mint egy helyben állni.

Már a korai immerzív virtuális valóság rendszerek építői is szembesültek azzal a problémával, hogy miután megépült a drága 3D rendszer, speciális szemüveggel, ami valóban térben mutat egy virtuális teret, majd beleállították a felhasználót, hogy lám, járjon körbe, fogjon meg dolgokat, tegye őket arrébb – ahogy az "természetes" -, az első kérés az volt: nem kaphatna egy széket és egy asztalt, nem ülhetne le inkább, mert így állni és handa-bandálni fárasztó.

Lássuk be, ha valamit egy csuklómozdulattal meg tudok tenni, akkor miért tenném azt teljes karmozdulattal. Ha valamit egy gombnyomással el tudok intézni, akkor miért emelgetnék és rakosgatnék bármit is ide-oda. Az emberek szeretnek hatékonyan dolgozni – és ha ezt kisebb energiakifejtéssel is megtehetik, szívesebben választják azt. Elvégre a targonca felhasználói felülete sem abból áll, hogy nehéz ládákat megragadva "természetesen" pakol az ember – hanem pont az a lényege, hogy kis erőfeszítéssel egy gépet dolgoztat maga helyett.

A Minority Report vizionáriusai annyira nem értettek az informatikához, hogy ugyanebben a jelenetben két, egymástól három lépésre álló fal között egy fizikai adathordozóval, egy átlátszó plexi kártyával viszik át az információt. Láthatólag érintetlenül hagyta őket a mindannyiunkat az 1970-es évek óta egyre inkább körbeszövő hálózat, és eleve az a koncepció, hogy az információ áramlik, az adathordozótól külön életet él. A fizikai valóba vetett hitüket ékes módon támasztja alá a jelenet végén az "egyedi és ismételhetetlen" módon esztergált fagolyó – mutatván ezzel, hogy akkor is hiányoztak az iskolából, amikor a modern kriptográfia történetét tanították.

Mindez jól mutatja azt a jelenséget, amit sok, önmagát user interface designernek (UI designer, felhasználói felület tervező) tartó ember követ – való világ használati tárgyai mentén próbálja modellezni egy informatikai rendszer használatát, próbálja lefordítani a kibertérbeli műveletet fizikai interakcióra. Mert akkor "természetesebb" lesz, könnyebb lesz megérteni, könnyebb lesz használni.

Ami inkább történik, hogy ezek az emberek egyszerűen nem értik azt, amivel dolgozniuk kell, ezért kényszeredetten keresnek allegóriákat a megszokott életükből, hátha rá lehet húzni a problémára. Iparművészeti vagy hasonló háttérből táplálkozva a hasonlat a fizikai életből jön, általában használati tárgyakra összpontosítva. Az allegóriák az esetek legnagyobb részében sántítanak és pont félrevezetnek. Néha olyan, egykor természetes mozdulatokat, gesztusokat tartalmaznak, amelyeket ma már csak tankönyvekből ismerünk, beleértve a designert is. Mindezek mellett a lehető legritkábban hatékonyak – cserébe lebutítják és felületessé teszik az alkalmazásokat.

Azok, akik még hallottak "hagyományos" telefonkészülékeket csörögni, gyakran választanak arra a hangra emlékeztető csengőhangot egyébként digitális mobiltelefonjukra, ami bármilyen hangon képes csörögni. Úgy gondolják, úgy érzik, ez az intuitív. Persze a pár évtizede hallott telefon hangja is egy korábbi szokás imitációja volt. Amíg nem tudjuk elszakítani az új technológiát az általunk ráerőltetett korlátoktól, addig nem is fogjuk tudni kiaknázni a benne rejlő lehetőségeket.

Próbáljuk meg életünk egy átlagos napját úgy leélni, hogy kizárólag egy egyujjas kesztyűvel a kezünkön mutogathatunk, valamint nem szólalunk meg. A boltban még rá tudnánk mutatni talán a marhafelsálra (igaz, a hentes udvariatlannak fog minket tartani), de már nem fogjuk tudni megkérdezni, hogy mennyire friss. Egy beszélgetést már nem tudunk lefolytatni – de nem tudunk megírni egy levelet sem. A csupán egérkattintós vagy érintőképernyős felületek kb. erre az interakciós szintre csökkentik a virtuális világgal való kapcsolatunkat, és láthatjuk, hogy ez elég szűkös.

A fenti interakciószegénység elegendő, ha az a feltételezésünk, hogy egy dologgal csak egy valamit lehet kezdeni, csak egyféleképpen kell hozzá viszonyulni – pl. rákattintani vagy rábökni az ujjaimmal, vagy rálőni egy 3D lövöldözős játékban. Ám szerencsére a világ ennél sokkal kifinomultabb, és a legtöbb dolognak sokfajta felhasználása van – és ezt csak gazdag kifejezésre lehetőséget adó eszközökkel lehet megfogni.

Az egyik leggazdagabb kifejező erő, amivel ember bír, az a beszélt és írott nyelv. A nyelv pont úgy fejlődik, hogy meg lehessen vele nevezni azon koncepciókat, amelyek elég fontosak ahhoz, hogy megnevezzük őket. Így ki tudjuk fejezni vele azt, amit érdemes kifejezni. Habár nem tökéletes kommunikációs forma, leginkább mert sokszor nem teljesen fedik a fogalmak egymást más-más személynél, ezzel együtt ez a legkifinomultabb kommunikációs formánk.

Míg az embernél a nyelv egy adoptált eszköz, addig az informatikai rendszerek belső felépítése eleve nyelvi – egész pontosan formális nyelvi alapú. Minden informatikai eszköz az ún. általános Turing-gép elvén működik, amelynek a lényege, hogy viszonylag hosszú szavakon végez műveleteket, gyakorlatilag a szavakat írja át más és más szavakra. Így írja le a rendszer mindenkori állapotát. Pl. ha bejön egy hívás a mobiltelefonra, akkor azt a szót, ami a telefon állapotát jelezni, átírja  nyugalmi állapotról csengő állapotra. Amikor valamilyen számítást végez, a számítás eredménye mindig egy szó átírását jelenti, ami azt az eredményt tárolja.

Ebből egyértelműen látszik, hogy ha (szó szerint) értjük a gép nyelvét, akkor azzal a teljesség igényével tudunk kommunikálni. Bármit meg tudunk neki mondani, amire az képes, és bármit meg tudunk tudni arról, hogy milyen állapotban van. Ebben az esetben nincs szükség köztes felületre, hisz a gép belső állapotát olvassuk, egy az egyben. Ami érdekes még ebben, hogy ez az állapot, jellegénél fogva, lineáris – egy hosszú szöveg, mint egy könyv vagy ez az írás.

A valóságban ritkán van arra szükség, hogy egy gép belső nyelvén kommunikáljunk vele, ahogy embertársainkkal sem az alapján lépünk kapcsolatba, hogy épp a vérnyomásuk milyen magas (még ha sokszor jó is lenne ezt tudni). Ennek leginkább az az oka, hogy a belső leírás túl bonyolult, túl sok olyan részletet tartalmaz, amelyek között elvesznénk. Ezért kerül a belső szerkezet elé egy felület, ami céltudatosan eltakarja azt, és egy más nyelvet definiál – valamint fordítja ezt a nyelvet a gép saját nyelvére. Ahogy az embernél is – felidegesítjük egy-két keresetlen szóval, ami miatt felmegy gyorsan a vérnyomása.

Bármilyen furfangos, látszólag nem lineáris, pl. 2D vagy 3D grafikus felületet is definiálunk, mire a gép foglalkozni tud vele, az mind lineáris formában kerül leírásra. Így bármilyen olyan ígéret, hogy valamilyen merőben új módon tudunk majd egy géppel vagy az általa tárolt és kezelt anyagokkal foglalkozni, egy beteljesíthetetlen vágyálom. Minden felhasználói felület minden eseményét egy pár szóból álló, lineáris gépi mondat írja le a gép felé. A felhasználói felület nem csinál mást, mint fordít az ember tevékenysége és a gépi mondatok között.

Ez ember-gép-ember kommunikáció esetén is így van. Amikor a kibertér egy kommunikációs csatornát képez egy másik ember felé, akkor minden, ami ezen átmegy, lineárisan egymást követő gépi szavak, mondatok sorozataként történik. A hang a telefonon keresztül, a kollaboratív többérintős képernyők érintései, a távoli jelenlét élményét keltő bútor tárgyak érzésszintű változásai vagy a legbonyolultabbnak tűnő kapcsolati háló struktúrák – mind egymást követő gépi szavak valójában.

Egy idegen kultúra megértésének első lépcsője, hogy lefordítjuk a saját nyelvünkre annak szövegeit. A valódi megértés ott kezdődik, hogy készség szinten elsajátítjuk annak nyelvét, amikor a beszéd és az írás az adott nyelven történő gondolkodást is jelenti – ahelyett, hogy mindig átfordítanánk a saját nyelvünkre, megfogalmazzuk a választ, majd visszafordítjuk a másik nyelvre. A kibertérben való otthonos mozgásnak is ez a feltétele – hogy értsük a tér jellegzetességét és saját nyelvén tudjunk vele párbeszédet folytatni.

A felhasználói felületek pontosan ezt takarják el előlünk, ebben akadályoznak meg minket – ettől felületesek. Azoknak kényelmesek, akik nem készek a kibertér megismerésére, hanem saját, antropomorf világfelfogásukat tudják csak elfogadni.

9 thoughts on “Az interface felületessége

  1. Van igazság a cikkben, és nagyjából azt mondja el – csak más megközelítéssel – amit a parancssorpártiak szoktak.

    Ugyanakkor van itt egy nagyon fontos kérdés. Maga a parancssor ugyanolyan absztrakciós szint, ugyanis a számítógép nem nyelven, szavakkal kommunikál, sőt igazából nem is kommunikál, hanem véges, előre meghatározott dolgokat csinál 2-es számrendszerbeli számokkal.

    Itt voltaképpen két dologról kell tehát beszélni. Az egyik az, hogy határozzuk meg, hogy mit csináljon bizonyos utasítások esetén – ezt mondjuk nevezzük programozásnak, aminek persze szintén több szintje van, nem minden assemblyben születik – a másik meg, hogy hogyan adjuk ki az utasításokat. Erről az utóbbiról szólna a cikk.

    Észre kell venni, hogy absztrakcióra szükség van, mert baromi fájdalmas lenne hosszú számokat megadni a gépnek, a kérdés csak az, hogy mennyire legyen absztrakt.

    Félretéve a kibertér-humbugot, szerintem praktikusan kell megközelíteni a dolgot, és először meg kell találni, hogy mit akarunk csinálni, aztán meg, hogy hogy a legkényelmesebb.

    Valószínűleg sem az első, sem a második kritérium esetben nem lehet objektív közös álláspontot találni.

    Másképpen szólva, bőven elég, ha a mosógépet egy tárcsával lehet irányítani, de az egy PC-hez kevés lenne.

  2. Pont most mutattak be a felulet valoban mukodo verziojat: flowingdata.com/2008/11/17/minority-report-physical-interface-in-real-life-oblong-g-speak/

    Egyetertek a fizikai igenybevetel problemaival, ugyanakkor erdekesnek talalom azt a lehetoseget hogy az emberi test gesztusnyelvet hasznaljuk es bovitsuk a felhaznaloi feluletek fejlesztesevel. Persze ez felveti az emberi adaptacio es a feluletek fejlodesi sebessegeinek az osszehangolhatosagat – lehet-e, erdemes-e ugy tekinteni erre mint egy tanciskolara, ahol minden uj tanc egy uj alkalmazast jelent stb.

    Az epiteszeti teralkotas eseteben azert tartom ezt kulonosen erdekesnek mert a terek tervezese jellemzoen mas mediumokban zajlik, mindig valamilyen iteracioval es a test kozvetlen bevonasa a tervezesi folyamatba, vagyis az erzekek lehetseges kitagitasa szerintem sokat adna a most ilyen ertelemben eleg primitiv eszkoztarhoz.

    Az is igaz hogy nem hiszek a VR tipusu megoldasokban szoval a felvetes inkabb elvi mint konkret.

    Meg egy adalek, a VR es az erzekeles problemaival kapcsolatban: a hetvegen jelent meg ez a cikk az iraki haboruban robotrepuloket iranyito pilotak pszichologiai es fizikai terheleserol. Mint kiderult, a Nevadabol ‘tavmunkaban’ iranyitott gepek pilotai sokkal jobban kikeszulnek mint a fizikailag is a levegoben levo tarsaik, ami javareszt a huzamos idotartamon keresztul redukalt erzekelesnek koszonheto: a VR kornyezet egyszeruen nem teszi lehetove hogy a normalis erzekelesuket es tudasukat stb. hasznaljak.
    http://www.nytimes.com/2008/12/14/magazine/14Ideas-Section2-B-t-001.html

  3. Samu,

    Azt hiszem jol peldazod, amit mondani szeretnek. Ha megnezzunk, a gesztus alapu feluletek legkevesbe sem intuitivak – ezeket ugyanugy tanulni kell, mint pl. ahogy irod, a tancokat. Pl. mikor intuitiv egy kep nagyobbitasara annak sarkainak szethuzasa? A valosagban erre a mozdulatra vagy nem tortenik semmi, vagy szetszakad a kep…

    A legtobb gesztus alapu interaktiv installacio elott ott allnak az emberek, majd latjak, hogy semmi sem tortenik, majd pedig tovabbmennek. Ebbol konnyen le lehet vonni a kovetkeztetest – ezek bizony sem intuitivak nem voltak, sem erdekesek. (Es nem, nem a latogatokkal van a baj 🙂

    Emellett ugy gondolom, hogy egy interface-nek nem erdekesnek kell lennie, hanem hasznosnak / hatekonynak. Amig elsosorban erdekes, addig oncelu, onmagaert valo. Feluletes.

    Akos

  4. Caracalla, elnezest, hogy csak most valaszolok. Tobb helyen is vitatkozok azzal, amit irsz.

    Egyreszt nem onnan ismerszik meg egy szamitogep, hogy binaris szamrendszeren veges muveleteket. pl. Conway eletjateka is kepes egy univerzalis turing gepet futtatni, am sehol sincs benne binaris szam.

    Ezen felul abban amit irsz, eltekintesz attol, hogy a kulonbozo nyelveknek kulonbozo kifejezo erejuk van. Ez nem csak szemantikusan igaz, hanem formalisan is – kulonbozo fajta nyelvek mas fajta szavakat tudnak generalni. vagy forditva – kulonbozo gepek masfajta nyelveket tudnak kezelni. minel egyszerubb egy nyelv, annal egyszerubb gep kell hozza. a legaltalanosabb gep pedig a mar emlitett univerzalis turing gep.

    de valoban, igaz ez szemantikailag is. ahogy Wittgenstein is mondta, a vilagod hatara a nyelved hatara. ha valamit nem tudsz kifejezni, akkor nem tudsz rola beszelni sem.

    ezert fontos kerdes az, hogy mennyire szukos vagy gazdag egy interface. ha szukos, nagyon keves dolgot fogsz tuni kifejezni altala, es igy keves dolgot fogsz tudni megcsinalni vele.

  5. Azért az érvelés túl nagy feneket kerít az egésznek. A parancsor, sőt az egész gépi architektúra visszavezethető antropomorfizmusra, elvégre a velünk való használatra született.

    Másrészről meg a legabsztraktabb felületek is ugyanazt csinálják, mint amit a gépi kommunikációs sémában kezdettől fogva látunk: input, output.

    Szóval nem kell túldramatizálni, maradva gyakorlati szinten pedig teljesen helytálló, hogy kart lengetni fárasztóbb.

  6. @S. M.: attol, hogy valamit egy ember megert, nem valik antropomorffa. vagy akar altala alkototta.

  7. @Maróy Ákos: Hogyne. Én itt egy skálát látok, aminek az egyik vége a gépi kód, a másik meg az ember. És az absztrakcióra való törekvés állandóan jelen volt, van és lesz. A keresőmotorokkal kapcsolatban is annyira szeretik hangoztatni, hogy mostmár természetes nyelvi kérdéseket szeretnének megértetni a géppel (bár ez nem szorosan interfészkérdés, de végülis input-output), ez volna a következő nagy lépés. Más kérdés, hogy szerintem ez egy hülyeség, de az emberhez közelítésre való állandó törekvésre példa ez is.

    Aztán valami bejön, valami nem. A karlengetés is hordozhat több információt, attól függ, mire használjuk, és főleg két kézzel. Próbálgatni kell. Az egérgesztusokról sokáig pontosan azt gondoltam, amit írsz, aztán ma már másképp látom.

  8. @S. M.: @S. M.: na igen, de a ‘skalad’ mar eleve antropomorf, es igy egy ember-orientalt megkozelitest tukroz. probald meg esetleg nem ember-kozpontu felfogasbol megkozeliteni a kerdest.

    az emberi nyelv gepi felismerese – latod, ez egy jo pelda arra, hogy egy rendszer komplexitasat jol jelzi, hogy milyen nyelvet tud kezelni. az a’gep’, akivel emberi nyelven lehet beszelgetni, az ugyanolyan bonyolultsagu is. (ezt ugy is hivnak, hogy Turing teszt.)

Comments are closed.

© 2024 Tranzit Hungary Közhasznú Egyeslüet

A tranzit program fő támogatója az Erste Alapítvány