Microprocesoare - Strategii hardware de predicţie branch

O provocare esenţială pentru îmbunătăţirea performanţelor procesoarelor actuale o constituie rafinarea tehnicilor de predicţie hardware ("run - time"), a ramificaţiilor din program, predicţia efectuându-se chiar în momentul aducerii lor din memorie. Acest articol încearcă să realizeze o prezentare "la zi"a acestui domeniu, în care s-a ajuns la acurateţi ale predicţiilor de peste 97%, măsurat pe benchmark-urile SPECint, departe însă de ceea ce ar trebui. Cele 3 procente, care despart rezultatele actuale de ideal, reprezintă însă un tunel extrem de lung, iar de luminiţa de la capăt... nici vorbă deocamdată. De asemenea, se prezintă câteva rezultate în acest domeniu, obţinute în cadrul unui grup de cercetare de la Universitatea "Lucian Blaga" din Sibiu.

O metodă consacrată în acest sens şi care constituie punctul de plecare al tehnicilor actuale de predicţie, o constituie metoda "branch prediction buffer" (BPB). BPB-ul reprezintă o mică memorie adresată cu cei mai puţin semnificativi biţi ai PC-ului aferent unei instrucţiuni de salt condiţionat.

Cuvântul BPB este constituit în principiu dintr-un singur bit. Dacă acesta este 1, atunci se prezice că saltul se va face, iar dacă este 0, se va prezice că saltul nu se va face. Evident că nu se poate şti în avans dacă predicţia este ori nu corectă. Oricum, structura va considera că predicţia este corectă şi va declanşa aducerea instrucţiunii următoare de pe ramura prezisă. Dacă predicţia se dovedeşte a fi fost falsă, structurile pipeline de procesare ale instrucţiunilor se evacuează şi se va iniţia procesarea celeilale ramuri de program. Desigur, acest proces implică penalizări semnificative asupra ciclilor de execuţie. Totodată, în acest caz, valoarea bitului de predicţie din BPB se inversează.

BPB cu un singur bit are un dezavantaj care se mani festă cu precădere în cazul buclelor de program, ca cea din figura "Bucla de program şi acurateţea predicţiei BPB", în care saltul se va face ( N - 1)

o dată, la ieşirea din buclă, nu se va mai face. Bazat pe tehnica BPB, în acest caz vom avea uzual 2 predicţii false: una la intrarea în buclă (prima parcurgere) şi alta la ieşirea din buclă (ultima parcurgere a buclei).

Aşadar, acurateţea predicţiei va fi de (N - 2) * 100 / N [%], iar saltul se face în proporţie de (N - 1) * 100 / N [%]. Pentru a elimina acest dezavantaj, se utilizează 2 biţi de predicţie modificabili conform grafului de tranziţie "Automatul de predicţie de tip numărător saturat pe 2 biţi" (numărător satu rat). În acest caz, acurateţea predicţiei unei bucle care se face de (N - 1) ori va fi (N - 1) * 100 / N [%].

Variaţiuni ale acestui automat, pe 2 sau chiar mai mulţi biţi sunt posibile, dar fără să inducă creşteri semnificative ale performanţelor [Vin97].

Prin urmare, în cazul în care se prezice că branch-ul se va face, aducerea noii instrucţiuni se face de îndată ce conţinutul noului PC e cunoscut. În caz contrar, se evacuează structura pipeline şi se atacă cealaltă ramură a instrucţiunii de salt. Totodată, biţii de predicţie se modifică în conformitate cu graful din figură numit şi numărător saturat.

Probabilitatea p ca predicţia să fie corectă pentru o instrucţiune de salt e dată de relaţia:

p1, p2 - probabilitatea ca predicţia adresată în BPB să fie corectă şi să se refere la respectiva instrucţiune de salt;

(1-p2)*p3 - probabilitatea ca predicţia să fie corectă, deşi nu se referă la instrucţiunea în curs de aducere. ( Există .posibilitatea ca 2 instrucţiuni de branch distincte să aibă cei mai puţin semnificativi biţi ai PC-ului identici).

Este evident că maximizarea probabilităţii P se obţine prin maximizarea probabilităţilor p1, p2 (p3 nu depinde de caracteristicile BPB-ului).

O altă problemă delicată constă în faptul că, deşi predicţia poate fi corectă, de multe ori adresa de salt (noul PC) nu este disponibilă în timp util, adică la finele fazei de fetch a instrucţiunii (IF- Instruction Fetch). Acest timp necesar calculului noului PC are un efect defavorabil asupra ratei de procesare. Soluţia la această problemă este dată de metoda de predicţie numită "branch target buffer" (BTB), cea mai utilizată la ora actuală (Ex. Intel Pentium). Un BTB este constituit dintr-un BPB care conţine pe lângă biţii de predicţie, noul PC de după instrucţiunea de salt condiţionat (target address) şi eventual alte informaţii. De exemplu, un cuvânt din BTB ar putea conţine şi instrucţiunea ţintă (target opcode). Astfel, ar creşte performanţa, nemaifiind necesar un ciclu de aduce re a acestei instrucţiuni, dar în schimb ar creşte costurile de implementare. Diferenţa esenţială între memoriile BPB şi BTB constă în faptul că prima e o memorie operativă, în timp ce a 2-a poate avea un anumit grad de asociativitate.

La începutul fazei IF se declanşează o căutare asociativă în BTB (full associative), după conţinutul PC-ului în curs de aducere. În cazul în care se obţine hit, se obţine în avans PC-ul aferent instrucţiunii următoare. Mai precis, considerând o structură pipeline pe 3 faze (IF- fetch, RD- decodificare, EX- execuţie) algoritmul de lucru cu BTB-ul este prezentat în "Schema de predicţie Branch Target Buffer" [Hen96].

IF) Se trimite PC-ul instrucţiunii ce urmează a fi adusă spre memorie şi spre BTB. Dacă PC-ul trimis corespunde cu un PC din BTB, se trece în pasul RD 2, altfel în pasul RD1.

RD1) Dacă instrucţiunea adusă e o instrucţiune de branch, se trece în pasul EX 1, altfel se continuă procesarea normală.

RD2) Se trimite PC-ul prezis din BTB spre memoria de instrucţiuni. În cazul în care condiţiile de salt sunt satisfăcute, se trece în pasul EX 3, altfel în pasul EX 2.

EX1) Se introduce PC-ul instrucţiunii de salt precum şi PC-ul prezis în BTB. De obicei, această alocare se face în locaţia cea mai de demult neaccesată LRU (least recently used).

EX2) Predicţia s-a dovedit eronată. Trebuie reluată faza IF de pe cealaltă ramură.

EX3) Predicţia a fost corectă, însă numai dacă PC-ul predicţionat este într-adevăr corect, adică neschimbat.În acest caz, se continuă execuţia normală.

În tabelul "Avantaje - dezavantaje scheme BTB" sunt rezumate avantajele şi dezavantajele tehnicii BTB.

Rezultă că numărul de cicli de penalizare CP este dat de următoarea relaţie:

P_tn- probabilitatea ca saltul să fie prezis că se face şi în realitate nu se face;

P_nt - probabilitatea ca saltul să fie prezis că nu se face şi în realitate se va face;

unde P_b= probabilitatea ca instrucţiunea curentă sa fie una de ramificaţie, iar

CPI = rata [cicli / instrucţiune] ideal obtena bilă (maximă) de procesorul paralel. Actualmente, CPI e cuprins între 0.25 şi 0.17 (Alpha 21164)

Un model matematic simplu al acestei tehnici pentru un BTB cu N biţi de memorare, se referă la maximizarea funcţiei F [Per93] :

P_ex( i ) - probabilitatea ca branch-ul i să se execute în cadrul programului ;

P_tt( i ) - probabilitatea ca branch-ul i să fie prezis că se face şi într-adevăr se va face;

V( i ) - numărul de cicli economisiţi în cazul unei predicţii corecte a branch-ului i;

W( i ) - numărul de cicli de penalizare în cazul unei predicţii incorecte a branch-ului i;

Obs.2) S-a considerat că BTB nu îmbunătăţeşte performanţa pentru o predicţie corectă de tipul "saltul nu se face" (P_nn( i ) = 0), întrucât în acest caz structura se comportă la fel ca şi o structură fără BTB. De asemenea, pentru o predicţie incorectă a faptului că "saltul se face" , am considerat costul acelaşi cu cel pe care l-am avea fără BTB; din acest motiv P_nt( i ) nu intră în expresia funcţiei.

Obs.3) În consecinţă, un branch trebuie introdus în BTB, cu prima ocazie când el se va face. Un salt care ar fi prezis că nu se va face nu trebuie introdus în BTB, pentru că nu are potenţialul de a îmbunătăţi performanţa (nu intră în expresia funcţiei F). Există strategii care, atunci când trebuie evacuat un branch din BTB, îl evacuează pe cel cu potenţialul de performanţă minim, care nu coincide neapărat cu cel mai puţin folosit tip LRU (vezi [Per93]). Astfel, în [Per93] se construieşte câte o variabilă MPP ( Minimum Performance Potential), implementată în hardware , asociată fiecărui cuvânt din BTB. Evacuarea din BTB se face pe baza MPP-ului minim. Acesta se calculează ca un produs între probabilitatea ca un branch din BTB să fie accesat şi, respectiv, probabilitatea ca saltul să se facă, pe baza unei euristici implementată "run- time". Minimizarea ambilor factori duce la minimizarea MPP-ului şi deci la evacuarea respectivului branch din BTB, pe motiv că potenţialul său de performanţă este minim. Rezultatele sunt cu puţin mai bune decât cele implicate de binecunoscutele strategii LRU sau Random.

În literatură se arată că prin astfel de scheme se ajunge la predicţii corecte în (80-90%) din cazuri. Există implementări de mare performanţă în care biţii de predicţie sunt gestionaţi şi funcţie de "istoria" respectivei instrucţiuni de salt, pe baze statistice (INTEL NEX GEN, TRON, etc). Prin asemenea implementări, creşte probabilitatea de predicţie corectă a branch-ului.

În literatură [Hen96, Per93], bazată pe testări laborioase, se arată că se obţin predicţii corecte în 88% din cazuri folosind un bit de predicţie şi, respectiv, în 93% din cazuri folosind 2 biţi de predicţie. Acurateţea predicţiilor creşte asimptotic cu numărul biţilor de predicţie utilizaţi, adică practic cu "istoria predicţiei". Se arată că pentru a obţine performanţe satisfăcătoare sunt necesare predicţii corecte în peste 97% din cazuri [Yeh92]. O acurateţe a predicţiei de 98%, încă neatinsă (ca medie armonică pe benchmarkurile SPECint ‘95), provoacă o degradare a performanţei cu peste 10% faţă de cazul ideal, ceea ce este semnificativ.

Schema de automat de predicţie pe 4 stări poate fi generalizată uşor la N = 2^k stări. Se poate arăta că există N^2N* 2^N(stări x ieşiri) automate distincte de predicţie cu N stări, deşi multe dintre acestea sunt triviale din punct de vedere al predicţiilor salturilor.

În literatură se arată într-un mod elegant, pe bază teoretică şi de simulare, că predictorul de tip numărător saturat pe 2 biţi este cvasioptimal în mulţimea acestor automate de predicţie. După cum vom arăta, prin scheme de predicţie corelate salturilor se pot obţine performanţe superioare.

În acord cu literatura de specialitate, mărirea numărului N de stări ale automatului de predicţie pe k biţi nu conduce la creşteri semnificative ale performanţei.

Predicţia corelată (adaptivă) a ramificaţiilor

Schemele de predicţie anterior prezentate se bazau pe comportarea recentă a unei instrucţiuni de salt, de aici predicţionându-se comportarea viitoare a acelei instrucţiuni de salt. Este posibilă îmbunătăţirea acurateţei predicţiei, dacă aceasta se va baza pe comportarea recentă a altor instrucţiuni de salt, întrucât frecvent aceste instrucţiuni pot avea o comportare corelată în cadrul programului. Schemele bazate pe această observaţie se numesc scheme de predicţie corelată sau adaptive şi au fost introduse pentru prima dată în 1992 de către cercetătorii americani Yeh şi Patt [Hen96, Yeh92].

Să considerăm pentru o primă exemplificare a acestei idei o secvenţă de program C, extrasă din banchmark-ul Eqntott din cadrul grupului SPECint ‘92:

Se observă imediat că, în acest caz, dacă salturile b1 şi b2 nu se vor face, atunci saltul b3 se va face sigur (x = y = 0). Aşadar, saltul b3 nu depinde de comportamentul său anterior, ci de comportamentul anterior al salturilor b1 şi b2, fiind deci corelat cu acestea. Evident că în acest caz schemele de predicţie, anterior prezentate, nu vor da randament.

Să considerăm acum pentru analiză o secvenţă de program C simplificată, împreună cu secvenţa obţinută în urma compilării (s-a presupus că variabila x este asignată registrului R1).

Se poate observa că, dacă saltul condiţio nat b1 nu se va face, atunci nici b2 nu se va face, cele 2 salturi fiind deci corelate.

Vom particulariza secvenţa anterioară, considerând iteraţii succesive ale acesteia pe parcursul cărora x variază de exemplu între 0 şi 5. Un BPB clasic, iniţializat pe predicţie NU, având un singur bit de predicţie, s-ar comporta ca în tabelul "Comportarea unui BPB clasic, pe o secvenţă defavorabilă de program".

Aşadar, o astfel de schemă ar predicţiona în acest caz, întotdeauna greşit! Să analizăm acum comportarea unui predictor corelat având un singur bit de corelaţie (se corelează deci cu instrucţiunea de salt anterior executată) şi un singur bit de predicţie. Acesta se mai numeşte şi predictor corelat (1,1). Acest predictor va avea 2 biţi de predicţie pentru fiecare instrucţiune de salt: primul bit predicţionează dacă instrucţiunea de salt actuală se face sau nu, în cazul în care instrucţiunea anterior executată nu s-a făcut, iar al doilea analog, în cazul în care instrucţiunea de salt anterior executată s-a făcut. Conform tabelului "Conţinutul biţilor de predicţie pt. o schemă corelată (1,1)", există deci următoarele 4 posibilităţi.

Ca şi în cazul BPB-ului clasic cu un bit, în cazul unei predicţii care se dovedeşte a fi eronată, bitul de predicţie indicat se va complementa. Comportarea predictorului (1,1) pe secvenţa anterioară de program este prezentată în tabelul "Comportarea unui predictor corelat pe aceeaşi secvenţă de program" (s-a considerat că biţii de predicţie asociaţi salturilor b1 şi b2 sunt iniţializaţi pe NU / NU).

După cum se observa în tabel, singurele două predicţii incorecte sunt când x = 5 în prima iteraţie. În rest, predicţiile vor fi întotdeauna corecte, schema comportându-se deci foarte bine, spre deosebire de schema BPB clasică.

În cazul general, un predictor corelat de tip (m,n) utilizează comportarea precedentelor m instrucţiuni de salt executate, alegând deci o anumită predicţie de tip Da sau Nu din 2^mposibile iar n reprezintă numărul biţilor utilizaţi în predicţia fiecărui salt.

Un alt avantaj al acestor scheme este dat de simplitatea implementării hardware, cu puţin mai complexă decât cea a unui BPB clasic. Aceasta se bazează pe simpla observaţie că "istoria" celor mai recent executate m salturi din program poate fi memorată într-un registru binar de deplasare pe m ranguri ( history register). Aşadar, adresarea cuvântului de predicţie format din n biţi şi situat într-o tabelă de predicţii, se poate face foarte simplu prin concatenarea c.m.p.s. biţi ai PC-ului instrucţiunii de salt curente cu acest regis tru de deplasare în adresarea BPB-ului de predicţie. Ca şi în cazul BPB-ului clasic, un anumit cuvânt de predicţie poate corespunde la mai multe salturi. Există în implementare 2 structuri deci: un registru de predicţie al cărui conţinut concatenat cu PC- ul c.m.p.s. al instrucţiunii de salt, pointează la un cuvânt din tabela de predicţii (aceasta conţine biţii de predicţie, adresa destinaţie, etc.). În [Yeh92], nu se face concatenarea PC- regis tru de predicţie şi, în consecinţă, se obţin rezultate nesatisfăcătoare datorită interfe renţei diverselor salturi la aceeaşi locaţie din tabela de predicţii, lucru constatat şi dove dit de noi prin simulări proprii.

De remarcat că un BPB clasic reprezintă un predictor de tip (0,n), unde n este numărul biţilor de predicţie utilizaţi.

Numărul total de biţi utilizaţi în implementarea unui predictor corelat de tip (m,n) este N:

Există citate în literatură mai multe implementări de scheme de predicţie a ramificaţii lor. Astfel, de exemplu, implementarea tipică a unui predictor corelat de tip GAg (Global History Register, Global Prediction History Table) este prezentată în figură. Tabela de predicţii PHT (Prediction History Table) este adresată cu un index rezultat din concatenarea a două informaţii ortogonale: PClow (i biţi), semnificând gradul de localizare al saltului, respectiv registrul de predicţie (HR- History Register pe k biţi), semnificând "contextul" în care se situează saltul în program. Desigur, PHT poate avea diferite grade de asociativitate. Un cuvânt din această tabelă are un format similar cu cel al cuvântului dintr-un BTB.

În scopul reducerii interferenţelor diverselor salturi în tabela de predicţii, în [Yeh92] se prezintă o schemă numită PAg- Per Address History Table, Global PHT, a cărei structură este oarecum asemănătoare cu cea a schemei GAg. Componenta HR^*(k) a introdus-o autorul acestui articol, având semnificaţia HR de la GAg, adică un registru global care memorează comportarea ultimelor k salturi. Fără această componentă, cred că schema PAg şi-ar pierde din capacitatea de adaptare la contextul programului, în sensul în care schema GAg o face. În schimb, componenta HR din History Table, conţine "istoria" (taken/ not taken) saltului curent, ce trebuie predicţionat. După cum se va arăta mai departe, performanţa PAg este superioară celei obţinute printr-o schemă GAg.

O comparare echitabilă între schemele de predicţie clasice şi cele corelate trebuie să impună acelaşi număr de biţi, utilizaţi în implementarea celor 2 scheme de comparat. Aşa de exemplu, în [Hen96] se compară un predictor (0,2) de capacitate 4k cu predictor (2,2) de capacitate 1k. Acurateţea predicţii lor schemei corelate este clar mai bună. Simulările s-au făcut pe procesorul DLX, bazat pe 10 benchmark-uri SPECint ‘92. Schema corelată a obţinut predicţii corecte în 82%-100% din cazuri. Mai mult, predictorul (2,2) obţine rezultate superioare în comparaţie chiar cu un BPB, având un număr infinit de locaţii.

O altă problemă dificilă este determinată de instrucţiunile de tip RETURN, întrucât o aceeaşi instrucţiune poate avea adrese de revenire diferite, ceea ce va conduce în mod normal la predicţii eronate, pe motivul modi ficării adresei eronate în tabela de predicţii. Desigur, problema se pune atât în cazul schemelor de tip BTB cât şi a celor de tip corelat. Soluţia de principiu [Kae91] constă în implementarea în hardware a unor aşa zise "stack - frame"- uri diferite. Acestea vor fi nişte stive, care vor conţine perechi CALL/ RETURN cu toate informaţiile necesare asocierii lor corecte. Astfel, o instrucţiune CALL poate modifica dinamic în tabela de predicţii adresa de revenire pentru instrucţiunea RETURN corespunzătoare, evitându-se astfel situaţiile nedorite mai sus, schiţate. Acelaşi lucru este valabil şi în cazul unor salturi în moduri de adresare indirecte prin registru, unde modificarea dinamică a registrului pointer poate avea efecte defavorabile în procesul de predicţie.

O altă soluţie în problema ramificaţiilor de program, radical diferită dar dificilă şi costisitoare, constă în aducerea instrucţiunilor din cadrul ambelor ramuri ale branch-ului în structuri pipeline paralele (multiple instructions streams). Când condiţia de salt e determinată, una din ramuri se va abandona. Desigur că în acest caz sunt necesare redundanţe importante ale resurselor hardware, precum şi complicaţii în logica de control. Dacă pe o ramură a programului există de ex. o instrucţiune de tip STORE, procesarea acestei ramuri trebuie oprită, întrucât există posibilitatea unei alterări ireparabile a unei locaţii de memorie. Această soluţie implică creşteri serioase ale costurilor, dar, se pare că ar fi singura capabilă să se apropie oricât de mult faţă de idealul predicţiei absolut corecte. În cazul microprocesoarelor, aceste mecanisme de prefetch ale ambelor ramuri, nu se aplică în prezent decât în cazuri rare, în principal datorită lărgimii de bandă limitate între microprocesor şi memoria principală dar şi a unor dificultăţi legate de biportarea acesteia. Tehnica s-a întâlnit rar în cazul supercomputerelor anilor ‘70, ‘80 (IBM- 3033).

Aceste tehnici de predicţie hardware a branch-urilor, datorită complexităţii lor, nu sunt implementate în mod uzual în microprocesoarele RISC (Reduced Instruction Set Computing) scalare, întrucât se preferă tehnicile software de "umplere" a " branch delay slot"-ului (limitat în general la o instrucţiune) cu instrucţiuni utile, anterioare celei de salt. În schimb, predicţia hardware este implementată în cazul unor procesoare superscalare, care lansează în execuţie mai multe instrucţiuni din bufferul de prefetch, simultan, şi unde datorită BDS-ului de câteva instrucţiuni, umplerea lui cu instrucţiuni anterioare independente devine practic imposibilă [Vin97, Vin98].

O investigaţie şi câteva rezultate

În continuare, se prezintă pe scurt o investigaţie iniţiată la Universitatea "Lucian Blaga" din Sibiu, Catedra de Calculatoare şi Auto ma tizări, ce abordează pe bază de simulare software, problema extrem de interesantă şi dezbătută, a celor mai performante scheme de predicţie la ora actuală, cele corelate pe 2 nivele. Se încearcă integrarea unei asemenea predicţii hardware în cadrul arhitecturii HSA (Hatfield Superscalar Architecture), dezvoltată la Universitatea din Hertfordshire, UK. Menţionăm că, până în prezent, această arhitectură se baza pe tehnici pur software de tip compensare "Branch Delay Slot" [Ste96]. De asemenea, se prezintă rezultatele obţinute, aflate în deplină concordanţă cu cele publicate în literatura de specialitate recentă.

În continuare, se prezintă un simulator de tip "trace driven simulation", destinat predicţiei hardware adaptive pe două nivele, a instrucţiunilor de ramificaţie, implementat de către dipl. ing. Ion Breazu în cadrul unei teze de masterat dezvoltate sub directa îndrumare a autorului acestui articol, la Universitatea "Lucian Blaga" din Sibiu [Bre97]. De precizat că acest tip de scheme de predicţie, după cum deja am arătat, sunt cele mai performante la ora actuală în cadrul procesoarelor paralele [Yeh92, Vin96, CheC96].

Acest predictor hardware este integrat, pentru prima dată, în cadrul arhitecturii de procesor HSA, care, iniţial, nu a fost gândită să realizeze predicţia hardware a ramificaţii lor [Ste96], aceasta constituind ideea autorului acestei lucrări. Se va urmări deci analizarea fezabilităţii unui astfel de predictor integrat în cadrul arhitecturii HSA.

Hist Reg reprezintă "registrul istorie" al predicţiilor şi conţine valori binare semnificând comportarea ultimelor k instrucţiuni de ramificaţie. În cadrul simulatorului dezvoltat de grupul de cercetare de la Universitatea "Lucian Blaga" din Sibiu, Hist Reg are o lungime variabilă, realist cuprinsă între 6 şi 14 biţi. De asemenea, s-a parametrizat şi lungimea variabilei PClow (i biţi), utilizată în adresarea tabelei de predicţii.

Pentru tabela de predicţii s-a folosit o structură vectorială de înregistrări. Fiecare înregistrare memorează adresa destinaţie a saltului şi respectiv starea automatului de predicţie asociată contextului la acel moment dat. În cadrul simulatorului, schema de automat de predicţie utilizat poate fi stabilită iniţial de către utilizator. Astfel, se pot alege automate având între 2 şi 16 stări.

Programul procesează trace-uri HSA speciale, provenite din compilarea şi executarea benchmark-urilor Stanford pe simulatorul HSA, scris în C sub Unix la Universitatea din Hertfordshire, UK [Ste96]. Aceste 8 benchmark-uri au fost scrise în C şi propuse de către profesorul John Hennessy de la Universitatea din Stanford, U.S.A., cu scopul de a constitui "numitorul comun" în evaluarea performanţelor arhitecturilor ILP (Instruction Level Parallelism). Ele sunt considerate deosebit de reprezentative pentru aplicaţiile de uz general (non-numerice) şi realizează aplicaţii generale precum: sortări prin tehnici consacrate (bench-urile bubble, tree şi sort), aplicaţii puternic recursive (bench-urile: permute, puzzle, tower-proble ma turnurilor din Hanoi), şi alte aplicaţii clasice (matrix- procesări de matrici, queens - problema de şah a celor 8 regine). Aceste trace-uri speciale vor conţine, după cum este şi firesc, toate instrucţiunile de ramificaţie din benchmark, în ordinea executării lor. Fiecare dintre aceste instrucţiuni de rami ficaţie din trace are asociat PC-ul cores punzător şi respectiv adresa destinaţie a saltului, esenţială pentru verificarea corectitudinii predicţiei.

În realitate, trace-urile HSA conţin doar branch-urile care s-au făcut, din motive de economie de spaţiu, după cum am mai arătat. Au trebuit deci generate pe baza acestora şi a surselor în asamblare, trace-uri speciale conţinând şi salturile inefective.

Aici, utilizatorul va stabili numărul biţilor ce caracterizează registrul Hist Reg, PClow, precum şi tipul automatului de predicţie din cadrul tabelei de predicţii. Tot acum se iniţializează cu zero adresele destinaţie şi starea automatului de predicţie utilizat.

Se stabileşte de către utilizator benchmark-ul de tip trace care va fi utilizat. Din acest benchmark, se citesc secvenţial instrucţiunile de ramificaţie şi se compară predicţia reală din trace cu cea propusă din tabelă. Aici pot să apară 3 cazuri distincte: predicţie corectă, predicţie incorectă, predicţie incorectă datorată exclusiv adresei de salt incorecte din tabelă. Acest ultim caz se poate datora faptului că adresa de salt din tabelă a fost modificată, de exemplu de către un alt salt, având astfel un fenomen de interferenţă al salturilor dar pot fi şi alte cauze posibile (modificarea dinamică a adresei de salt aferentă aceleiaşi instrucţiuni). În continuare, se vor actualiza corespunzător registrul Hist Reg şi respectiv locaţia folosită din tabela de predicţii.

La finele simulării propriu-zise se generează rezultate semnificative, precum numărul total de salturi executate, procentajul de predicţii corecte, incorecte şi respectiv afectate de interferenţe ale salturilor, rata de procesare, etc.

În continuare, se prezintă câteva rezultate semnificative obţinute prin exploatarea simu latorului anterior descris pe câteva din suita benchmark-urilor Stanford, pentru scheme de predicţie de tip BTB, respectiv GAg. Rezultă că, în cadrul acestor programe, în medie 15% din instrucţiuni sunt ramificaţii. Dintre acestea, cca 78% se fac.

Astfel, în figura "Acurateţea predicţiilor pt. diverse HR-uri" se prezintă procentajul predicţiilor eronate, obţinute prin exploa tarea simulatorului pe benchmark-urile respective. Simularea s-a făcut considerând o tabelă de predicţii având capacitatea 16k, considerând registrul Hist Reg de 10, 8 şi 6 biţi.

În aceste condiţii, s-au obţinut rate medii (armonice-HM) de miss de 7.06%, 6.95% şi 6.4% respectiv. Dacă s-ar fi ajuns la Hist Reg pe 4 biţi, s-ar fi obţinut o rată medie de miss de 7.07%, ceea ce arată clar faptul că, performanţa optimă se obţine pentru Hist Reg pe 6 biţi şi anume o acurateţe a predicţiei de 93.6%, comparabilă cu cele obţinute prin cercetări consacrate [Yeh92, Per93]. Normal, cel mai bine s-a comportat benchmark-ul matrix (predicţie corectă în 96.5% din cazuri), întrucât aici 97% din salturi se fac. În plus, acestea sunt deosebit de predictibile, ca în toate programele cu un carac ter numeric accentuat de altfel.

O problemă interesantă care s-a dorit studiată a fost următoarea: în ce măsură predicţiile, altfel corecte, sunt afectate de modificarea adresei efective în tabela de predicţii? La această întrebare se răspunde în graficul din figura "Predicţii greşite din cauza modificării adresei de salt în predictor".

Simularea s-a realizat considerând Hist Reg de 10, 8 şi 6 biţi şi s-au obţinut adrese efective modificate în 5.16%, 4.89% şi 4.73% din cazuri respectiv (medii armoni ce). Din nou optimul se obţine şi din acest punct de vedere pentru Hist Reg pe 6 biţi (simulări pentru Hist Reg pe 4 biţi generează adresă greşită în 4.8% din cazuri).

Din cele prezentate, precum şi din alte cazuri particulare, explorate cu ajutorul simu latorului implementat, rezultă că optimul între gradul de corelare (Hist Reg) şi capaci tatea tabelei (adresată prin intermediul PClow & Hist Reg ), se obţine pentru lun gimi ale Hist Reg de cca 40% din numărul total al biţilor de adresare tabelă.

Altfel spus, aici stabileşte simularea compromisul optim între 2 procese complementare: gradul de corelare al saltului (Hist Reg "mare") şi respectiv gradul de localizare al saltului (PClow "mare"). Suma celor doi parametri este fixată prin proiectare, aşadar compromisul optim trebuie găsit. Rezultatele acestei simulări demonstrează foarte clar următorul proces: un grad de localizare scăzut determină interferenţe ale unor salturi diferite la aceeaşi locaţie din tabelă, rezultând predicţii eronate pe motiv de adresă de salt alterată, deci scade performanţa. Pe de altă parte, un grad de localizare ridicat determină un grad de corelare scăzut şi deci schema devine inefectivă în cazul unor salturi corelate, datorită nesituării adecvate în context a predicţiei. Şi în acest caz, performanţa globală scade. Optimul este un compromis între aceste două situaţii extreme, după cum a şi rezultat.

Desigur că fenomenul de interferenţă, poate fi evitat parţial prin creşterea gradului de asociativitate al schemelor de predicţie, lucru care s-a şi simulat de altfel şi va fi prezentat în continuare. Astfel, de exemplu, prin adăugarea unui câmp de TAG în cadrul cuvântului tabelei de predicţii, care să fie comparat dinamic în faza IF cu PChigh, se exclude posibilitatea mapării unor salturi diferite în aceeaşi locaţie din tabelă. Ar mai ramâne nerezolvată problema acelor salturi care modifică dinamic adresa ţintă (instrucţiuni tip RETURN). Ea poate fi rezolvată de exemplu, prin implementarea unor stack-frame-uri diferite, asociate biunivoc diferitelor taskuri în curs de execuţie. Şi această soluţie a fost evaluată prin simulare. Toate aceste soluţii determină însă creşterea complexităţii şi deci a costurilor de implementare, în spiritul unui etern compromis între performanţă şi preţuri. Simulatorul construit generează soluţia optimală pentru orice schemă corelată de predicţii.

Un astfel de predictor integrat în cadrul procesorului HSA conduce la rezultate foarte bune, pe deplin comparabile cu cele prezentate în literatură şi constituie o alternativă superioară compensării statice a "branch delay slot"-ului, propuse în cadrul acestui procesor [Ste96]. Simulatorul construit conduce la soluţia constructivă optimă de schemă de predicţie corelată pe 2 nivele sau chiar tip BTB, integrată într-o arhitectură superscalară.

Se observă că, particularizând schema de predicţie corelată pentru lungimea HR egală cu zero biţi, se obţine o schemă de predicţie clasică, de tip BTB. Simulatorul implementat permite următoarele câmpuri în cuvântul BTB: PChigh (Tag), automat predicţie parametrizabil ca tip, adresa ţintă a saltului respectiv, opcode instrucţiune ţintă (opţional). În continuare, se prezintă câteva rezultate, considerate ca fiind extrem de interesante, în cadrul acestei particulari zări de tip BTB.

În figura "Acurateţea predicţiei BTB pt. diverse automate de predicţie", se prezintă influenţa numărului biţilor de predicţie asupra acurateţii predicţiei [%], într-o arhitectură BTB clasică. S-a considerat capacitatea BTB-ului de 50 intrări şi numărul ciclilor de penalizare (CP) pentru o predicţie eronată de 5 tacte. După cum se poate observa, diferenţele între cele 3 variante sunt relativ nesemnificative, cea cu 2 biţi de predicţie fiind totuşi mai bună. Acest rezultat este în concordanţă cu cele obţinute de alţi cercetători [Per93].

Figura "Ratele de procesare funcţie de numărul ciclilor de penalizare" prezintă influenţa numărului ciclilor de penalizare în cazul predicţiilor eronate pentru un BTB de 50 intrări, având 2 biţi de predicţie. După cum se poate observa, pentru CP=1 tact s-a obţinut IR (Issue Rate- Rata medie de execuţie a instrucţiunilor exprimată în instrucţiuni / ciclu) = 0.89, iar pentru CP=5 tacte s-a obţinut IR=0.82, adică o deteriorare a performanţei cu cca 9%, ceea ce era de aşteptat.

În figura "Performanţa funcţie de capaci tatea BTB" se prezintă influenţa capacităţii BTB-ului asupra ratei de procesare conside rând 2 biţi de predicţie şi CP=5. Astfel, s-a obţinut pentru un BTB de 10 intrări un IR=0.65 [instr./ ciclu], iar pentru un BTB având 50 intrări, un IR=0.83 [instr./ ciclu], adică o creştere medie armonică de 28%. Se precizează că pentru capacităţi ale BTB-ului mai mari de 50 intrări, performanţa creşte asimptotic, ceea ce implică faptul că această capacitate generează performanţe optime.

În figura "Accelerarea produsă de introducerea opcode-ului în BTB" s-a prezentat acceleraţia S [%] determinată de introduce rea instrucţiunii ţintă în cadrul cuvântului din BTB. Aşadar, în acest caz, procesorul află prin predicţie nu numai adresa de salt dar şi opcode-ul instrucţiunii destinaţie, fiind deci scutit de penalizarea indusă de necesitatea aducerii acestui opcode. Simularea s-a realizat pe o schemă având 2 biţi de predicţie, capacitate 50 de intrări şi CP=5. S-a constatat o accelerare medie armonică de 8.5%, iar media aritmetică de 12.25%, ceea ce este semnificativ şi în acord cu alte rezultate publicate în literatură.

În figura "Comparare între schemele BTB şi cele adaptive" se prezintă acurateţea predicţiilor comparativ pentru o schemă BTB cu tag şi o schemă corelată pe două nivele. Se observă că, per ansamblu, schema corelată pe două nivele lucrează ceva mai bine.

În figura "Accelerarea unui predictor tip GAg cu Tag" se prezintă raportul (S%) între acurateţea obţinută pentru un predictor corelat cu tag şi cea obţinută pentru un predictor corelat fără tag. S-a obţinut în media armonică S=29%, rezultat previzibil având în vedere că schema cu tag elimină în bună parte interferenţele branch-urilor, după cum am mai arătat.

Cercetari mai recente, efectuate de grupul nostru de cercetare pentru arhitecturi paralele şi neconvenţionale, au arătat că, din punct de vedere al raportului performanţă / cost, schemele corelate de tip PAg par a fi cele optime. Grade ridicate ale asociativi tăţii tabelei "History Table" conduc la creşteri semnificative ale performanţelor predictive.

Bibliografie

[Bre97] Breazu I. (coord. L. Vintan) - Teh nici adaptive de predicţie a ramificaţiilor în arhitecturile superscalare, Teza de masterat, Universitatea "Lucian Blaga" din Sibiu, 1997

[CheC96] Chen C., King C.- Designing Dynamic Two- Level Branch Predictors Based on Pattern Locality, EuroPar Conf., Lyon, 1996

[Hen96] Hennessy J., Patterson D.- Compu ter Architecture- A Quantitative Approach, Morgan Kaufmann Publishers, 1996

[Kae91] Kaeli D., Emma P.- Branch History Table Prediction of Moving Target Branches due to Subroutine Returns, 18-th Int’l Conf. on Computer Architecture, Toronto, May, 1991

[Per93] Perleberg C., Smith A. J. - Branch Target Buffer Design and Optimisation, IEEE Trans. on Computers, No. 4, 1993.

[Ste96] Steven G. B., s.a. - A Superscalar Architecture to Exploit ILP, Euromicro Conference, 2-5 september, Prague, 1996.

[Vin97] Vinţan L.- Metode de evaluare si optimizare in arhitecturile paralele de tip ILP, Editura Universitatii "Lucian Blaga" din Sibiu, ISBN 973-9280-67-6, 1997

[Vin98] Vinţan L., Steven G.- Static Data Dependence Collapsing in a High Performance Superscalar Architecture,The 3-rd International Conference on Massively Parallel Computing Systems, Colorado Springs, U.S.A., 6-9 April, 1998

[Vin98b] Vinţan L., Armat C., Steven G.- The Impact of Cache Organisation on the Instruction Issue Rate of a Superscalar Processor, Proceedings of European Conference on Parallel Architectures, 1-4 September, 1998. Southampton, UK

[Vin98c] Vinţan L., Breazu I.- Branch Prediction into a RISC Environment, Acta Universitatis Cibiniensis, seria Electronica si Calculatoare, Ed. Univ. "L. Blaga" din Sibiu, 1998

[Yeh92] Yeh T., Patt Y. - Alternative Implementations of Two Level Adaptive Branch Prediction, 19 th Ann. Int.’L Symp. Computer Architecture, 1992

Strategii hardware
de predicţie branch

Predicţia corelată (adaptivă) a ramificaţiilor

O investigaţie şi câteva rezultate

Bibliografie

BYTE România - septembrie 1998

(C) Copyright Computer Press Agora