Investigaţii asupra limitelor de paralelism

Optimizatoarele de cod (schedulere) destinate arhitecturilor avansate de microprocesoare (superscalare, VLIW) reuşesc performanţe medii de 1- 2 instrucţiuni / tact, încă modeste având în vedere „forţa hardware” a acestor maşini. Până unde am putea spera să ajungem prin schedulere mai performante? Ce determină actualele optimizatoare să obţină doar performanţele menţionate? Unde ar trebui acţionat în viitor pentru apropierea „realului” de „idealul” posibil? Acest articol încearcă să răspundă, fie şi parţial, câtorva asemenea întrebări.

Această prezentare încearcă să răspundă la o problemă, credem noi, fundamentală, şi anume: mai putem spera la rezultate spectaculoase de la acest domeniu al exploatării paralelismului la nivel de instrucţiuni în cadrul hard-soft al microprocesoarelor avansate (ILP- Instruction Level Parallelism)? Altfel spus, mai există potenţial de performanţă neexploatat relativ la schedulingul (rearanjarea instrucţiunilor programului obiect în vederea execuţiei sale optimale) static? După cum se va vedea, pe o bază de simulare cantitativă, răspunsul meu va fi unul optimist.

În ultimii ani, se manifestă un interes deosebit pe plan mondial în dezvoltarea unor metode şi algoritmi de scheduling static global pentru arhitecturile MEM (Maşini cu Execuţii Multiple ale instrucţiunilor maşină). Aceste schedulere - unele chiar integrate în compilatoare [Hwu95] - asamblează în aşa-numite grupuri, instrucţiuni independente din program, în scopul execuţiei simultane a instrucţiunilor aparţinând aceluiaşi grup. Această investigaţie realizată de grupul de „arhitecturi avansate” de la Universitatea din Hertfordshire, UK, condus de profesorul Gordon B. Steven, împreună cu autorul acestui articol, se bazează pe arhitectura HSA (Hatfield Superscalar Arhitecture). Arhitectura HSA dezvoltată la Universitatea din Hertfordshire, U.K., reprezintă o arhitectură microprocesor superscalară- VLIW ( Very Long Instruction Word) hibridă, care aduce anticipat din cache-ul de instrucţiuni (I-CACHE), instrucţiuni multiple într-un buffer de prefech. În fiecare tact, logica de decodificare trimite „In-Order” spre execuţie, din bufferul de prefech, cât mai multe instrucţiuni independente pentru a fi executate în paralel. Optimizarea programelor se face static, după compilare, printr-un scheduler special conceput, deosebit de complex- conţine cca. 65.000 linii sursa de C [Col95, Ste96] !

Scopul acestei cercetări este de a „măsura” gradul de ILP existent în benckmark-urile Stanford, compilate special pentru arhitectura HSA utilizând compilatorul GNU CC de sub Unix [Col95]. Aceste 8 benchmark-uri au fost scrise în C şi propuse de către profesorul John Hennessy de la Universitatea din Stanford, U.S.A., cu scopul de a constitui „numitorul comun” în evaluarea performanţelor arhitecturilor ILP. Ele sunt considerate deosebit de reprezentative pentru aplicaţiile de uz general (non-numerice) şi realizează aplicaţii generale precum: sortări (bench-urile bubble, tree şi sort), aplicaţii puternic recursive (bench-urile: perm, puzzle, tower-problema turnurilor din Hanoi), şi alte aplicaţii clasice (matrix- procesări de matrici, queens - problema de şah a celor 8 regine). În urma compilării acestor benchmark-uri C, s-au obţinut programe asamblare HSA (*.ins).

Principiul metodei utilizate în investigare se bazează pe implementarea unui simulator TDS (Trace Driven Simulator), care să lucreze pe trace-urile HSA (*.trc) ale bench-urilor Stanford. Aceste trace-uri, reprezentând în principiu toate instrucţiunile maşină HSA dintr-un program, scrise în ordinea execuţiei lor şi memorate într-un fişier, s-au obţinut pe baza simulatorului HSA dezvoltat anterior [Col95]. Acest simulator procesează benchmark-urile Stanford gata asamblate şi generează parametrii compleţi aferenţi procesării, precum şi trace-urile în diverse forme. De precizat că trace-urile utilizate conţin între cca 200.000 şi 900.000 de instrucţiuni maşină HSA.

În principiu, TDS analizează secvenţial toate instrucţiunile dintr-un anumit trace HSA. Fiecărei instrucţiuni i se asociază un parametru numit PIT (Parallel Instruction Time), semnificând numărul impulsului de tact în care instrucţiunea respectivă poate fi lansată în execuţia propriu-zisă. Aceasta înseamnă că în acel moment, operanzii sursă aferenţi instrucţiunii respective sunt disponibili. Dacă o instrucţiune următoare este dependentă RAW (Read After Write) printr-un registru sau printr-o variabilă de memorie de instrucţiunea curentă, atunci ei i se va aloca un nou PIT dat de relaţia:

PITnou = PITvechi + L,

unde: L = latenţa instrucţiunii curente

Acest proces de alocare PIT continuă în mod similar până la finele trace-ului.

Instrucţiuni arbitrar plasate în trace pot avea acelaşi PIT, semnificând deci faptul că- teoretic cel puţin- pot fi executate în paralel.

Se consideră că arhitectura are resurse (unităţi funcţionale, regiştri, etc.) infinite, astfel încât, oricât de multe instrucţiuni independente pot fi executate în paralel la un moment dat. De asemenea, se ignoră hazardurile false de tip WAR (Write After Read) şi WAW (Write After Write), considerându-se deci un „renaming” perfect, analiză anti-alias perfectă a adreselor instrucţiunilor Load/ Store şi o predicţie perfectă a branch-urilor (model ORACLE). În final se obţine gradul teoretic de paralelism disponibil: IRteoretic = N/ PITmax, unde N = numărul total de instrucţiuni din trace. De remarcat că dacă un asemenea model idealizat ar deţine mecanisme de forwarding prin implementarea unor algoritmi de tip Tomasulo [Vin97], s-ar reduce la maximum posibil citirile din seturile de regiştri. Astfel, s-ar diminua deci hazardurile structurale la regiştri.

Acest indicator este esenţial întrucât va lămuri dacă există suficient paralelism în programele „de uz general” care să justifice în continuare cercetările în scheduling, întrucât realizările actuale cele mai performante comunică rate de procesare de până la 1.2-2.4 instr./tact, pe procesoare capabile teoretic la 6-8 instr./tact [Col95]. După cum se va vedea, răspunsul va fi unul pozitiv. O altă problemă, implicată de cele prezentate până acum, este următoarea: de ce nu se obţine IRteoretic în practică? Răspunsul este: datorită unor limitări fundamentale, obiective, dar şi datorită unor limitări artificiale. O limitare fundamentală se referă la chiar conceptul de scheduling static. Acesta este nevoit să fie uneori, inevitabil, conservator, datorită informaţiilor necunoscute în momentul compilării programului [Fra92, Col95]. Dintre celelalte limitări fundamentale amintim: hazardurile structurale, de date şi de control.

Limitările artificiale sunt date de „conservatorismul”, teoretic evitabil, al schedulerelor actuale şi după cum vom arăta, limitează serios performanţa acestora.

De exemplu, buclele (loops) constituie o astfel de limitare. Multe schedulere forţează execuţia serială a iteraţiilor unei bucle de program, deşi ar fi posibilă paralelizarea acestor iteraţii prin tehnici deja cunoscute precum cele de „loop unrolling” sau „software pipelining” [Vin97]. De asemenea, majoritatea schedulerelor actuale nu permit execuţia instrucţiunilor dintr-o buclă până când toate instrucţiunile precedente buclei nu s-au executat. Analog, la ieşirea din buclă. O limitare similară cu cea introdusă de bucle o introduc procedurile.

Un alt exemplu îl constituie reorganizarea statică (execuţia Out of Order) a instrucţiunilor LOAD/STORE. Schedulerele actuale nu permit sau permit în limite foarte strînse acest lucru, întrucât problema dezambiguizării (analiză antialias) referinţelor la memorie nu este încă pe deplin rezolvată [Hua94]. Această problemă constă în determinarea adreselor de acces aferente instrucţiunilor LOAD/ STORE, înaintea execuţiei lor. Dacă, de exemplu, s-ar şti că adresa unui LOAD diferă întotdeauna de cea a unui STORE, ele s-ar putea executa în afara ordinii normale, cu mari beneficii asupra timpului global de execuţie al programului respectiv. Din păcate un scheduler pur static nu poate distinge întotdeauna dacă două referinţe la memorie sunt permanent diferite pe timpul execuţiei programului.

În fine, o altă limitare de acest tip o constituie latenţa mare a unor instrucţiuni sau memorii care se aşteaptă să fie reduse în viitor prin progrese arhitecturale sau/şi tehnologice.

În cele ce urmează, se vor cuantifica pierderile de performanţă introduse prin aceste limitări, demonstrând totodată că există suficient potenţial în acest domeniu, în care cercetările sunt doar la început.

Se menţionează că există câteva referinţe bibliografice care abordează această problematică [Lam92, Wall91]. Din păcate, concluziile obţinute nu concordă între ele datorită unor metodologii de lucru foarte diferite. Astfel, de exemplu, Wall consideră că rata maximă de procesare pe un procesor superscalar nu poate depăşi 7 instr./tact. Acest lucru se datorează faptului că, în modelul său, schedulingul este exclusiv dinamic, realizându-se de fapt exclusiv prin hardware. Având în vedere capacitatea limitată a bufferului de prefetch, rezultatul obţinut este absolut normal. Alţii, pe modele mai agresive şi prin scheduling static comunică potenţiale mult mai optimiste cuprinse între 90 şi 158 instr./tact [Lam92].

Astfel de ex. în [Lam92] se abordează problematica gradului de paralelism posibil, prin prisma relaxării constrângerilor determinate de instrucţiunile de ramificaţie. Se examinează aportul cantitativ asupra gradului ILP adus de trei tehnici: execuţia speculativă cu predicţie a instrucţiunilor de ramificaţie, analiza dependenţelor impuse de ramificaţii şi respectiv multithreading-ul.

Execuţia speculativă se referă la execuţia în paralel cu instrucţiunea de salt, sau chiar anterior acesteia, a unei instrucţiuni situată în program după instrucţiunea de salt. O tehnică relativ uzuală constă în execuţia speculativă a instrucţiunilor situate pe „calea ce mai probabilă” (trace-ul cel mai probabil) în a fi executată. Fetch-ul speculativ al instruc'iunilor poate mări de asemenea considerabil gradul de paralelism. Desigur, în cazul predicţiilor eronate ale instrucţiunilor de salt, efectele instrucţiunilor executate speculativ trebuie înlăturat.

Analiza dependenţelor ramificaţiilor se referă la faptul că toate instrucţiunile executate speculativ în cazul unei ramificaţii greşit predicţionate, se anulează. Această constrângere este uneori redundantă, conducând la acţiuni inutile, consumatoare de timp. De exemplu în cazul următor, asignarea „c=2;” nu depinde de salt şi ca urmare poate fi executată speculativ în orice caz (saltul se face ori nu).

if (a<0) 
b=1; 
c=2;

Chiar dacă prin hardware este mai dificil, totuşi compilatorul (scheduler-ul) ar putea detecta aceaste „independenţe” de control şi ca urmare, elimina această ineficienţă. În caz contrar, efectul asignării c=2 trebuie anulat, ceea ce e evident inutil, în cazul proastei predicţii a saltului condiţionat (if). Mai mult, printr-o analiză serioasă, execuţia speculativă în acest caz s-ar putea face peste mai multe ramificaţii.

Multithreading-ul se referă la capacitatea unei maşini de a executa în paralel fluxuri distincte, independente, de instrucţiuni (procese) din cadrul unei aplicaţii. Să considerăm secvenţa:

for (i=0; i<100; i++) 
if (A[i]>0) flux1(); 
flux2();

Într-un uniprocesor MEM va fi dificil şi oarecum impropriu de exploatat la maximum paralelismul buclei flux1() împreună cu a procesului flux2(), chiar dacă cele 2 procese sunt independente de date. Acest lucru s-ar putea preta perfect însă pe o maşină MIMD (multiprocesor) unde s-ar putea crea 2 perechi independente de tip procesor- proces.

În continuare, autorii evaluează gradul de paralelism disponibil în programele de uz general pe baza unei metodologii tipice, de tip „trace driven simulation”. Evaluările se fac pe mai multe „maşini” abstracte, dintre care amintim următoarele tipuri reprezentative:

• BASE - maşină MEM convenţională, caracterizată de faptul că o instrucţiune nu se execută până când ramificaţia care o precede nu s-a încheiat. Instrucţiunile de salt se vor executa secvenţial, câte una pe ciclu (tact).
• CD (Control Dependence) - caracterizată prin aceea că o instrucţiune nu se execută până când ramificaţia de care depinde nu s-a încheiat.
• CD+MF (MultiFlow) - CD + că se pot executa multiple salturi în paralel şi out- of - order (în afara ordinii lor secvenţiale din program).
• SP (Speculation) - o instrucţiune nu se execută până când ramificaţia prost predicţionată care o precede în trace nu s-a rezolvat. Cu alte cuvinte, aici salturile predicţionate corect, ar permite execuţia speculativă.

Pentru exemplificare, în figura „Secvenţa de program şi trace-ul aferent” se prezintă o secvenţă de program cu 7 instrucţiuni independente de date, precum şi trace-ul aferent execuţiei. Instrucţiunile 1, 2, şi 5 sunt ramificaţii (BR- Branch). Se presupune că ramificaţiile 2b şi 5c din trace sunt predicţionate greşit in trace, deci acestea nu ar permite execuţii speculative.

În figura „Execuţiile trace-ului pe modele” se prezintă execuţiile aferente acestui trace pe cele 4 modele anterior prezentate.

Dacă pe modelul BASE, execuţia trace-ului s-ar face în 8 tacte, pe modelul CD+MF se face in 5 tacte iar pe modelul SP în doar 3 tacte.

Simularea acestor modele pe benchmark- urile SPEC '92 a condus la grade medii (armonice!) de paralelism [instr./tact], prezentate în tabel.

Modelul ORACLE este unul perfect, în care singurele restricţii sunt date de dependenţele de date de tip „Read After Write” între instrucţiuni (în rest, se consideră predicţie perfectă a salturilor, resurse hardware infinite, bandă de fetch oricât de mare, etc.).
Concluzia ar fi că există un „semantic- gap” între performanţele reale la ora actuală (1-2 instr./tact) şi cele teoretic posibile. „Vina” este doar a schedulerelor actuale, extrem de conservatoare în privinţa instrucţiunilor de ramificaţie. Progresele în acest domeniu, care ţin doar de „inspiraţia” celor care se ocupă de aceste optimizări, nu vor fi în zadar pentru că, se pare, potenţial există.

Gradul teoretic IPL şi limitări

GRADUL TEORETIC DE PARALELISM

În continuare se prezintă o investigaţie cantitativă asupra potenţialului de ILP existent în aplicaţiile uzuale, la care a contribuit şi autorul.

S-a considerat un procesor HSA cu resurse infinite, predictor de branch-uri perfect, renaming perfect al regiştrilor şi dezambiguizare perfectă (model ORACLE). Aşadar, timpul de execuţie este restricţionat doar de către dependenţele reale de date (RAW), singurele care impun execuţia serializată. Latenţa tuturor instrucţiunilor este de un tact, cu excepţia celor de tip DIV care este 32 tacte şi respectiv MUL, 3 tacte.

Aşadar, pe un model hibrid superscalar- VLIW idealizat, media armonică a ratelor de procesare (IR - Issue Rates) este de 19.45 instr./tact (media aritmetică ar fi de 55 instr./tact, mai optimistă). Toate raportările ulterioare se vor face relativ la acest model de bază.

INSTRUCŢIUNI COMBINATE

În [Vas93] se arată că s-a reuşit proiectarea şi implementarea în tehnologie CMOS a unor unităţi ALU complexe cu 3 intrări şi care nu impun mărirea perioadei de tact a procesorului comparativ cu o unitate ALU clasică, având 2 intrări. Acest fapt a condus la ideea unor instrucţiuni ALU combinate care să conţină trei operanzi sursă în loc de doar doi. Aşadar, ar cădea în sarcina schedulerului să combine 2 instrucţiuni ALU dependente RAW într-una singură combinată. Mai precis, o secvenţă de 2 instrucţiuni dependente RAW printr-un registru (R1), ca mai jos:

ADD R1, R2, R3 
ADD R5, R1, R9

va fi transformată de către scheduler în-tr-o instrucţiune combinată, care va avea acelaşi timp de execuţie: ADD R5, R2, R3, R9.

Această tehnică, posibil de aplicat atât prin hardware (combinarea instrucţiunilor în bufferul de prefetch), cât şi prin software (scheduling), ar putea fi deosebit de agresivă întrucât ar acţiona asupra unei limitări considerată până acum fundamentală şi deci imposibil de depăşit: dependenţa de date RAW.

Se prezintă în continuare câteva evaluări cantitative ale acestei tehnici noi, pe arhitectura HSA şi trace-urile Stanford. Modelarea s-a bazat pe atribuirea aceluiaşi PIT pentru 2 instrucţiuni dependente RAW din trace şi care se pot combina conform unor reguli predefinite.

După cum era de aşteptat, instrucţiunile combinate generează o creştere semnificativă a performanţei, mai precis cu 60% faţă de modelul precedent, obţinându-se o medie armonică de 31.27 instr./tact. Consider acest câştig ca fiind suficient de ridicat, încât ideea instrucţiunilor combinate, implementabilă atât prin scheduler static, cât şi prin hardware, să „prindă teren” în viitor [Vin98].

În continuare, se vor determina pierderile cantitative de performanţă pe care diversele limitări artificiale le implică şi vom analiza aceste rezultate. Cu alte cuvinte, vom măsura mai multe „neputinţe” hard-soft actuale şi vom vedea cu cât ne îndepărtează ele, concret, de aceste idealuri stabilite anterior.

O LIMITARE: LATENŢA UNOR INSTRUCŢIUNI

Se va determina deci creşterea de performanţă, în ipoteza că toate instrucţiunile maşină ar avea latenţa de un tact. Cu alte cuvinte, se va încerca să se răspundă la următoarea întrebare: vor aduce viitoarele progrese în eficienţa algoritmilor de înmulţire şi împărţire, progrese semnificative?

Răspunsul cantitativ la această întrebare este dat de următoarea figură, obţinută pe baza metodei de analiză şi a simulatorului implementat în acest scop.

S-a obţinut o medie armonică de 20.57 instr./tact, deci constatăm o creştere cu doar 5.7% faţă de modelul de bază, ceea ce arată clar că reducerea latenţei instrucţiunilor DIV şi MUL nu va putea aduce creşteri spectaculoase de performanţă în execuţia programele de uz general. Desigur, în cazul aplicaţiilor cu un puternic caracter numeric, influenţa unor asemenea instrucţiuni ar fi importantă.

LIMITĂRI DATORATE BUCLELOR DE PROGRAM

Se va încerca să se determine cantitativ, degradarea ratei de procesare ideală anterior obţinută, atunci când există simultan două limitări, specifice schedulerelor actuale: instrucţiunile dintr-o buclă nu se vor lansa în execuţie până când toate instrucţiunile anterioare nu se vor fi terminat şi respectiv instrucţiunile care urmează unei bucle nu se vor lansa în execuţie până când toate instrucţiunile din buclă nu s-au lansat deja în execuţie.

Cu această restricţie, am obţinut următoarele rezultate:
Rezultă deci IR = 8.72 instr./tact, faţă de idealul IR = 19.45 instr./tact, adică o degradare a performanţei cu 123%, ceea ce reprezintă enorm. Iată de ce se impun în mod absolut necesar noi tehnici de paralelizare ale buclelor de program, întrucât acestea reprezintă o limitare majoră în calea obţinerii unor performanţe superioare în schedulingul global.

În continuare, se va determina degradarea de performanţă introdusă de fiecare componentă: limitarea la intrarea în buclă şi respectiv, la ieşirea din buclă, pentru a analiza contribuţia fiecăreia în parte la degradarea ratei de procesare.

Se constată că ratele medii armonice sunt cvasiegale în ambele cazuri, adică 9.61 respectiv 9.19 instr./tact, ceea ce arată că ambele restricţii sunt practic la fel de importante.

O altă limitare ar consta în forţarea execuţiei seriale a tuturor iteraţiilor unei bucle, aşadar ignorarea paralelizărilor în interiorul buclei prin tehnici de tip „Loop Unrolling” şi „Software Pipelining” [Vin97]. Rezultatele obţinute în acest caz se vor prezenta în continuare (Fig.10).

Scăderea de performanţă devine acum realmente dramatică, întrucât de la o rată ideală de 19.45 instr./tact s-a ajuns la una de 2.84 instr./tact, ceea ce înseamnă o degradare a performanţei cu 584%! Această degradare se datorează exclusiv serializării execuţiei buclelor. Adevărul este că aici progresele au fost semnificative, paralelizarea în cadrul buclelor de program fiind oarecum satisfăcătoare la acest moment .

LIMITAREA TOTALĂ A DEZAMBIGUIZĂRII REFERINŢELOR LA MEMORIE

Se doreşte aici, să se determine degradarea de performanţă relativă la modelul de bază, pe care o implică o execuţie In Order a instrucţiunilor de tip LOAD şi STORE. Aceasta este o caracteristică a majorităţii schedulerelor actuale.

Cu alte cuvinte, am modelat o procesare a instrucţiunilor, fără nici un mecanism de dezambiguizare (antialias) a referinţelor la memorie, deci cu forţarea execuţiei In Order a instrucţiunilor LOAD, respectiv STORE. Menţionez că majoritatea schedulerelor actuale nu au implementate mecanisme de dezambiguizare.

Din nou se observă o scădere de performanţă extrem de ridicată, de la 19.45 la doar 4.00 instr./tact, deci o reducere a performanţei cu 380%. Se impun deci clar metode mai puternice de dezambiguizare a referinţelor la memorie, comparativ cu cele deja existente, această provocare fiind una dintre cele mai importante în viitorul apropiat.

MACROINSTRUCŢIUNI SAU PROCEDURI?

Se ştie că procedurile implică salvări/restaurări laborioase de contexte şi totodată sunt mari consumatoare de timp. „In lining”-ul acestora ar mări semnificativ lungimea codului, dar ar micşora timpul de execuţie. În cele ce urmează, prezentăm rezultatele obţinute pentru un in- lining perfect al tuturor procedurilor. Acest model ignoră în simulare toate instrucţiunile de salvare/restaurare asociate procedurilor existente în programele benchmark utilizate.

Rezultatele obţinute prin simularea acestei idei sunt prezentate în figura 12.

Se constată o creştere a gradului de paralelism de la 19.45 la 28.24 instr./tact, adică cu 45% mai mult, ceea ce este semnificativ. Concluzia autorului este că trebuiesc găsite aici soluţii de compromis de tip in lining selectiv, pe baze euristice, întrucât se pare că beneficiile asupra performanţei ar putea să fie majore. O euristică relativă la această selecţie ar trebui să ţină cont, în opinia mea, de lungimea procedurii şi de cât de des este ea apelată. De asemenea, în acelaşi sens, este important dacă procedura respectivă mai apelează la rândul ei alte proceduri.

În concluzie, în concordanţă cu aceste investigaţii, performanţa arhitecturilor MEM poate fi serios îmbunătăţită în opinia autorului, şi nu numai prin dezvoltarea următoarelor tehnici:

• tehnici agresive de paralelizare a buclelor de program ;
• tehnici de utilizare hard/soft a instrucţiunilor combinate în vederea eliminării dependenţelor reale de date. Tot aici considerăm ca deosebit de utilă o viitoare generalizare a acestor mecanisme de instrucţiuni combinate.
• tehnici de in lining selectiv al procedurilor
• noi tehnici de dezambiguizare a referinţelor la memorie
• eliminarea de către compilator a restricţiilor generate prin dependenţele de control.

Aşadar, cred că ne putem aştepta în continuare la performanţe semnificative în domeniul microprocesoarelor avansate şi datorate în primul rând unor îmbunătăţiri ale compilatoarelor (schedulerelor) respective. Limitările actuale sunt în primul rând datorate nouă, minţilor noastre, domeniul ILP fiind încă departe de a fi epuizat, după peste 17 ani de cercetări asidue... în alte ţări. Situaţia este oarecum similară în domeniul arhitecturilor cu paralelism masiv. Este încă o dovadă, dacă mai era necesară, că progresele ingineriei calculatoarelor sunt tributare mai întâi „sărăciei ideilor” (algoritmilor de procesare) şi abia mai apoi lipsei unor tehnologii (hardware) puternice. Poate că o înţelegere mai profundă şi mai complexă a acestui fapt la noi în ţară, în mediile academice în primul rând, coroborată cu un management adecvat al cercetării prin „instituţionalizarea” acesteia, ar putea naşte proiecte şi rezultate de primă mărime în ştiinţa şi ingineria calculatoarelor, pe plan mondial chiar.

BIBLIOGRAFIE
[Col95] Collins R. - Exploiting Parallelism in a Superscalar Architecture, PhD thesis, University of Hertfordshire, U.K., 1996.
[Fra 92] Franklin M., Sohi G.- The Expandable Split Window Paradigm for Exploiting Fine Grain Parallelism, Proceedings 19th Ann. Int. Conf. on Comp. Archit., New York, 1992
[Hua94] Huang A., s.a.- Speculative Disambiguation: A Compilation Technique for Dynamic Memory Disambiguation, Int. Symposium of Computer Architecture, Chicago, April, 1994
[Hwu95] Hwu W.- The Superblock: An Effective Technique for VLIW and Superscalar Compilation, Journal of Supercomputing, Vol.7, 1995[Lam92] Lam M., Wilson R.- Limits of Control Flow on Parallelism, Proc. 19th Ann. Int'l Symp. Computer Architecture, 1992
[Lam92] Lam M., Wilson R.- Limits of Control Flow on Parallelism, Proc. 19th Ann. Int'l Symp. Computer Architecture, 1992
[Ste96] Steven G. B., s.a. - A Superscalar Architecture to Exploit ILP, Euromicro Conference, 2-5 september, Prague, 1996.
[Vas93] Vassiliadis S., Phillips J., Blaner B. - Interlock Collapsing ALUs, IEEE Trans. Computers, No. 7, 1993.
[Vin97] Vinţan L.- Metode de evaluare si optimizare in arhitecturile paralele de tip ILP, Editura Universitatii „Lucian Blaga” din Sibiu, ISBN 973-9280-67-6, 1997
[Vin98] Vinţan L., Steven G.- Static Data Dependence Collapsing in a High Performance Superscalar Architecture,The 3-rd International Conference on Massively Parallel Computing Systems, Colorado Springs, U.S.A., 6-9 April, 1998
[Wal91] Wall D.- Limits of Instruction Level Parallelism, ASPLOS Conf., 1991

Investigaţii asupra limitelor de paralelism

Gradul teoretic IPL şi limitări

BYTE România - martie 1998

(C) Copyright Computer Press Agora