Kako da optimizujem mnozenje dve kvadratne matrice 4x4 za SSE instrukcije i kako da najelegantnije uradim filtriranje senke u shadow mapping algoritmu kod fragment shader-a (posto rezoluciju depth map texture ne mogu da povecam - imam 9600XT i za nju kazu da je max 512x512x16bit za depth bufer)?