Dokumen ini mengusulkan sebuah taksonomi untuk mengklasifikasikan dokumen HTML dalam bahasa Basque di situs-situs web. Taksonomi ini didasarkan pada analisis multidimensi yang mempertimbangkan konten, fungsi, struktur, dan konteks dokumen. Untuk penelitian ini, korpus utama terdiri dari dokumen dari empat situs berita utama dalam bahasa Basque. Taksonomi yang diusulkan terdiri dari enam dimensi: dokumen
49. Aurrekariesanguratsuenak “Towards a taxonomy of web registers and text types: a multidimensional analysis”, BiberBiber eta JerryKurjian. “GenreClassificationof Web Pages”, SvenMeyer zu Eissen eta BennoStein. “Multiple sets of features for automatic genre classification of web documents”, Chul Su Lim, Kong JooLee eta Gil ChangKim. “Taxonomías para la categorización y organización de la informaciónenlossitios web”, Miguel RodopiCentelles. “Appliedgenreanalysis: a multi-perspectivemodel”, Vijay K Bathia. MT AA
50.
51. Sarerako bilaketa sistemak diseinatzerakoan, ez dago Interneteko materialak sailkatzeko genero zerrendarik.
52. Biber eta Kurjianen ikerketak lau dimentsio hauek proposatu zituen faktoreen analisia eginda:
58. Ikerketan baztertu egin zituzten 200 hitz baino gutxiagoko testuak. Ziberhedabideetako testu asko multzo baztergarri horretan egon litezkeenez gero, funtzioaren aldagaietan, dokumentu motaren azpiatalak aukera berezi bat izan beharko du “mikrotestuentzat”.
59. Euren lau dimentsioak apalegiak dira taxonomia baterako; oso baliagarriak dira egin zuten konparaketa lanerako, baina ziberhedabideetako HTML dokumentuak sailkatzekogalbahe zabalegia dira.MT AA