| | 2 | |
| | 3 | == Source == |
| | 4 | |
| | 5 | The source for this corpus was taken from !OpenSubtitles corpus made available within [[http://opus.lingfil.uu.se/OpenSubtitles2016.php|OPUS2 parallel corpus]]. |
| | 6 | |
| | 7 | == Statistics == |
| | 8 | |
| | 9 | Czech part: 32,345,496 tokens, 24,101,302 words, 4,235,111 segments (utterances, sentences). |
| | 10 | Norwegian part: 32,549,746 tokens, 25,503,941 words. |
| | 11 | |
| | 12 | == Examples == |
| | 13 | |
| | 14 | === Norwegian words with more than 100,000 occurrences === |
| | 15 | |
| | 16 | {{{ |
| | 17 | er 821,781 |
| | 18 | det 589,721 |
| | 19 | du 554,116 |
| | 20 | Jeg 547,501 |
| | 21 | ikke 506,186 |
| | 22 | jeg 418,217 |
| | 23 | en 360,871 |
| | 24 | i 341,400 |
| | 25 | har 315,050 |
| | 26 | Det 310,092 |
| | 27 | på 307,877 |
| | 28 | å 296,603 |
| | 29 | og 293,047 |
| | 30 | til 271,992 |
| | 31 | deg 259,043 |
| | 32 | meg 245,155 |
| | 33 | med 242,594 |
| | 34 | for 213,835 |
| | 35 | Du 211,802 |
| | 36 | at 204,376 |
| | 37 | som 203,379 |
| | 38 | vi 171,073 |
| | 39 | var 165,487 |
| | 40 | kan 162,222 |
| | 41 | av 160,980 |
| | 42 | om 149,962 |
| | 43 | den 148,767 |
| | 44 | vil 147,605 |
| | 45 | så 147,174 |
| | 46 | Vi 145,267 |
| | 47 | et 138,850 |
| | 48 | han 126,251 |
| | 49 | skal 119,570 |
| | 50 | Hva 110,797 |
| | 51 | de 110,202 |
| | 52 | Han 107,929 |
| | 53 | må 101,278 |
| | 54 | }}} |
| | 55 | |
| | 56 | === Czech words with more than 100,000 occurrences === |
| | 57 | |
| | 58 | {{{ |
| | 59 | to 656,606 |
| | 60 | se 560,332 |
| | 61 | je 422,521 |
| | 62 | že 345,153 |
| | 63 | na 327,317 |
| | 64 | jsem 309,133 |
| | 65 | a 297,950 |
| | 66 | si 231,641 |
| | 67 | v 201,975 |
| | 68 | co 172,431 |
| | 69 | To 160,908 |
| | 70 | s 152,526 |
| | 71 | A 149,175 |
| | 72 | mi 142,779 |
| | 73 | mě 132,047 |
| | 74 | tak 121,439 |
| | 75 | jsi 118,647 |
| | 76 | do 113,030 |
| | 77 | o 112,856 |
| | 78 | Je 106,979 |
| | 79 | }}} |
| | 80 | |
| | 81 | === Example parallel segments === |
| | 82 | |
| | 83 | {{{ |
| | 84 | Om jeg hadde $ 300, kunne jeg kommet meg til Tyskland. <==> Ne, ale kdybych měl 300$, dostal bych se do Německa. |
| | 85 | Aldri i livet! <==> Až naprší a uschne. |
| | 86 | Jeg vil bli her... og fiske, slik Manuel gjorde. <==> Chci zůstat tady... a jezdit na ryby, jako Manuel. |
| | 87 | Transilvania. <==> Transylvánie. |
| | 88 | "Polka-Dot banditten og gjengen beskyldt for å utføre røveriet" <==> "Podezření padá na banditu Polka-Dot ." |
| | 89 | Fortsette som før? <==> Jako dřív? |
| | 90 | Nå har vi rikelig med sol for smilefjeset. <==> Tedˇ svítí sluníčko pro pana Štˇastného. |
| | 91 | Det minner meg om de ødelagte forsvarsverker på mitt eget slått i Transilvania. <==> Připomíná mi to zchátralé cimbuří mého vlastního hradu v Transylvánii. |
| | 92 | Ikke minn meg på det. <==> Nepřipomínej mi to. |
| | 93 | Følge etter? <==> - Sledovat? |
| | 94 | }}} |