Tecnología

El mito del reconocimiento de voz en el PC

Hacía tiempo que no leía a mi admirado Jeff Atwood, al que sigo en Twitter por inercia (aunque sus tweets son bastante tostón, la verdad) y que publica cada vez menos en su blog. El último artículo ahora mismo es el del 21 de junio, y habla sobre un tema curioso: el reconocimiento de voz en los ordenadores.

Muchas empresas han tratado de popularizar este sistema como la nueva revolución en interfaces de usuario, dotando a nuestros sistemas operativos de aplicaciones nativas que eran capaces de hacer que controlásemos el PC o el portátil a través de órdenes de voz.

Pero es que una cosa es el control por voz (“Abrir-Internet-Explorer”, “Cerrar-ventana”), y otra muy distinta el reconocimiento de voz, en el que uno espera que todo lo que digamos al ordenador sea perfectamente interpretado y reconocido por esos algoritmos de reconocimiento.

Y es que, como dice Atwood en Coding Horror, hay un problema clave en el reconocimiento de voz:

Que no funciona.

Puede que la afirmación sea algo tajante, pero no por ello deja de ser cierta. Al menos, en gran parte. Y tengo que certificar sus palabras: durante aproximadamente un mes traté de usar de forma permanente Dragon Naturally Speaking 11 para escribir mis artículos en los medios en los que trabajo.

El resultado fue bastante decepcionante, y a pesar de irme acostumbrando a parecer un loco hablando en un tono alto y claro (exigencias del programa), la tasa de aciertos nunca fue satisfactoria.

Más aún cuando en la jerga informática hay que utilizar continuamente nombres de empresas y tecnologías que los programas de reconocimiento de voz no pillan. Ni a la primera, ni a la segunda, y muchas veces, ni a la enésima. Eso provocaba que cada tres por cuatro tuviera que parar el reconocimiento (“A dormir”, qué gracia me hacía aquello) para corregir la frase o palabra tirando de ratón y teclado, como en los buenos y viejos tiempos.

En el artículo de Coding Horror se plasma esa situación con un pequeño diagrama -sacado de un artículo relacionado con el tema e igualmente interesante- en el que se explica que en la actualidad el acierto en programas de reconocimiento de voz no pasa del 80%, mientras que el nivel requerido para trabajar de forma cómoda debería ser del 96 al 98%.

Voice-recognition-accuracy-rate-over-time

De hecho, lo curioso del caso es que ya no sirve de nada tener un maquinón para acelerar el procesamiento de nuestra voz y los algoritmos de reconocimiento. Estamos en el mismo punto en que estábamos hace 10 años:

In 2001 recognition accuracy topped out at 80%, far short of HAL-like levels of comprehension. Adding data or computing power made no difference. Researchers at Carnegie Mellon University checked again in 2006 and found the situation unchanged.

With human discrimination as high as 98%, the unclosed gap left little basis for conversation. But sticking to a few topics, like numbers, helped. Saying €œone€ into the phone works about as well as pressing a button, approaching 100% accuracy. But loosen the vocabulary constraint and recognition begins to drift, turning to vertigo in the wide-open vastness of linguistic space.

Así es: no se ha avanzado, y nos tenemos que limitar al control por voz, que consta de órdenes simples, mecánicas, y que, todo hay que decirlo, ayudan en ciertos escenarios como los de la accesibilidad para personas invidentes o con algún tipo de minusvalía. Sin embargo, esos sistemas nunca podrán sustituir -al menos, eso parece- a los fantásticos ratones y teclados a los que ya estamos pegados.

Así que ale, a volver a los buenos y viejos tiempos.


Incognichollos

Esta es una selección con las mejores ofertas tecnológicas actualizadas casi diariamente, como expliqué aquí. Aunque estés en un post “antiguo” las ofertas son de última hora, los Incognichollos los actualizo aparte. Aprovecha, que no suelen durar mucho tiempo 🙂

  • Xiaomi Mi 6 64 GB: el súper telefonazo de este fabricante sigue bajando de precio: todo un Snapdragon 835 con 6 GB de RAM y 64 GB de ROM a un precio fantástico: a 341,90 euros en TomTop con el cupón DSXM664. El modelo de 128 GB está a 438,34 euros en GearBest con el cupón MiMK4G.
  • PS4 Reacondicionada certificada: o lo que es lo mismo, teóricamente perfecta y con la garantía de 1 año del fabricante y Amazon que es que la vende. Llega con un mando y a precio fantástico si te la quieres regalar (a ti o a otro): está a 186,33 euros en Amazon
  • OnePlus 5 64 GB: el nuevo súper telefono de OnePlus, con cámara dual (16+20 MP), un Snapdragon 835 6 GB de RAM y 64 GB de capacidad (no ampliables). Está a 390,12 euros en GearBest con el cupón OP64ES. A mí, que conste, me gusta más el Mi 6, pero si os importa la pantalla AMOLED de 5,5 pulgadas, aquí tenéis al candidato. Por cierto, la versión con 8 GB de RAM y 128 GB de capacidad está a 511,03 euros en GearBest con el cupón OnePlus5.
  • Samsung Galaxy S7 Edge: el tope de gama de Samsung del año pasado (en su versión Dual SIM liberada) sigue siendo un telefonazo con esa pantalla curvada de 5,5 pulgadas, 4 GB de RAM, 32 GB de capacidad (ampliables) y sobre todo una cámara fantástica. Está a 399 euros en eBay
  • LG G6: el súper teléfono con pantalla casi sin bordes y ese curioso formato 18:9, un Snapdragon 821, 4 GB de RAM, 64 GB capacidad y esa doble cámara de 13 Mpíxeles tan fantástica. Está a precio de risa: 349 euros en eBay. Increíble para un tope de gama de 2017.
  • Clave de Windows 10 Pro: si no queréis complicaros la vida a la hora de instalar este sistema operativo, en Amazon están vendiendo licencias a un precio fantástico, y lo de que sea esta tienda quien gestiona todo da cierta confianza, porque el precio es demasiado bueno: 8 euros en Amazon, uauh.
  • OnePlus 3T: aunque el OP5 ya está disponible este modelo sigue siendo interesante. El Snapdragon 821, 6 GB de RAM, 64 GB de capacidad y una cámara muy maja justifican un precio que no está nada mal: 326,29 euros en Banggood con el cupón 7BGESOP3T64.
  • Teclado Bluetooth para tablet: está en español, es delgadito, compatible con iOS, Android, macOS y Windows y sobre todo tiene un precio atractivo para un accesorio de batalla: 11,57 euros en Amazon. Relacionado: este teclado mecánico con eñe está a 27,99 euros en Amazon con el cupón JODNA9BS.
  • ASUS ZenFone Zoom 128 GB: destaca por su zoom 3x (análisis) y una parte trasera que recuerda mucho a los Lumia 1020. Las especificaciones son curiosas: un Atom Z3590, 4 GB de RAM, 128 GB de capacidad (uauh) y pantalla 1080p de 5,5 pulgadas. Una opción interesante por los 166,56 euros que cuesta en GearBest con el cupón ZX551MH.
  • Alcoholímetro digital: incognichollo offtopic curioso, pero útil. Si quieres comprobar si puedes conducir o no, atento a este dispositivo con 20 boquillas desechables. Está a 12,99 euros en Amazon.
  • Xiaomi Air 13: el portátil más chollo de los últimos tiempos vuelve a estar a precio destacado. Ya sabéis, no tiene desperdicio y es una gran opción si buscáis portátiles de esta gama. Está a 569,84 euros en GearBest con el cupón ESMAIR13 para el modelo plateado, ole. 
  • Moto Z Play 64 GB: uno de los terminales más curiosos del año pasado, y que sigue teniendo su encanto aún hoy, sobre todo por los Moto Mods. Pantalla de 5,5 1080p, SnapDragon 625, 3 GB de RAM, 64 GB de capacidad (ampliables) y cámara de 16 Mpíxeles, todo por 218,63 euros en Banggood.
  • GamePad para Android/iOS: si queréis jugar en vuestro móvil con un mando tipo PS4/Xbox que además tiene soporte para el móvil, atentos al GamePad de Ipega, que cuenta con conexión Bluetooth y batería de 380 mAh. El precio, 12,33 euros en GearBest con el cupón IPEGAES.
  • Clave de Microsoft Office 2016: si además de Windows 10 queréis usar la suite ofimática de Microsoft, aquí tenéis licencias de la versión de 2016 a precio igualmente fantástico: 11,30 euros en Amazon.
  • Xiaomi Mi Note 2 64 GB: el phablet de 5,7 pulgadas de Xiaomi llega con un Snapdragon 821, 4 GB de RAM y 64 GB de capacidad, pero sobre todo con una batería brutal de 4.070 mAh. Si os gustan los móviles grandotes y valoráis que la batería dure mucho, gran opción. Lo tenéis a 278,74 euros en Banggood con el cupón 7BGESMN264.
  • Gafas polarizadas de oferta: incognichollo off-topic, pero es que las críticas son fantásticas para estas gafas que valen tanto para hacer deporte como para dar una vuelta. Polarizadas y con diseño simpático. Adivinad quién acaba de coger unas 😉 Están a 12,99 euros en Amazon.
  • SSD Samsung 850 EVO 1 TB: nada menos que un terabyte de capacidad para esta unidad impresionante de Samsung que tiene un precio estupendo si os apetece tener mucho almacenamiento en vuestro equipo, y muy rápido. Está a 312,60 euros en Amazon (22% dto.). Algo peor en rendimiento pero más barato es el WD Blue de 1 TB que está a 269 euros en PCComponentes. Uauh.
  • Dron DJI Phantom 3: uno de los mejores drones de los últimos tiempos está a precio de escándalo, así que si queréis ir más allá en este ámbito, gran opción. Lo tenéis a 359,99 euros en TomTop con el cupón WCTDJIPH3.
  • Patinete eléctrico Xiaomi: el scooter de Xiaomi es una buena opción para desplazamientos urbanos. Hasta 30 km de autonomía, velocidades de 25 km/h. Todo por un precio de 333,14 euros en GearBest con el cupón GBXMSTE.
  • Xiaomi Mi 5s: la versión más potente del Mi5, que llega con el Snapdragon 821, 3 GB de RAM y 64 GB de capacidad, además de esa cámara de 12 Mpíxeles con el mismo sensor de los Google Pixel. Está a 227,06 euros en GearBest.
  • Xiaomi Mi WiFi Router/NAS: este router que es medio NAS también mola porque tiene un disco duro de 1 TB dentro y porque además de tener WiFi de doble banda tiene NFC (para negociar la conexión WiFi) y un software llamativo. Por 114,84 euros en GearBest y con envío rápido, mola.
  • Xiaomi Air 12: y si queréis ahorrar algo de dinero en un modelo algo más modesto, el 12,5 pulgadas con un Core m3. 4 GB de RAM y 128 GB de SSD es una fantástica opción. Está a 391,13 euros en GearBest con el cupón ESAIR12. La versión más potente con un m3-7Y30 (más eficiente) está a 444,99 euros en GearBest con el cupón NEWMIAIR12.
  • Samsung Galaxy S6 32 GB: un móvil fantástico aunque sea un modelo de hace dos años. Si buscáis una gran cámara y un hardware que no está nada mal lo tenéis en eBay por 229,99 euros. Mucho mejor que muchos actuales con ese precio, creedme.
  • Xiaomi Mi 5 64 GB: la versión internacional de este móvil tope de gama y con precio absolutamente ridículo. Ni Motorolas G5s ni leches. Si buscáis un móvil de garantías compradlo ya, porque además ha bajado de precio: Está a 204,26 euros en GearBest con el cupón HYMi564.
  • Cámara deportiva 4K: el verano es una época fantástica para juguetear con estas cámaras de aventura estilo GoPro. Como otras muchas, esta ofrece buenas prestaciones a precio ridículo: sumergible gracias a la carcasa incluida, WiFi, grabación en 4K a 30 fps y en 1080p a 60 fps. Está a 17,99 euros en TomTop.
  • Portátil Chuwi LapBook 12.3: un equipo de lo más interesante con un Celeron N3450, Windows 10 Home, pantalla de 12,3 pulgadas con resolución 2.736 x 1.824, 6 GB de RAM y 64 GB de capacidad (ampliables), además de puerto HDMI, 2xUSB 3.0 y batería de 8.000 mAh. Muy, muy cuco por 271,77 euros en GearBest. El modelo de 14 pulgadas es aún más barato, y está a 201,63 euros en GearBest.
  • Xiaomi Mi Max 2: la versión con ROM internacional de este súperphablet de 6,44 pulgadas está súper rebajado. Llega con un Snapdragon 625, cámara de 12 Mpíxeles, 4 GB de RAM y 64 GB de capacidad y esa batería inacabable de 5.300 mAh. Está a 245,47 euros en GearBest.
  • Huawei P8 Lite: este cinco pulgadas (análisis)  sigue teniendo encanto con su Kirin 655, 3 GB de RAM y 16 GB de capacidad. Cuenta con lector de huellas y cámara de 12 Mpíxeles, muy simpático por 150,90 euros en Amazon.
  • Chuwi Hi10 Plus: un tablet convertible que puede haceros un buen servicio en viajes y vacaciones. Cuenta con una pantalla de 10,8 pulgadas (1.920 x 1.280), Intel Atom X5-Z8350, 4 GB de RAM, 64 GB de capacidad ampliables y Windows 10 o Android 5.1. Cuesta 140,97 euros en GearBest con el cupón HI10PLUS, y la funda-teclado opcional (pero que es lo que le da sentido al conjunto) cuesta 25,45 euros
  • Xiaomi Mi 5s Plus: una gran opción para esta variante “grande” del 5s. Tienes pantalla de 5,7 pulgadas, un Snapdragon 821, 4 GB de RAM y 64 GB de capacidad (no ampliables), doble cámara de 13 Mpíxeles (interesante, interesante) y una batería de 3.800 mAh. Está a 264,32 euros en GearBest.
  • Disco duro externo Maxtor 1 TB: Backups al poder, chicos. 49,80 euros en Amazon (25% dto.). 2 TB a 72,40 euros en Amazon (27% dto.) y 4 TB a 124,30 euros en Amazon (35% dto.)

¿Quieres recibir un correo de aviso cuando publique nuevas entradas?

Standard

10 comentarios en “El mito del reconocimiento de voz en el PC

  1. Varo dice:

    Hola Javier: gracias por tu blog que sigo desde hace dos años, cuando me compré mi “Koyi”
    utilizó el programa Dragon NaturallySpeaking en español, alemán e inglés con distintas instalaciones desde hace varios años. Es cierto que en muchas ocasiones hay que corregir algunas palabras, especialmente términos técnicos o nombres propios, pero la comodidad de poder dictar 100 páginas mientras uno está tumbado en la cama (estoy escribiendo mi doctorado) no tiene precio. Después de muchas pruebas debo decir que hay dos factores esenciales en el reconocimiento de voz:
    1. La potencia del procesador. Como digo, lo utilizó desde hace años, en distintos ordenadores (entre ellos mi “Koyi” con instalación dual alemán y español) y el procesador se nota.
    2. La calidad del micrófono. Es un apartado esencial. Utilizó unos auriculares Logitech inalámbricos, aunque también he obtenido muy buenos resultados con un simple micrófono Bluetooth de Nokia.
    Aunque mucha gente no lo sabe Windows vista tiene integrado un sistema de reconocimiento de voz que funciona bastante bien, pero sin alcanzar la calidad del Dragon NaturallySpeaking. Este texto lo he escrito utilizando este programa y la única palabra que he tenido que deletrear ha sido “koyi”. No me he molestado en intentar controlar todas las funciones del ordenador por medio de la voz, para no estar siempre pendiente de los auriculares, pero desde luego para textos extensos es una gozada.
    Un saludo desde Alemania

    • JaviPas dice:

      Varo, gracias por el comentario 😉 Ya veo que algunos le habéis pillado el tranquillo. Está claro que para trasladar/transcribir textos es una solución interesante, pero si uno tiene que escribir “sobre la marcha” la cosa se complica.

      Al menos esa fue mi experiencia, y David, entrené a tope. Durante un mes. Y no me acabó compensando. De todos modos, como dice Varo igual el micro es importante, yo usaba uno de andar por casa y eso podría haber influido.

      No sé, quizá le dé una nueva oportunidad al tema en el futuro, pero cuando estuve probando llegué a la conclusión de que escribo más rápido de lo que dicto… al menos con las molestias de andar corrigiendo.

  2. Varo dice:

    Gracias por la respuesta, Javier. Me alegro de por una vez poder aportar algo a tu fantástico blog, y es que como soy muy vago, en el tema de reconocimiento de voz tengo mucha experiencia.
    Empeze con el Viavoice de IBM hace años, que era una patata. Había que leer medio Quijote para que empezase a entender algo, pero con el Dragon Naturallyspeaking en 10 minutos lo entiende todo. Algunos amigos han probado incluso con mi perfil de voz y el reconocimiento era asombroso. Por cierto, Viavoice lo compró Nuance hace algún tiempo y supongo que ahora tendra el mismo motor de reconocimiento que Dragon (Nuance).

    La versión que uso en alemán la tengo instalada en una máquina virtual con XP y aunque mi pronunciación no es perfecta el reconocimiento es tan bueno como en español. Por desgracia Dragon no admite instalaciones múltiples y hay que recurrir a trucos. El inglés lo trae de serie con el español.
    Se me había olvidado añadir que otro factor muy importante (además del micrófono) es el ruido ambiente. Yo lo utilizo sólo en mi casa o en la oficina con la ventana cerrada. Con el Koyi, en la calle… ni te molestes. Y para lo que tú haces, que me supongo estarás escribiendo en cualquier sitio, seguramente no te compense. Pero en contextos de dictado en los que yo lo uso, traducción, redacción de informes, tesis doctoral,etc, es fantástico.

    Dragon tiene una versión juridica y otra médica, que en los EE.UU. están extendidísimas. De hecho una de las primeras aplicaciones para el iPad ha sido el Dragon.

    El amigo que me recomendo tu blog, que es un profesional de la informática (!ese Logro!) lo utilizó además de para preparar las oposiciones (elaboró todo el temario con Dragon), para introducir varios miles de cifras en una base de datos con una precisión casi perfecta.

    Por cierto, mi Koyi también está buscando sustituto. Siguiendo tu ejemplo, tengo un arranque múltiple, aunque sólo doble con Vista Ultimate (1 usuario en alemán y otro en español) y un Mac OS. (El Ubuntu en el pendrive) y el pobre no da para más. En reconocimiento de voz va lentííísimo (se nota la potencia) y el programa de reconocimiento de Vista va regular. En cualquier caso el micrófono sigue siendo determinante. Como yo el Koyi lo utilizo más que para escribir, para dar clases en la Uni y en viajes, estoy esperando a las nuevas tabletas en otoño. El Ipad aquí todavía no se ha visto ni uno. A ver si se mueven las otras empresas que la competencia es lo mejor que hay y apple está muy sola.

    Gracias por tu blog y muchos saludos desde Jena-Turingia-Alemania

    • JaviPas dice:

      Gracias a ti también por los comentarios, me alegro de que participes 😉 así que no desfallezcas y comenta cuando quieras!

      Cuando utilicé DNS lo hice en casita y en español, así que ruido ambiente no había. Como digo, me acabé cansando de estar corrigiendo nombres de empresas y tecnologías cuando iba dictando las noticias. Por cierto, en casa trabajo con maquinón, así que problema por ese lado no puede haber 😉

      Ya me contarás si cambias finalmente el Koji. Yo sigo planteándomelo, pero tardo en tomar decisiones, me gusta otear bien el mercado, y no tengo una prisa especial. Yo ahora lo tengo bastante distinto a como lo tenía en los primeros tiempos. Mac OS X desapareció y ahora lo uso con W7, pero siempre en arranque múltiple con sistemas para netbooks varios. Ahora tengo Jolicloud, MeeGo, Chromium OS Flow y, por supuesto, una Ubuntu 10.04. Y voy cambiando según me va 😉

      Suerte con la tesis! Si algún día voy por allí ya contactaré para tomarme unos frankfurten con una buena bier 😉

  3. Varo dice:

    Eso está hecho. Pero nada de frankfurten que Turingia es la capital de las Bratwurst (mucho mejores, palabrita) y con una cervecita negra Köstrizer… ummmmm. Yo invito, en serio. Si quieres ver como es esto mira el blog de mi página que es la dirección de mi correo. Hace mucho que no la actualizo pero en el blog se ven unos videos de Navidad muy chulos.
    Saludos

    • clon dice:

      Hola Varo… estuve leyendo tus mensajes en el blog y me parecio que estas muy entrado en esto del DNS, es por eso que te pido un gran favor, que me ayudes a encontrar un perfil en ingles en lo preferente de alquien nativo de U.S., estoy en un curso de ingles y estoy adelantando muchisimo mi unico problema es el da la pronunciacion, pienso que con un buen perfil prodria mejorar muchisimo mi ingles….Un gran abrazo a la distancia y gracias…….

  4. Oscaar dice:

    Yo empece a utilizar el DNS 10 pero coincido con ustedes que se debe tener un ambiente libre de ruido, y poseer un buen micròfono para que de buenos resultados, estoy empezando a utilizar el reconomiento de voz de W7 y me parece mucho mejor que el DNS en cuanto a presiciòn ya que lo he usado con un micròfono de mala calidad marca “patito” y con la televisiòn encendida y me ha funcionado bien, en cuanto a palabras tècnicas y lèxico especial, pues sí, hay que ir ingresándolas a la aplicaciòn para que las vaya grabando y no haya problema con ellas en futuras ocasiones, y hablando al respecto, que micròfono me recomiendan para el reconocimiento de voz.

  5. Hola, pues a mi el reconocimiento de voz me funciona bastante bien, de hecho, lo uso para redactar trabajos de investigación en el colegio, etc. La calidad del micrófono es crucial, sin embargo, también depende de la potencia del procesador, porque se puede aumentar o disminuir la precisión del DNS. Un consejo que le doy al que escribió esta noticia es que almacene en un documento de Word o .txt todas las palabras técnicas con el teclado, después vaya al DNS y las pase por el sistema que recopila más palabras para agregarlas a diccionario, así se te hará más fácil que el sistema reconozca las palabras técnicas.

Comentarios cerrados